Számítógép fedte fel J. K. Rowling titkát
Nemrég jelent meg a The Cuckoo's Calling című detektívregény, egy bizonyos Robert Gailbraith tollából: nem produkált hatalmas eladásokat, de jó kritikákat kapott. Aztán kiderült, hogy a valódi szerző a Harry Potter-sorozat írója, J. K. Rowling. Miután a Times kérdőre vonta, Rowling elismerte, hogy valóban ő a szerző.Ez bizony nem sci-fi, meg nem "brittudósos" marhaság, még ha az indexen is olvastam. :)
Amikor annó sok évvel ezelött beleugrottam az "adatbányászat" nevű mélyvízbe, ez a szövegbányászati feladatcsalád volt számomra az egyik legizgalmasabb, legkedvesebb.
Előzmény: index.hu-s fórumolásoknál, az ottani permanensen inkorrekt moderatúra miatt értékes nickek vesztek el a beszélgetésekből, akik más nickeken visszatértek és azonnal lehetett tudni, hogy mely nickek mögött ugyanaz a személy. A kérdés csak az volt mindig is, hogy gépi tanulással is detektálható-e a dolog, Ha igen, hogyan miképpen? Mi az a dologhoz szükséges minimális információtömeg, ami maximalizálja a prediktálási valószínűséget? Egyáltalán hogy korrelál a két dolog (alapszöveg és a reáépülő prediktálási minőség) egymással.
Sajnos azóta sem tudtam mélyebben foglalkozni a témával. De van egy sejtésem, amit talán egy ilyen blogposzt elbír.
Közkeletű axióma adatbányászoknál, hogy a több adat nem feltétlen jobb (hiszen, ha zaj a több, akkor éppen hogy rosszabb), sőt nemegyszer a kevesebb relevánsan több, akár csak az átalános dimenzióredukciós módszereket alkalmazva is.
De nem így ennél a feladatcsaládnál talán. Itt a "több"-et egyetlen ember generálja és nem pedig "gép(ek)/emberek". Az egyetlen ember meg (agyi és pszichológiai) korlátot jelent a tanuló algoritmusok zaj általi megzavarásában. Egy ember minél többet beszél annál többet árul el magáról. Nem véletlen, hogy rendőrségi nyomozásoknál is élnek a "mennyiségi kényszer"-rel, kihallgatásoknál, vagy pszichológiai jellegű kérdőíveknél egy szempontra többször többféleképpen kérdeznek rá.
A konklúzióm/sejtésem tehát: Az ember hibázik és időben távolodva egyre nehezebben tudja koherensen becsapni a gépet (gépi tanuló algoritmusokat).
Nincsenek megjegyzések:
Megjegyzés küldése