Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. július 19., péntek

Számítógép fedte fel J. K. Rowling titkát


Számítógép fedte fel J. K. Rowling titkát

Nemrég jelent meg a The Cuckoo's Calling című detektívregény, egy bizonyos Robert Gailbraith tollából: nem produkált hatalmas eladásokat, de jó kritikákat kapott. Aztán kiderült, hogy a valódi szerző a Harry Potter-sorozat írója, J. K. Rowling. Miután a Times kérdőre vonta, Rowling elismerte, hogy valóban ő a szerző.
Ez bizony nem sci-fi, meg nem "brittudósos" marhaság, még ha az indexen is olvastam. :)

Amikor annó sok évvel ezelött beleugrottam az "adatbányászat" nevű mélyvízbe, ez a szövegbányászati feladatcsalád volt számomra az egyik legizgalmasabb, legkedvesebb.

Előzmény: index.hu-s fórumolásoknál, az ottani permanensen inkorrekt moderatúra miatt értékes nickek vesztek el a beszélgetésekből, akik más nickeken visszatértek és azonnal lehetett tudni, hogy mely nickek mögött ugyanaz a személy. A kérdés csak az volt mindig is, hogy gépi tanulással is detektálható-e a dolog, Ha igen, hogyan miképpen? Mi az a dologhoz szükséges minimális információtömeg, ami maximalizálja a prediktálási valószínűséget? Egyáltalán hogy korrelál a két dolog (alapszöveg és a reáépülő prediktálási minőség) egymással.

Sajnos azóta sem tudtam mélyebben foglalkozni a témával. De van egy sejtésem, amit talán egy ilyen blogposzt elbír.

Közkeletű axióma adatbányászoknál, hogy a több adat nem feltétlen jobb (hiszen, ha zaj a több, akkor éppen hogy rosszabb), sőt nemegyszer a kevesebb relevánsan több, akár csak az átalános dimenzióredukciós módszereket alkalmazva is.

De nem így ennél a feladatcsaládnál talán. Itt a "több"-et egyetlen ember generálja és nem pedig "gép(ek)/emberek". Az egyetlen ember meg (agyi és pszichológiai) korlátot jelent a tanuló algoritmusok zaj általi megzavarásában. Egy ember minél többet beszél annál többet árul el magáról. Nem véletlen, hogy rendőrségi nyomozásoknál is élnek a "mennyiségi kényszer"-rel, kihallgatásoknál, vagy pszichológiai jellegű kérdőíveknél egy szempontra többször többféleképpen kérdeznek rá.

A konklúzióm/sejtésem tehát: Az ember hibázik és időben távolodva egyre nehezebben tudja koherensen becsapni a gépet (gépi tanuló algoritmusokat).

Nincsenek megjegyzések:

Megjegyzés küldése