Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. augusztus 30., hétfő

Kérdés-felelet alapú kereső

.
Az index-címlap mai vezércikke az alábbi:

Jó kérdésre hülye válasz

Ezzel a kérdezz-felelek keresővel, mint témával sose foglalkoztam, még gondolati szinten sem, pedig szenzációs és érdekes téma. A cikkben említett közösségi támogatásról is csak egy konkrét projekt esetében hallottam, a Yahoonak volt egy képfelismerős / képaláírás-generálós története, ahol, ha két ember ugyanazt mondta, akkor elfogadták képaláírásnak.

Pár gondolat, ami eszembejut így reggeli elött:

* A legnagyobb részét a projektnek - a szövegbányászatot - most abszolút nem említeném, ez volt / van / lesz, hatalmas téma. Ennél a tárgybeli projektnél "csak" fel kell használni a téma arzenálja nyújtotta támogatást.

* Két technika merül fel azonnal a feladatban /mint a jelszótöréseknél :o)/ -> az algoritmus alapú és a szótár alapú technika. Az egyik amikor algoritmikusan meg akarjuk érteni, a gép számára értelmezhetővé akarjuk tenni például a "mi a szerelem" típusú kérdést. A másik amikor például konkrét kérdésre a konkrét válasz megvan a neten, akkor ezeket csak lajstromba kell venni és az összes rokon módon feltett kérdést csak pluszba rájuk kell irányítani (meg persze kezelni a bábeli nyelvzavar örökölt problémáját).

* Mi a fenti bulletpoint üzenete? Hogy érdemes végiggondolni mekkora alapkincs (szótár) áll a rendelkezésre kérdés-válasz gyűjtésre. Az intuició azt súgja (legalábbis e blog írójának), hogy alapvetően és először alulról felfelé érdemes építkezni (minél automatikusabban). Hozzátéve, hogy fölülről-lefelé való építkezéseknél célszerű minél hatékonyabban bevonni az emberi közösséget.

* A következő gondolatom a témában, ami csak közvetetten derül ki az indexes cikkből, hogy nem válogatás nélkül dolgoznám fel szövegbányászattal a netes dokumentumokat (azok irdatlan és nagyon zajos mennyisége miatt) kérdés-feleletek után nyomozva, hanem
(1) venném a már meglévő kérdezz-felelek adatbázisokat
(2) aztán venném a hagyományos keresők keresőkifejezéseit
(3) míg legvégül a természetes emberi nyelv szókincsét.
(+1) az ezutáni következő lépésen meg ráérek a következő témabeli poszt írásakor gondolkodni. :o)

* Mi esik át a szitán a fenti menetrend alapján? Hát az olyan kérdések, amik értelmesek,  van is rájuk válasz, csak még nem tették fel. Én viszont azt mondom, az első fázisnak a már feltett kérdéseknek kellene lenniük. És számomra kérdés, szükséges-e egyáltalán egy ilyen projekt keretében foglalkozni a potenciális kérdésekkel. (Az persze nyilvánvaló, hogy a folyamatosan érkező új kérdésekk persze bővítést jelentenek, nem ezt feszegetem e bekezdésben).

* Legvégső esetben meg a kérdezz-felelek símán átcsaphatna normál keresőbe, ha nem sikerül választ adni (ehhez persze algoritmikusan fel kéne ismerni a jól nem megválszolható kérdéseket illetve kellene generálni egy hagyományos keresőkifejezést. Ez egy igen izgalmas alprojekt lehetne.

* A definitive kérdezz-felelek adatbázisok már eleve kérdés-feleleteket tartalmaznak, ugye, ott maximum az összefűzés (merge), hiperlinkelés és a többnyelvűség lehet csak a probléma (nagy vonalakban).

* Azt gondolom triviális: keresőkifejezés-alapú kérdezz-felelek keresőt a Google Corporation tudna építeni leggyorsabban és leghatékonyabban, és ami fő alapvetően közösségi támogatást nem igénylően, tök automatikusan. A guglinak ugyanis óriási adatbázisa van/lehet a már eddig neki feltett kérdésekről:

(1) Összes feltett keresőkifejezés (darabszámmal)
(2) A feltett kérdésre adott találati oldal(ak)
(3) A találati oldalakon egymás utáni klikkelések, különösen az utolsó klikkelés
(4) IP-címről indult-e új keresés
(5) Leszűrni mely oldalakon találnak választ a kereső felhasználók (gyakoribb kérdéseknél)
Stb.

* Ha már említettem az irdatlan mennyiséget és a zajt: miért is a keresőkifejezések alapján érdemes elkezdeni bővíteni a kérdezz-felelek alapadatbázist? Mert legyünk durvák van a nyelvünkben durván egymillió szó, ami szófajokba szervezhetők, és van használati gyakoriságuk. Ha el kezdenénk generálni az értelmes kérdéseket (pl.: "van-e élet a halál után" típusúakat), az nem egy beláthatatlan feladat. A rettenet feladat az ahhoz kötödik, hogy a világban lévő minimum exabyte méretű információtenger van, ami rohamosan nő is. Igenám, de annak nagy része zaj és szemét, és lássuk be értelmes ember kérdése alig-alig vezet bele.

* Összefoglalva tehát, nagyon sok információ van, ezek túlnyomórészt atomiak, rájuk egyszerű kérdéseket generálni ("hány betű van a taxi szóban"), viszont nagy részére a kutya sem kiváncsi. Nemkicsit szemfényvesztés tehát az indexes cikkben a százmilliárdok említése. A másik véglet, hogy vannak az értelmes, egyre komplexebb és/vagy több alakú kérdések kérdések, amikre jó lenne választ találni, ezekből jóval kevesebb van, viszont a kérdés-válasz generálás is nehezebb feladat.

* Itt érkeztünk el tehát a következő fázishoz, hogy a kérdéseket tehát alaposan rendszerezni kell. Hogy ne mondjam hierarchiába / taxonómiába szervezni őket, súlyozással / priorizálással kombinálva.
(1) Mik a különböző alakú de azonos kérdések
(2) Mik a gyakori kérdések,
(3) Mely kérdések kérdeznek atomi vagy összetett információra
Stb.

* Informatikusként / programozóként, azért nem lenne lehetetlen feladat egy ekkora projekt keretén belül, mondjuk egy programozási nyelvre egy értelemesen használható hierarchizált / hiperlinkelt FAQ / GYÍK generálása.

* Érdekes kérdés a közösségi támogatás bevonásának kérdése. Ott ugyanis nemcsak a hogyan a kérdés, hanem a hibaszűrést, a zajszűrést, a projekt elleni 'támadó' fellépést is megfelelően kell menedzselni.

* Persze van a dolognak létjogosultsága, hiszen az emberek szeretnek kérdéseket megválaszolni (meg válaszokat minősíteni (ratingelni), és adott esetben olyan minőségű válasz születhet humán erőforrás billentyűzetéből, amit programból generálni sosem lesz esélyes.

Végül, de nem utolsósorban a társblog mai szenzációs posztja egy kis derühöz: :o))

Képes illusztráció a PhD-ről

Nincsenek megjegyzések:

Megjegyzés küldése