Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. szeptember 24., péntek

KDD 2010 konferencia díjnyertes cikkei

.
KDD 2010 hírek szerint az innováció és technikai kategóriában az alábbi két cikk lett a legjobb (ebben a sorrendben). Erről a két cikkről írnék pár szót a múltkori KDD-s poszt és az ott említett beszámoló folytatásaként:

1.
Connecting the Dots Between News Articles

Elérkezett a szép új világ. Nem kis megdöbbenésemre a fenti cikkben egy olyan téma kerül teritékre, aminek már a kiindulását sem értem. Már a mögötte lévő motivácó sem világos számomra. Kommentekben szívesen fogadok ötleteket, hogy miről is lehet itt szó.

Így első olvasatra a szerzők mesterségesen konstruáltak egy problémát, amibe ugyan érdekes gondolatokat gyömöszöltek bele, meg tanulságos reprezentációt abszolváltak, mégis nekem van annyira kulcsfontosságú magának az alapproblémának a megértése, hogy addig nem küzdök l'art pour l'art a mélyebb megértéssel, amíg nem tudom, hogy mit mihez kell kötni.

Miről is van szó...

Adva vannak cikkek. És még csak nem is a könnyebb verzióban (tagelve), hanem pörén, ahogy megírták őket. A feladat, az lenne, hogy mondjuk lakásár-csökkenésről publikáló cikktől eljussunk további cikkeken át mondjuk az egészségügyi reformos döntésről szóló cikkig (Amerikáról beszélünk). Néhány peremfeltétel mellett, úgy mint például, idősorban egymás utániaknak kell lenni a cikkeknek, koherens kapcsolatnak kell a cikek között lenni stb. Azt persze látni kell mindez csak múltra vonatkozik, tehát az nem cél, hogy a másodlagos jelzáloghitel-anomáliákról szóló cikk alapján még időben lehessen következtetni a globális pénzügyi válságra. ;)

Az én kósza gondolataim mi is lehetne motiváció, a cikkbeli példa alapján.

(1) A Google Pagerankes algoritmusa helyett valamiféle tartalom-összefüggés szerinti asszociálás algoritmizálása mint esetleg végcél.

(2) Ha egy felhasználó keres egy témában, és nem gondol egy aspektusra, akkor egy ilyen fentebb vázolt információs lánc révén ráakadhat valamire, amiből ihletet meríthet.

De hangsúlyozom fogalmam sincs. Ahogy arról sem, hogy hogyan kaphatott "best paper" díjat a cikk. Egyáltalán elégséges-e egy ilyen díjhoz egy mesterséges probléma részére konstruált érdekes reprezentáció és rá adott megoldás esetleges frapánssága.

Ha rosszindulatúan cinikus akarnék lenni, akkor ez az egész engem arra a gyerekkori játékunkra emlékeztet, hogy sorbanülve, a lánc egyik végéről indulva egymás fülébe súgunk és amit hallunk azt továbbadjuk a másiknak. És röhögünk a végén egy jó nagyot, hogy mi marhassággá torzul a kiinduló mondat.



2.
Large Linear Classification When Data Cannot Fit In Memory

Ennek kapcsán két érdekes felvetés tud felmerülni.

(1) Van-e egyáltalán olyan probléma ami nem tud elférni értelmes reprezentációval a mai nagyságú memóriákban? A kérdést nyitvahagyva, két szempont azért idesorolható (A) nagytömegű multimédiás adatok adatbányászata. (B) GPU-s algoritmusok, ahol nagyságrenddel kisebb a rendelkezésre álló memória.

(2) A cikk peremfeltételei alapján kézenfekvően merül fel (bennem) a párhuzamos programozásra való asszociálás. Mint az afelé vezető út egyik potenciális állomása. Hiszen amit (A) batchben (B) kisebb feladatokra bontva, (C) véletlen elemi adat elérés nélkül (csak adatblokkal dolgozva) el lehet végezni azt lehet esélyes elvégezni párhuzamosan is, természetesen megfelelő adminisztrálás mellett.

A szerzők nem cifrázták, rögtön az egyik legnehezebb probémát vették alapul (SVM). Az semmi, de a tesztjeik is szépen muzsikáltak a LIBLINEAR-ral hasonlítva. A tesztelés kivitelezhetőségében segítségükre volt a tény, hogy teljesen memóriában is futattható SVM, meg dekomponáltan is. Így az eredmények tényleg összevethetők.

Konklúzió? Ennek a cikknek a díját értem. :o) Még akkor is, ha a cikkben ígért további általánosítás lehetőségének mikéntjét a magam részéről nem látom át.

Nincsenek megjegyzések:

Megjegyzés küldése