Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. április 17., szombat

IQSymp..2010 - Adatbányász hibák

Megvolt az idei IQSymposium is. Bevallom férfiasan, a tavalyihoz képest az ideit sokkal sikerültebbnek tartom. Elsősorban a délelötti plenáris előadások ütöttek/szóltak nagyot, az én érzékelésemben. Ami persze nem jelenti azt, hogy csomó minden elhangzottal ne lehetne vitatkozni, vagy bővebben foglalkozni. Az nem kérdés, sok izgalmas téma került elő, jó lenne majd a későbbiekben pár dolgot itt is elővenni, nem tudom mire lesz időm, erőm, kedvem.

Érdekes indikátor volt a humor, ami alatt azt értem - a fentiekkel némileg korrelálóan - hogy a délelötti előadásokon sokkal többször nevettették meg az előadók a többszáz fős (>500) hallgatóságot, mint a délutániakon (legalábbis ahol én voltam).

Egy üdítő kivétel mindenképpen volt, amikor Fehár Tamás mesélt délutáni előadásában az általa is írt "Üzleti haszon az adatok mélyén" könyvről. Tamás mesélt egy anekdotát, hogyan nem szabad dolgoznia az adatbányásznak, ha nem akar lépremenni. ->

Adott egy síparadicsom, ahol természetesen van egy kórházszerűség, ott látják el a sielésben megsérülteket. A "kieső betegágyi napok csökkentése" projekt keretében meg lehetett figyelni, hogy a kisebb csak kéz (vagy csak láb)-sérülésekhez relevánsan hosszabb kórházi kezelést igényeltek általában, míg a súlyosabb kéz és láb-sérülések éppen hogy fordítva sokkal gyorsabban gyógyultak.

Azonnal adódik a "zseniális" gondolat, a betegeknek, akiknek csak kéz- vagy csak láb-sérüléseik vannak, el kell törni az egészséges végtagjaikat is, a gyorsabb gyógyulás érdekében. ;)

Persze megvolt a magyarázata a történteknek, az idősebbek eleve óvatosabban sieltek, nem szenvedtek látványos nagy sérüléseket, viszont sokkal lassabban gyógyultak ezek a sérülések. Míg a fiatalok, sokkal nagyobb kockázatokat vállaltak sielések során, amiknek durvább baleset is volt sokszor a végkimenetele, de mivel fiatal szervezet szenvedte el, ezek a sérülések gyorsabban is gyógyultak.

Nagy vágyam, hogy Erdős Pál gondolatát - "Az égben Isten vezet egy Nagy Könyvet, amelyben minden matematikai probléma elegáns megoldása megtalálható" - adaptálva, és alkalmazva az adatbányászatra; összeszedni a legizgalmasabb, legnehezebb problémákat. Hasonlóan össze lehetne szedni katalógusba az adatbányászok által elkövethető hibákat. Nekem most az alábbi klasszikusok jutnak eszembe:

(1) Integer-kulcs bevonása a magyarázó változók közé /a poén az, hogy volt olyan adatbányász-verseny, ahol ez nyerő stratégia volt :o))))/

(2) Nem tökéletesen szétválasztott tanító-tesztelő-validáló adathalmazoknál, a célváltozó rejtett bevonása a magyarázó változók közé. Ez akkor tud "izgalmas lenni" ugye, amikor tanítás során kvázi tökéletesen müködik az adatbányász-modell, de a validálásnál csak nem jönnek az eredmények.

(3) Ok és okozat felcserélése.

5 megjegyzés:

  1. Javasolnék még egyet:
    (4) Nem megfelelő adatmegismerés, adattisztítés

    Kapcsolódó anekdota (kicsit egyszerűsítve): hallgatóknak szerveztünk házi versenyt, amiben elhelyeztünk egy csapdát: valós adathalmazunk volt, amiben volt egy változó, aminek 0/1/undef volt az értékkészlete. A szöveges leírásból triviális volt mindenki számára hogy az undef-et 0-ra kell állítani, de elég sokan simán eldobták a változót, mert nagyon sok undef volt (95%). A poén az volt a dologban, hogy az undef értékéből szinten tökéletesen következett a célváltozó negatív értéke.

    Mondanom sem kell, hogy mennyien találtak rá erre az aknára, pedig csupán ezzel a változóra épülő triviális osztályozási módszer a létraverseny minden megoldását megverte volna...

    VálaszTörlés
  2. Örülök az ilyen gyűjtéseknek, egy kis adalék a témához a SAS oldaláról:

    Top 10 Data Mining Mistakes
    http://www.sas.com/reg/gen/corp/909616

    VálaszTörlés
  3. Jó a sztori, köszi, hogy megírtad.
    És köszi a linket is. Először azt hittem, hogy ez is olyan fizetős cikk, mint sok más helyen, de aztán láttam, hogy elég a letöltéshez a szabad regisztrációjú account.
    Gyorsan átfutottam a cikket, húh nagyon jó dolgok vannak benne: rossz kérdés feltétele, csak az adatokra fókuszálás, az "univerzális kalapács", stb.

    VálaszTörlés
  4. @MolnárMiklós: Nem akarsz egy összefoglaló cikket írni erről 10 hibáról... ?

    VálaszTörlés
  5. @Gáspár-Papanek Csaba: Épp az imént gondolkodtam el rajta, magamtól is. :o)
    Ezt a cikket - pontosabban könyvfejezetet - vagy egyazegyben le kéne fordítani. Vagy a saját számíze szerint továbbgondolni, fontossági sorrendet felállítani, megrostálni/tömöríteni, kiegészíteni. Egyik sem triviális párperces feladat, bár kedvem az lenne hozzá (főleg az utóbbihoz).

    VálaszTörlés