Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2015. február 22., vasárnap

Barabási Albert-László friss interjúja az index.hu-n

.

Az NSA primitíven használta a begyűjtött adatokat

Akik ismernek tudják rólam, hogy imádom a témát, épp ezért esett nekem nagyon rosszul a tárgybeli interjú, a rendkívül rossz üzeneteivel. Pedig jók voltak a felmerült a témák, a kérdező is készült, de az interjúalany mélyen alulteljesített számomra. Nézzük sorban a szakmai vonatkozású témákat!

NSA
- Számomra itt keveredik a szakma és etika, az interjúalany szövegében. Világos, hogy röviden, tömören, velősen kell fogalmazni, meg túl hosszú szöveget nem visel el az interjú, de itt a mondandó értelmének minden csíráját sikerült kigyomlálni.
- Nem tudjuk meg miért lenne rossz az NSA szakmailag, mármint a kijelentésen felül.
- Az meg, hogy nincs az NSA-felé szakember-mozgás, az meg inkább etikai gyökerű lehet, pláne, ha felkészült diákok keresnek szakmai kiteljesedéshez potenciálisan jó helyet.
- Értem azt is, hogy abbahagyták a mozgásos kutatást, de ez is megmaradt a kijelentés szintjén.
- A "pofozkodás"-t sem érzem jól kifejtettnek. Én szívesebben olvastam volna valamiféle protokollról, azon vonatkozásban, hogy hogyan lehet minimalizálni a kockázatokat, maximalizálni a hatékonyságot. Az adok-kapok régóta létező triviális probléma, ehhez nem kell tudós embert interjúvolni.

Network Medicine
- Itt én örültem volna Csermely Péter említésének, ha már elhangzik az "első komoly lépés", aki nagyon régóta kutatja a témát, még magyarul is publikált könyvet idevágóan (2005-ben). Én magam is tőle szereztem először infót a témáról. Tudván tudom azt is, hogy Barabási-Albert ismeri is Csermely Péter munkásságát.
- Maga a bekezdés a jobbak közül való az interjúban, bár bőven van azért hiányérzetem is.

Hálózat-kontroll kutatás
- Ez egy új fogalom volt számomra most, de én csak egy átcimkézést látok benne, hiszen az interjúalany sosem megnevezett telcós nagy hívási datasetes kutatása óta érdekli a téma.
- Ezt a "matematikailag intenzív" dolgot nem tudtam hová rakni. El tudok képzelni, nehéz, mély, komplex, több területet árfogó, intenzíven kutatott, stb matematikát, de intenzívet így önmagában nem.
- Szakma és etika megint furán keveredett.

Networking
- Ez nagyon jó topik. :) Csak ezért az egyért vágtam bele ebbe a blogposztba.
- (1) Jó munkahelyet/csapatot és (2) hosszútávra találni körülbelül hasonlóan nehéz, mint párt találni. Talán még nehezebb is, ha nem egyenesen lehetetlen. Életkoromnál meg egyebeknél fogva 30-hoz közelít a munkahelyek száma, ahol volt alkalmam dolgozni, például a CIB kivételével az összes nagy bankban is megfordultam, volt, ahol többször is. Rám igazán nem lehet mondani tehát, hogy nem tapasztaltam és remélem azt sem, hogy elfogult vagyok. Minden munkahelyen volt ami jó volt, és mindenhol volt valami komolyabb probléma (amikkel kompromisszum árán persze együtt lehetett valahogy élni). Hogy mit tekinte(né)k - talán elvileg is lehetetlen - jó munkahelynek? Ahol a felek (1) beletesznek a közösbe, (2) jól (3) hozzáadott értéket képeznek a szereplőknél (nem pedig amortizálják egymást). Ez nagyjából igaz talán a párkapcsolatokra is, amikor a felek tesznek azért, hogy többek legyenek együtt.
- És ha már eddig eljutottunk az analógiában, meg kapcsolódni akarunk az interjúhoz is, akkor bizony adekvát módon merül fel a team-építés adatbányászati támogatása, a már korábban e blogon is sokszor tárgyalt társkeresés adatbányászati támogatásához hasonlatosan.
- Azért szakmailag a társkeresős probléma nagyságrendekkel könnyebb, hiszen rengeteg ember keres egyetlen társat, és persze egyenrangúan. Míg a csapatépítés mindig sokkal szűkebb kört érint a legtrendibb szakmákban is, illetve a kandidálónak sokkal kisebbek az objektív mérlegelési/aktivitási lehetőségei.

Hat lépés
- Számomra ez egy kifejtés nélküli vagdalkozás volt megint, Karinthy érdemének negligálásával, ami külön keserű mellékízt az egésznek, főleg egy plebsnek szóló interjúban. Mellesleg én inkább azon szoktam kiakadni, ha akadémiai/egyetemi előadáson kezdi valaki a Königsbergi hidakkal.

2015. február 18., szerda

Adatbányászat hollywoodi filmeken.

.
Csak egy rövid pár soros poszt erejéig jöttem ide.

Már eddig is voltak ilyen témába vágó filmek, speciel mindkettő igen jól sikerült.
Szakmai szempontból az első izgalmasabb és kidolgozottabb volt, pláne, hogy igaz sztorin alapult.
Mindkettő (számomra) azt feszegette, meddig tart az adatelemzés, honnan kezdődik az ember intuicója, döntéshozatal esetén.
De ezért a két filmért nem kezdtem volna bele a blogposztba. :)
Pénzcsináló / Moneyball
Újoncok napja / Draft Day

Amiért jöttem az ez a (4.évadánál járó) sorozat.
A felszínen ez egy klasszikus akciókrimi (talán a jobbak közül), egy rakat geggel egyébként.
Nyilván akárhány évadot meg lehet tölteni, annyira jók a sorozat keretei.
Célszemély / Person of Interest

De ha valaki elolvassa a szinopszist, akkor rögtön megérti miért a felhajtás. ;)

A titokzatos milliárdos Mr. Finch (Michael Emerson) kifejlesztett a kormány számára egy különleges számítógépet, amelynek a segítségével meg lehet akadályozni különféle bűncselekményeket, terrorfenyegetéseket. Később munkát ajánl a halottnak hitt, speciális katonai alakulatoknál szolgáló, korábbi kormányügynöknek, John Reese-nek (Jim Caviezel), hogy dolgozzanak össze, tisztítsák meg New York utcáit a bűnözőktől és védjék meg az ártatlanokat. Azonban a találmány egyelőre nem képes meghatározni, hogy kivel fog jó vagy rossz dolog történni, így a célszemélyről nem lehet előre tudni, hogy épp áldozat vagy maga az elkövető.
1.ÉRDEKESSÉG: Van-e értelme olyan előrejelzésnek (lehet-e ilyen egyáltalán), hogy nem tudjuk az "előjelet", jön-e lóvé, vagy viszik a lóvét? Áldozat lesz valaki, avagy gyilkos? Csak a személy neve esik ki az outputon, semmi más konkrétabb.
- Hát bizony ez egy nagyon valószerű probléma, bizony, hogy nagyon is lehet. Én ezt "change point detection" problémacsaládba sorolom. Amikor csak annyi jelződik előre az "ügyfél"-ról, hogy valami más/szokatlan rendkívüli fog vele történni: valami "törés" van kódolva a magyarázó adatok tengerében.
- Egyébként azt gondolom, hogy a film nagyon igyekszik elkerülni a "sci-fi"-t, meg a "túlgondolás"-t, azaz a sorozatkészítők (szvsz) konzultáltak szakértőkkel, mit "lehet" és mit nem a forgatókönyvben.
- Jonathan Nolan forgatókönyvíróról azt lehetett egyébként olvasni mostanság, hogy filmfeldolgozásban talán legnagyobb kihívást jelentő Alapítvány-feldolgozást forgatja a fejében.

2.ÉRDEKESSÉG: Logisztikus legyen-e a regresszió avagy nem?
- A film "természetesen" nem a logisztikus regressziót választja (vagyis, hogy valaki legyen-e vagy ne legyen főszereplő az adott sorozatrészben). Hanem numerikus célváltozójával priorizál.

3.ÉRDEKESSÉG: Mennyire életszerű a konkrétumaiban a feladatfelvetés, most 2015-ben?
- Azt gondolom ennek még nincs itt az ideje.
- Az nem kérdés, hogy van rengeteg adat (digitális lábnyom).
- Azt is el tudom képzelni, hogy magyarázó erőt tekintve elég erős is tudhat lenni ez az adatrengeteg. A sorozat persze lazán túl lép azon, hogy adott esetben vakriasztás is lehet, mint, ahogy valakire meg nem történik semmiféle alert (nyilván az ilyen esetek a sorozatrészek között történnek :)
- Amit viszont nem tudok elképzelni, hogy egy ilyen feladatot automatikus és iteratív (személyre szabott) feature-engineering nélkül is lehetne érdemben kezelni. Ilyen pedig még nincs a világon (az én legjobb tudomásom szerint). Azt nem mondom, hogy nem tanultam, mivel maga az "adatbányászat", mint fogalom sem létezett (itthon), amikor én jártam egyetemre. :)

4.ÉRDEKESSÉG: Mennyire életszerű a konkrétumaiban a feladatfelvetés, a jövőben?
- Én bizony egy kicsit szkeptikus vagyok, abban mindenképpen, hogy én megélem-e.
- Viszont semmiképpen nem tartom lehetetlennek a feladatot.
- Azt is símán el tudom képzelni, hogy előbb-utóbb (feltéve, hogy nem történik semmiféle kataklizma) valamilyen formája fel fog bukanni valamelyik adatbányász versenyen, amikről köztudomású, hogy szeretik a domain-független problémákat (csak számokkal melózás, számok mögötti előzetes humán tudás nélkül).

PS: Természetesen az egész sztorinak nagyon komoly etikai aspektusa van. Szabad-e, akarja-e az ember, hogy így védjék. Vagy éppenséggel megfordítva lehet-e ártásra használni az egészet (nyilván lehet adatok és algoritmusok/tudás birtokában) De ez most offtopik ebben a pársoros blogposztban.