Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2015. február 18., szerda

Adatbányászat hollywoodi filmeken.

.
Csak egy rövid pár soros poszt erejéig jöttem ide.

Már eddig is voltak ilyen témába vágó filmek, speciel mindkettő igen jól sikerült.
Szakmai szempontból az első izgalmasabb és kidolgozottabb volt, pláne, hogy igaz sztorin alapult.
Mindkettő (számomra) azt feszegette, meddig tart az adatelemzés, honnan kezdődik az ember intuicója, döntéshozatal esetén.
De ezért a két filmért nem kezdtem volna bele a blogposztba. :)
Pénzcsináló / Moneyball
Újoncok napja / Draft Day

Amiért jöttem az ez a (4.évadánál járó) sorozat.
A felszínen ez egy klasszikus akciókrimi (talán a jobbak közül), egy rakat geggel egyébként.
Nyilván akárhány évadot meg lehet tölteni, annyira jók a sorozat keretei.
Célszemély / Person of Interest

De ha valaki elolvassa a szinopszist, akkor rögtön megérti miért a felhajtás. ;)

A titokzatos milliárdos Mr. Finch (Michael Emerson) kifejlesztett a kormány számára egy különleges számítógépet, amelynek a segítségével meg lehet akadályozni különféle bűncselekményeket, terrorfenyegetéseket. Később munkát ajánl a halottnak hitt, speciális katonai alakulatoknál szolgáló, korábbi kormányügynöknek, John Reese-nek (Jim Caviezel), hogy dolgozzanak össze, tisztítsák meg New York utcáit a bűnözőktől és védjék meg az ártatlanokat. Azonban a találmány egyelőre nem képes meghatározni, hogy kivel fog jó vagy rossz dolog történni, így a célszemélyről nem lehet előre tudni, hogy épp áldozat vagy maga az elkövető.
1.ÉRDEKESSÉG: Van-e értelme olyan előrejelzésnek (lehet-e ilyen egyáltalán), hogy nem tudjuk az "előjelet", jön-e lóvé, vagy viszik a lóvét? Áldozat lesz valaki, avagy gyilkos? Csak a személy neve esik ki az outputon, semmi más konkrétabb.
- Hát bizony ez egy nagyon valószerű probléma, bizony, hogy nagyon is lehet. Én ezt "change point detection" problémacsaládba sorolom. Amikor csak annyi jelződik előre az "ügyfél"-ról, hogy valami más/szokatlan rendkívüli fog vele történni: valami "törés" van kódolva a magyarázó adatok tengerében.
- Egyébként azt gondolom, hogy a film nagyon igyekszik elkerülni a "sci-fi"-t, meg a "túlgondolás"-t, azaz a sorozatkészítők (szvsz) konzultáltak szakértőkkel, mit "lehet" és mit nem a forgatókönyvben.
- Jonathan Nolan forgatókönyvíróról azt lehetett egyébként olvasni mostanság, hogy filmfeldolgozásban talán legnagyobb kihívást jelentő Alapítvány-feldolgozást forgatja a fejében.

2.ÉRDEKESSÉG: Logisztikus legyen-e a regresszió avagy nem?
- A film "természetesen" nem a logisztikus regressziót választja (vagyis, hogy valaki legyen-e vagy ne legyen főszereplő az adott sorozatrészben). Hanem numerikus célváltozójával priorizál.

3.ÉRDEKESSÉG: Mennyire életszerű a konkrétumaiban a feladatfelvetés, most 2015-ben?
- Azt gondolom ennek még nincs itt az ideje.
- Az nem kérdés, hogy van rengeteg adat (digitális lábnyom).
- Azt is el tudom képzelni, hogy magyarázó erőt tekintve elég erős is tudhat lenni ez az adatrengeteg. A sorozat persze lazán túl lép azon, hogy adott esetben vakriasztás is lehet, mint, ahogy valakire meg nem történik semmiféle alert (nyilván az ilyen esetek a sorozatrészek között történnek :)
- Amit viszont nem tudok elképzelni, hogy egy ilyen feladatot automatikus és iteratív (személyre szabott) feature-engineering nélkül is lehetne érdemben kezelni. Ilyen pedig még nincs a világon (az én legjobb tudomásom szerint). Azt nem mondom, hogy nem tanultam, mivel maga az "adatbányászat", mint fogalom sem létezett (itthon), amikor én jártam egyetemre. :)

4.ÉRDEKESSÉG: Mennyire életszerű a konkrétumaiban a feladatfelvetés, a jövőben?
- Én bizony egy kicsit szkeptikus vagyok, abban mindenképpen, hogy én megélem-e.
- Viszont semmiképpen nem tartom lehetetlennek a feladatot.
- Azt is símán el tudom képzelni, hogy előbb-utóbb (feltéve, hogy nem történik semmiféle kataklizma) valamilyen formája fel fog bukanni valamelyik adatbányász versenyen, amikről köztudomású, hogy szeretik a domain-független problémákat (csak számokkal melózás, számok mögötti előzetes humán tudás nélkül).

PS: Természetesen az egész sztorinak nagyon komoly etikai aspektusa van. Szabad-e, akarja-e az ember, hogy így védjék. Vagy éppenséggel megfordítva lehet-e ártásra használni az egészet (nyilván lehet adatok és algoritmusok/tudás birtokában) De ez most offtopik ebben a pársoros blogposztban.

Nincsenek megjegyzések:

Megjegyzés küldése