Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. május 20., hétfő

Mi a különbség a Data Miner("adatbányász") és a Data Scientist("adattudós") között?


v1.5 (utolsó módosítás: 2015.05.14

Létezik a címbeli kérdésre egzakt válasz? Kötve hiszem, de az biztos, hogy én nem tudom.
Mindenesetre blogposztot írni lehet róla azért, főleg ha egyre többet bukkan fel ez a "Data Science"-cucc, lépten-nyomon. ;)
Magam annyira régen végeztem az ELTE programtervező matematikusi szakán, hogy nemhogy a "Data Scientist", de még a "Data Miner" sem hangzott el a képzés alatt (1987-ben kezdtem az egyetemet)

Három megközelítés:

(1)
Egy amerikai eredetű slide egyike ez volt:
 - What are the abstractions of data science?
- “Data Jujitsu” + “Data Wrangling” + “Data Munging” = Translation: “We have no idea what this is all about”
Big Data Curricula at the UW eScience

Az én saját értelmezésem szerint:

Data Jujitsu: Az amikor nem a feladatot nyers konkréten azonnal felmerült formájában oldjuk meg, hanem találunk a feladatnak egy másik megfogalmazását, ami nagyjából ugyanazt az outputot adja, ami nekünk kell, csak sokkal kevesebb erőfeszítéssel. Röviden feladat-átfogalmazás. Az adatbányászatot leginkább ennek részének érzem.

Data Wrangling Általános véve olyan data-prepocessing adattranszformációs lépése egy iteratív folyamaton belül, ami a jobb felhasználást/modellezést segíti elő. Adattisztítás éppúgy része, mint a data mining feature extraction.

Data Munging Általános véve zajos adatok tisztábbá tétele, mind rekord, mind mező szinten. Jobb/tisztább inputon való modellezés esélyesebben ad értékesebb outputot.

(2)
Egy másik slide-on ez a Venn-diagram volt, három gombóccal:


(3)
Egy harmadik slide-on meg ez:
Empirical + Theoretical + Computational

Azt gondolom ezek mind érdekes észrevételek, de csak kapargatják a felszínt a kérdésünk megválaszolásának kísérletéhez.

Anno az én eredeti megközelítésem az volt, hogy az adatbányászatnak négy aspektusa van:
- Matematikai (statisztikával, mátrixokkal, mesterséges interlligenciával, etc.)
- Mérnöki/Műszaki (operációkutatással, kombinatorikus optimalizálással, tanuló algoritmusokkal, nagy tömegű értékes és értéktelen adatokkal etc)
- Informatikai (adatbázisokkal, korszerű programozási nyelvekkel, üzleti intelligenciával, etc)
- Közgazdászi (üzleti kommunkikációval, adatvizualizálással, tálalással, eladással, projekt-/pályázat-nyeréssel, üzleti aspektusokkal, (mikró-/makró-)ökonomiával, ökonometriával, stb.)

Ahogy jelenleg én ezt a kérdést látom - ebben a gyorsan változó világban - a Data Scientist felülről kompatibilisnek "van szánva" az adatbányásznak. A Data Scientist tudáskészletének valós részhalmazává válik az adatbányász tudáskészlete. Nem lesz olyan "skill", ami csak az adatbányászé lenne, a Data Scientisté nem, kérdés, hogy mi a helyzet a fordítottjával.

A tévedés jogának fenntartásával azt vélelmezem, hogy egy adatbányásznak nem feltétlen kell tudnia a párhuzamos programozást tudnia. Főleg Magyarországon (az ehhez szükséges "big data" datasetek hiányában például). Következésképpen a Hadoop és az infrastruktúrája, akárcsak a 2004-es MapReduce algoritmus részletei bőven hidegen hagyhatja az adatbányászt, tudhat dolgozni nélkülük.

Hasonlóan az adatbányásznak elég lehet a black-box cuccok alkalmazása (pl.: neurális háló), nem kell neki feltétlen megértenie a black box működését - maximum magyaráznia :). A Data Scientist meg esélyesen válhat addiktivvá, hogy a black box mélyére ásson, hogy kifehérítse azt. Tágabb kontextusban pedig az is lehet egy vízió, hogy egyre több Data Scientist számára válik egyre inkább napi gyakorlattá a kutatás - implementálás - (angol) szakmai cikk/tanulmány publikálás, ami (legalábbis itthon Magyarországon) eddig jellemzően az egyetemi/akadémiai szféra sajátja volt.

Ugyanígy egy adatbányásztól - jelenleg semmiképpen - nem elvárás (idő és komplexitás rendben) például (az alap Java-n felül) a Python, Ruby, Clojure, Scala, Haskell, Erlang programozási nyelvek effektív használata. Azt jelenleg nem tudom, hogy a Data Scientisttől én elvárnám-e, illetve a jövőben elvárás lesz-e, de sejtés szinten azt vélelmezem, hogy el kéne várni. Ahogy az egyetemen is sok száraz matekot tanultunk, amit aztán ugyan közvetlenül nem használtunk ki a való életben, de persze másképp azért kamatozott az, hogy ilyesmikkel is "vívtunk" (absztrahálás, látókör-bővülés, agyműködés-serkentés, stb.)

Vagy éppen adatperzisztenciánál elég lehet text-állományok, vagy relációs adattáblák olvasása, írása, miközben evvel párhuzamosan az eddig megszokott szemléletekkel gyökeresen szakító NoSql- vag gráf-adatbázisok világa is egyre inkább forrong napjainkban. A bonyolultabb struktúrálatlan adatokról már nem is beszélve....

Végül az is lehet egy vízválasztó szempont, hogy míg az adatbányász Amazon S3-ig is elmenően tudhat önjáró lenni, addig a Data Scientist-re esetleg még további csoportmunka és/vagy folyamatvezérlésből adódó követelmények is várnak

Ahogy én érzékelem az elmúlt nagyjából 10 (magyarországi) év alapján: az adatbányász, eddig bőven megélt, ha a fent vázolt négy aspektusból legalább az egyikben erős volt, egy Data Scientist-től lehet, hogy elvárás lesz egyformán erősnek lennie mind a négyben, hogy egyre mélyebben értse az egyes aspektusokat egy egyre szélesebben vett interdiszciplináris tudományágban.

A végére maradt a legizgalmasabb aspektus. Van-e különbség Data Miner és Data Scientist között, ha nevezetesen ugyanazt a személyt takarja mindkettő :)

Azt gondolom igen és perdöntő különbség lehet. Még pedig a domain vonatkozásában.

A domain-függetlenség világa az adatbányászversenyek világa, ahol egyetlen pillanatban kell a legjobbat produkálni, az adatok mögött lévő tartalom firtatása nélkül.

Az üzleti világban
- Nem elég egyetlen pillanatban gondolkodni, hiszen ez az éhenhalás útja lenne (a prediktálási stabilitásról már nem is beszélve).
- Nagyon kell tudni érteni az adatok mögötti világhoz.
- Olyan kérdéseket kell tudni megfogalmazni, kicsikarni, ami tízből kilencszer nem jut eszébe az embernek, sőt még a megrendelőnek/szakértőnek sem.
- Úgy kell tálalni (vizualizálni, prezentálni, etc.), hogy ne aludjanak el rajta a hallgatók.
- Olyan üzleti vitákat kell megvívni, ahol nincs jogorvoslati út, nincs bíróság, hogy igazságot tegyen.

Az én nagy kérdésem a jövőt illetően, hogy az egyre komplexebbé váló Data Scientist hogyan fog tudni érdemben kommunikálni a rajta kívül eső világgal.

Update-1: Ahogy olvasom vissza a blogposztot felmerült bennem a kérdés, mennyiben helyes angol "Data Scientist"-et írni a magyar "adatbányász"-szal párbaállítva.  De nem egységesítek. Talán ez is mutatja, hogy míg az "adatbányász" egyre közkeletűbb(en érthető) fogalom, addig a Data Scientist még úgy újabb, hogy magyar megfelelője nem igazán alakult ki.

Update-2: Találtam egy érdekes ábrát. Annyira nem nagy merészség az adatbányászatot a BI részeként tekinteni. Ha ez jogos, akkor máris érdekes kérdés, hogy a BI hogyan viszonyul a Data Science-hez.

Steve Miller: Data Science - Part 2 (2011-05-03)


4 megjegyzés:

  1. Kedves Miklos! Erdekes iras, sokat tanultam belole. Felvetnem, hogy egy-egy szakma latszolag kifarad egy ido utan. Ilyenkor uj nev alatt szoktak eladni ugyanazt. Nincs-e itt is egy ilyen tenyezo?

    VálaszTörlés
  2. Köszönöm a kedves reakciót! :)

    Igen gyakori eset szerintem is, amikor a figyelmet egy átcsomagolás akarja fenntartani. :)
    Hogy a konkrét esetben miről van/lenne szó?

    Egyfelöl minőségi/paradigmaszerű változás valóban nincs, szerintem sem, legalábbis egyelőre nincs.

    Másfelöl érzékelhető talán, hogy
    - tényleg egyre szélesedik a tárgybeli tudomány
    - egyre többet kell tudni, egyre rövidebb idő alatt, egyre nehezebben elérhető ellentételezésért.
    - egyre jobban szivárog lefele az akadémiai szintről a "tömegek" szintjére (értsd válik napi gyakorlattá a művelése).
    - míg az előbbivel ellentétes irányban épül a láthatatlan "piramis", aminek a csúcsa felé lévő törekvő szakembereknek egyre többet kell tudni egyre mélyebben.

    Na most a közmondásos szíj is csak egy határig húzható, az óriási információ áradatban az információ két kézzel való fejbe belapátolása is előbb-utóbb elérkezhet egy olyan ponthoz, ami minőségi változást generál. Hogy a Data Science egy divathullám gyorsan feledésbe merülő megjelenési forma-e csak, avagy lényeget érintő változás, azt talán nem csak én nem látom perpillanat. :)

    Egy biztos: az informatikában mondhatni számolatlanul láttam a legkülönfélébb hülyeségeket a szakmában eltöltött évtizedek alatt, többször már "csírázós" állapotukban is. Ez a Data Science dolog lehet, hogy legalább első ránézésre nem hülyeség: és már ez is valami, én ennek is tudok örülni. :)

    Egy másik válaszkísérlet lehet az is, hogy az egész tudományág annyira nehéz, komplex, képlékeny, inegzakt, hogy muszáj neki többféle olvasat. A Data Science is lehet egy ilyen. És ezzel kihúzható a dolog méregfoga is, akár.

    Egy harmadik válaszkísérlet meg lehet az, hogy én jobban hiszek valamiért a komplex tudományos igényű/szemléletű megközelítésben az üzleti intelligencia terén, mint abban, hogy menedzserek okos önkiszolgáló bi-eszközökkel, szigetszerűen hegesztik, üvegajtóik mögött az Excel-tábláikat, mindenki mással akár inkompatibilis módon. A Data Science egyértelműen az előbbi vonulatba tartozik és nem az utóbbiba. Ezzel a szétválasztással látszik egy vízválasztó is pluszba, a "mindent" és "mindent mélyebben"-hez.

    De a végső válaszom továbbra is, hogy a kérdést a jövő dönti el.

    VálaszTörlés
  3. Hagy legyek az ördög ügyvédje kicsit. A blog egyrészt szól - általam bután leegyszerűsítve - az adatbányászkodás még magasabb szakértői szintjéről, ugyanakkor azt is jelzed, hogy nehéz eladni ezeket a projektteket, és hogy probléma lehet a szakérők és üzlet együttműködésében, mai ugye az üzleti alkalmazás sikerének kulcsa. Felvetem: mi van akkor, ha az adatok rendelkezésre állása (hiánya), illetve az üzleti implementációs készség (innováció, rugalmasság, kockázatvállalás) 90%-ban felelőssek a projekt sikeréért és csak 10% az algoritmus és szaktudás. Mert én ettől félek.

    VálaszTörlés
    Válaszok
    1. Kedves Zoli! Nagy örömet szereztél már csak a hozzászólásod tényével is, nemhogy a tartalmával, köszönet érte! :) A kérdés komplex, lehet, hogy külön blogposztban kéne kifejteni.

      (1) (A) Válságban és (B) Magyarországon mindent nehezebb eladni, mint 2008 elött, amikor ráadásul jobban felfutóbb fázisban volt az adatbányászat, innovatívabb volt a környezet. Ez szakmán felül (sales alapokon) is megállapítható, szerintem. Ettől még ez nem jelenti azt, hogy manapság nincsenek jó projektek, ne lenne munka. Csak - mondjuk így - "cizellálódtak" a körülmények.

      (2) Az én problémám valóban az, hogy ha adattárház-építésnél vannak durva kommunikációs jellegű viták Magyarországon, akkor mit várjon az ember az adatbányászattól, ahol jóval képlékenyebb, komplexebb, nehezebb az egész téma. Még hatványozottan "könnyebb" elbeszélni egymás mellett. Az egész bizalom roppant ingoványos talajon rövid ideig létezik.

      (3) Amit te említesz az a harmadik szint nálam. Kvázi megprediktálhatatlan, a közel nulla információ alapján, pusztán tender vagy árajánlat alapján a projekt végső sikeressége. Kevés releváns input információ van ehhez, a projekt elején, jó sok ösztönösséggel vegyítve. Megfordítva: el kell kezdeni dolgozni a projekten, hogy a körvonalak élesedjenek, jobban megválaszolhatók legyenek a beágyazottsági kérdések, stb., És akkor jön még csak az a kérdés, hogy be kell-e mindenáron fejezni egy projektet (megrendelőnek vagy beszállítónak), hol kell legyen a kompromisszumoknak a határa, illetve egyáltalán addig ki fizesse a révészt, milyen arányban (addig felmerült költségek apropóján). Az sem mindegy, hogy valaki az x+1-dik tenderét írja úgy, hogy x mondjuk sikertelen volt korábban. Ez tud elágazni minimum háromfelé (a) bevált kevés partneri kapcsolatra építés, (b) folyamatos iszapbirkozás az x-faktorokkal is megküzdve, (c) külföld...

      Felvetésedre válaszolva teljesen jogos amit mondasz. Egy lehetséges irány lehet: szállítói presales-projekt (új megrendelőnél), amibe sok minden beleférhet beszállítói oldalról is, megrendelői oldalról is.

      A negyedik szint, hogy erről se feledkezzünk el a sikerdíj szintje. Erről azóta tervezek írni, hogy az Andego blogon egy írás jelent meg, de egyelőre ez halasztódik, hiszen nem akarnám napi két írás sebességgel szakmányban (felületesen) gyártani a blogposztokat... ;)

      Törlés