Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. december 8., vasárnap

Adatvizualizálási oknyomozás

.
Alcím: Adatvizualizálási hazugságok, hamisítások :)

Steve Jobs elhíresült prezentációs diája látható fenn (azóta már oktatási anyagokba is került az "adatvizualizálási hazugság faktorok" fejezetbe. :)

Mit is látunk? Egy tortadiagramot, és Steve Jobs úgy intézte, hogy az Apple 19.2%-a szemre nagyobb legyen, mint az "egyéb" 21.2%-a ;) Nyilván pénzről, profitról, expanzióról szól a történet, ennyi turpisság bele "kell" férjen a várható haszon tükrében. Steve Jobs tehát nem tudhat rosszul kijönni a sztoriból, még a konkrétumok szintjén sem. ;)

Mi áll a dolog elméleti hátterében? Az hogy az emberi szem a négyzetek/téglalapok területi arányait sokkal-sokkal gyorsabban és pontosabban érzékeli, nagyobb tömegben végzett vizsgálatnál is. Míg a körnél/körcikknél meg ugyanezt nagyon, értsd nagggggggggggyon rosszul. Ezért favorizáltabb a szakmában például az oszlopdiagramok, hiszen ott ilyen megtévesztési/befolyásolási mókákra kevesebb lehetőség nyílik. Más kérdés, hogy van ahol célkitűzés az illuzionizmus. ;)

És mi lenne a hamisítás, a hazudással szemben? Mármint az én olvasatomban. Ha kör helyett "ellipszizálnánk", akárcsak icipici mértékben is. Hiszen akkor már az ívhosszak önmagukban is hazugságfaktorok tudnak lenni.

Steve Jobs csak hazudott-e avagy hamisított is? Sajnos a fényképezés torzít, mondhatni önmagában "ellipszizálhat". Utólag meg igen nehéz rekonstruálni a történteket. Én azt valószínűsítem, hogy SJ megelégedett a finomabb hazugság-módszerrel, nem akart túl sokat markolni.Azaz az előadásában tényleg rendes tortadiagram lehetett. Evvel maximalizálta is a sztori a hasznát is. Azt meg nem feltételezem, hogy SJ nem volt tisztában az egész történet ezen finom részleteivel. ;)

Tableau Data Visualization Cookbook

.
Én értékelésemben minden idők legrosszabb szakkönyve jelent meg 2013 augusztusában (elektronikusan 20, míg papírkötésben 40 USD):

Pact Publishing: Tableau Data Visualization Cookbook

Pedig a könyvkiadót a szakkönyveivel nagyon szeretem. Nagyon frissen cuppannak rá, nagyon aktuális témákra.

Ennél a könyvnél ráadásul a kiadó inkorrektnek tűnik első ránézésre, mert a tartalomjegyzéknél nem látszanak oldalszámok. Ez a cookbook írd és mondd, az index utolsó oldalával együtt 156.oldal(!). A könyv "overview"-jánál meg egyenesen 172 oldal látszik.

Már ennyiből is látszik, hogy nehéz komolyan venni a könyvet, leginkább azért, mert nincs minősítés (kezdő-haladó).
Azt el tudom (nagy nehezen) képzelni, hogy haladó fogások egy halmazára elég legyen 156 oldal, de ilyesmiről itt nincs szó.
Azt is el tudom képzelni, hogy egy bevezető "szakácskönyv" legyen 156 oldal - hiszen egyébként pártolom a minél kevesebb betűre való törekvést, itt a blogomon is :)

Chapter 1: Connecting to Data Sources
Chapter 2: Creating Univariate Charts
Chapter 3: Creating Bivariate Charts
Chapter 4: Creating Multivariate Charts
Chapter 5: Creating Maps
Chapter 6: Calculating User-defined Fields
Chapter 7: Customizing and Saving
Chapter 8: Exporting and Sharing
Chapter 9: Exploring Advanced Features

Hogyan lehet egy ilyen tartalomjegyzékkel megúszni a témát? A legdurvább, legutolsó advanced feature a "create parameter". Ezt mégis hogyan tudja komolyan gondolni egy ember? A könyvnek egyetlen érdemi értéke van, hogy az egyes tippeknél vannak "there's more" szekciók, valós, nagyon jó linkekkel. A könyv egyedül emiatt lehet esetleg érdekes, meg ha azt vesszük annyira nem drága (szigorúan csak elektronikus verzióban).

Személyes adalék:

Jövőre, 30 éves pályám során (20 évesen kezdtem lyukkártyás R-11-es IBM360-as KGST-klónon), mindösszesen csak három téma kapcsán fordult meg bennem, hogy de jó lenne tanítani, meg milyen nagy dolog lenne.

(1) SQL. Ezt elsősorban azért, mert meggyőzödésem, hogy világszerte rosszul tanítják, rossz elvek és rossz tankönyvek alapján. Én magam mondhatni egyetlen jó SQL-tankönyvet nem láttam (referencia nem tartozik ide, hiszen az nehezen tud rossz lenni). Ezt tudom nagyon hihetetlenül/morbidan hangzik, egy alaptémánál, de akkor is így van. Az én határozott véleményem az, hogy jobb tanítási módszerekkel, sokkal többet hozhatnának ki a felhasználók az sql-ből, sokkal "funny"-bb módon.

(2) Adatbányászat. Nyilván. :) Itt persze elsősorban az izgat, hogy hogyan lehetne kedvet csinálni hozzá, hogyan kellene a hatalmas anyagból válogatni, rendszerezni, mondjuk 1 másfélórás előadásra vagy 1 féléves főiskolai kurzusra. Hogyan lehetne közelhozni az egészet, érdekes és nem triviális módon (ami a legtöbb tananyag nagy hibája olvasatomban).

(3) Tableau. Szintén nyilván :) Tableau-val egy nagy gondom van e téren, hogy az idő múlásával párhuzamosan amint belekeveredek egyre "durvább" Tableau-s projektekbe, veszem észre, hogy egyre több mindent kéne még tudnom, egyre több van hátra. ;) Pedig egy egyszerű, felhasználóbarát szoftvernek néz csak ki, amit imádnak az üzleti userek. 

Mindez pedig azért gond, mert egy oktató felé minimális elvárás, értelmezésemben, hogy legalább valamilyen szinten ontopik módon meg tudjon válaszolni minden - oktatás során - felmerülő kérdést. Na ettől én még messze érzem magamat, igazándiból csak egyetlen embert ismerek, aki megfelel ennek a kritériumnak. Azt gondolom egyébként, hogy nagyon nagy erőfeszítést igényel a 90%-ról a 99%-ra lépni.(ezért is lenne jó hivatalos Tableau oktatási anyagokat látni, amire eddig nem volt még módom).