Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. augusztus 4., vasárnap

Adattudósok klaszterezése


O'Reilly: Analyzing the Analyzers-An Introspective Survey of Data Scientists and Their Work

Jelent meg egy friss, nem túl vastag (40 oldal)  könyv, amit az hívott életre, hogy az adattudósok körüli kommunikáció finoman szólva is szegényes. ;) Ez a topik nekem régről nagy vesszőparipám, így nem volt kérdéses, hogy utánanézek a benne lévő információknak. :)

Ízelítőül három ábra illetve egy skillset

A klasszikus, bűvős 4 szám ismét előjön, itt az adattudósok klaszterezésénél is. Valahogy kitüntetett módon szeretünk 4 csoportba klaszterezni, legyen szó bármilyen domain-ről. :) Nem véletlen az sem, hogy előjönnek a szokásos szinonimák ("fejlesztő", "tudós/kutató", "hacker", "domain-szakértő")

Tanulságos az interdiszciplináris adattudós-tudomány egyes mezsgyéit így látni:

 

Érdemes megfigyelni, hogy mindenkinek kell mindenhez érteni valamennyire.  

Végül milyen skillset kell(het) egy adattudósnak.

• Algorithms (ex: computational complexity, CS theory)
• Back-End Programming (ex: JAVA/Rails/Objective C)
• Bayesian/Monte-Carlo Statistics (ex: MCMC, BUGS)
• Big and Distributed Data (ex: Hadoop, Map/Reduce)
• Business (ex: management, business development, budgeting)
• Classical Statistics (ex: general linear model, ANOVA)
• Data Manipulation (ex: regexes, R, SAS, web scraping)
• Front-End Programming (ex: JavaScript, HTML, CSS)
• Graphical Models (ex: social networks, Bayes networks)
• Machine Learning (ex: decision trees, neural nets, SVM, clustering)
• Math (ex: linear algebra, real analysis, calculus)
• Optimization (ex: linear, integer, convex, global)
• Product Development (ex: design, project management)
• Science (ex: experimental design, technical writing/publishing)
• Simulation (ex: discrete, agent-based, continuous)
• Spatial Statistics (ex: geographic covariates, GIS)
• Structured Data (ex: SQL, JSON, XML)
• Surveys and Marketing (ex: multinomial modeling)
• Systems Administration (ex: *nix, DBA, cloud tech.)
• Temporal Statistics (ex: forecasting, time-series analysis)
• Unstructured Data (ex: noSQL, text mining)
• Visualization (ex: statistical graphics, mapping, web-based dataviz)