Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2015. június 7., vasárnap

KDnuggets data science tool szavazás 2015

.

Analytics, Data Mining, Data Science software/tools used in the past 12 months

Legizgalmasabb változások 2014-hez képest:
- Tableau 12.helyről -> 8.helyre
- Alteryx 29.helyről -> 19.helyre
- 'Jól fogy' az open source :)
- 'Az ár nem számít': SAS elöl (olcsó jó JMP-t előzve), Salford is középmezőny, Matlab is előzi a kompatibilis Octave-ot etc.

Élmezőny:
- R: "2015 Perl-e". Imádja a világ, de a valós szakmai miértet tuti nem tudná megmondani, pláne meg is védeni az álláspontját. ;)
- Rapidminer: nagy ellendrukkere vagyok a v6.0-tól. A világ láthatóan szereti, pedig a visual flow-k közül a legkevésbé triviális (és akkor nagyon finoman fogalmaztam). Egyenszilárdságról, bugmentességről ne is beszéljünk.
- SQL: Knime mellett ennek az előkelő helynek örültem a legjobban. Van még remény a világban, nem érett még meg a pusztulásra :)
- Python: jó látni az előkelő helyét, abszolút imádnivaló pompás nyelve az adatbányászoknak. Egyszer talán az R-et is lekörözi végre valahára... :)
- Excel: a legjobb hír, amit el lehet mondani, hogy folyamatosan visszazorul. A legnagyobb ipari hulladékok egyike. Én értem, hogy "szegény" ember azonnal kéznél lévő toolja, de akkor is.
- Knime: az én top-favoritom, ezzel mindent elmondtam.
- Hadoop tarol a skálázhatóságával, hiába tud sokszor összességében rettenetes performanciát produkálni.
- Spark: ultrabrutál durva az előkelő helye, az elvárások is hajthatják felfele.
- Weka: adatbányászvilág standardje, nagyon sokan támogatják (Rapidminer, Knime, etc.). Ő volt az első igazán komoly open source cucc emlékeim szerint, sokat köszönhet neki a világ, hogy sikerült SAS típusú mamutokat megrengetni.
- SAS Enterprise Miner, el nem tudom képzelni ki ad ki érte brutális pénzeket: mára már teljességgel indokolatlan és védhetetlen a jó helyezése. A tehetelenségi erő tarhatja felszínen?
- Micrsoft SQL-Server: mindig mondtam, hogy nem szabad lebecsülni: kevés választékot ad, de abban jó és talán reális árú is.
- Matlab: brutális árú nagy tudású remek standard eszköz, gondolom az egyetemi szféra tudja leginkább használni.
- sci-kit learn: Python miatt erősödhet.
- AWK antikvitás, mint a Pascal csak az utóbbi nincs fenn a listán. Igazi őskövület, és még egy Perl-t is leköröz. Nagyon durva.

Középmezőny1:
- IBM SPSS Statistics és Modeler, brutális ára ellenére standardként használják mai napig. Meg is tudom érteni, miért imádják a userei.
- Alteryx SPSS-nél csak első évben olcsóbb, gyengébb és mégis mögé került ilyen rövid idő alatt.
- Pig: "gyengébb SQL", de azért védhető :)
- TIBCO, világbajnok cuccokkal(S-Plus, Insightful Miner) elszabott árazás ellenére is jön fel.
- Rattle, open source és R alapú hullagyenge cucc, evvel együtt is indokolatlan ilyen előkelő helyezése: sosem vetemednék rá.
- Qlikview seholsincs, valamit elronthattak nagyon és/vagy a Tableau valamit nagyon jól csinál.
- Revolution Analyítics, fura a helyezése az R ismeretében. Amit kínál pluszban az open source-hoz képest azt reális áron teszi.
- SAS JMP, kedvező árú, brutálisan jó cucc (GUI-ban, használhatóságban, dokumentáltságban). Nem értem a gyengébb szereplését.
- SAP-KXEN, brutális árú átlagos cucc. Olyan mint a Fortran, nem bír kikopni.
- Perl: az informatikai társadalom szégyene, az előkelő helyezése ;)
- Salford: brutális ár (értelmes edition-ben 118.000 USD egy évre), ehhez képest jó a helyezése, azaz tudhat valamit.

Középmezőny2:
- GNU-Octave, open sourcehoz képest le van maradva csúnyán. Ki fog szorulni jobb eszközök miatt?
- Actian (Vectorwise), nemcsak fennvan a listán, de négyszerezett, mondjuk Data Mining alapnak nem rossz, lássuk be.
- H20, érdemes rá nagyon figyelni, főleg, hogy az egyelőre jobban szereplő Mahout ki fog kerülni a képből.
- Orange, Pythonos visual flow-s open source cucc Szlovéniából, stabil jó termék, érthetetlenül hátul.
- Mathematica, jó cucc, sajnos értelmetlenül brutális áron.
- Cognos, semmi keresnivalója a listán, azt gondolom.
- Statistica Data Miner (Dell), én mindig imádtam vele dolgozni, előrébb kéne lennie.
- Stata, jó árú remek cucc, nekem fura, hogy ennyire hátul van.

"Futottak még"

- C4.5 döntési fák ereje (egyetlen algoritmus semmi más).
- Julia, Splunk/Hunk ígéretesen jön fel, még ha kevesen is ismerik/haszálják jelenleg.
- Datameer, eléggé szégyenteljes leszereplés, pláne egy erős kezdés után, némileg érthetően (hiszen túl drága és hozzá túl gyenge,illetve nem is szép a produktuma).
- Microstrategy, lehet, hogy még ennyit sem ér amennyit a helyezése mutat
- Oracle Data Miner, nagyon hátul és szorul is vissza, pedig In-Database Miningja van, igaz a 999 oszlop komoly táblakorlát. Olcsónak sem feltétlen nevezném, bár nem kirívó outlier az ára.
- Amazon nagyon  gyengén muzsikál, némileg érthetetlenül (jó szolgáltatás, security gond sem lehet).
- Clojure, F#, LISP, Felfért a listára (Scala már nem) és inkább nőnek, mint visszaszorulnak.





Nincsenek megjegyzések:

Megjegyzés küldése