Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2013. július 5., péntek

TOP-10 adatbányász algoritmus


Top 10 algorithms in data mining

A 37.oldalas Springer által is megjelentetett cikk 2007 év végi, azóta lassan hat év is eltelt.
De én sajnos csak most botlottam bele.;)

A TOP-10-et egy 2006-os konferencia határozta meg, és az volt a kiválasztási szempont, hogy mely algoritmusok gyakorolják a legnagyobb hatást a kutató közösségre.

És azonnal dobtam is egy hátast tőle.

A TOP-10 adatbányász algoritmus, a cikk 15 szerzője szerint:
01.C4.5
02.k-Means
03.SVM,
04.Apriori
05.EM
06.PageRank
07.AdaBoost
08.k-NN
09.Naive Bayes
10.CART

* A döntési fa család két algoritmussal is képviselteti magát (C4.5, CART). Számomra új, hogy a C4.5 ekkora fókuszt kapjon, mégha a C3 zseniális megalkotója (Quinlan), a szerzők között is van.

* Logisztikus-regresszió hiányzik, ami egyszerre népszerű, elterjedt, sőt még párhuzamosítható is, mint kiderült. Talán nem véletlen, hogy ez összejött. ;)

* Ahogy én tudom a Logitboost sokkal inkább fókuszban volt/van (versenyeken is), mint az Adaboost. Egyébként is a bagging, boosting, "ensembling" etc.nagyon-nagyon forró topik, szvsz. Ebből kiemelni az Adaboost-ot, történelmi elsősége(?) miatt, hát nem tudom.

* Pagerank szerintem (1) nem klasszikus adatbányász-algoritmus (2) zárt a Google révén (minden részletét illetően). A ranking-prediktálás az igen, de az nem a Pagerank.

* Collaborate filtering teljes hiánya, a Netflix verseny idején. ;)

* Klasszikus neurális hálók teljes mellőzése. Az RBM(=Restricted Boltzmann Machine), kvázi minden versenyen elő szokott kerülni, a leglehetetlenebb(nek látszó) módon is. Talán nem véletlen.;)

* Semi-supervised algoritmus-vonal teljes hiánya is furcsa nekem.

Nincsenek megjegyzések:

Megjegyzés küldése