.
Jelent meg egy friss könyv Coelho billentyűzetéből. De ez egy másik Coelho. ;)
Willi Richert, Luis Pedro Coelho - Building Machine Learning Systems with Python
Ez a könyv már a 4.fejezetében elkezd "durvulni", LDA(="Latent Dirichlet Allocation")-s topik-modellezéssel.
Nade, ami a 9.fejezetben érkezik, attól kivirul az adatbányász szíve ;)
Music Genre Classification=Zenék műfaji osztályozása gépi algoritmussal, pár soros Python-kódolással.
Itt van a felhasznált 1.1 GB-nyi dataset különféle zenék MP3-jaival. 10 műfaj (klasszikustól a rockig), minden műfajban 100-100 zenével, úgy hogy az számok első 30 sec-je van az MP3-ban.
http://opihi.cs.uvic.ca/sound/genres.tar.gz
WAV-vá alakítás után döbbenetes, hogy egy szimpla FFT (="Fast Fourier Transformation") milyen erős/hatékony tud lenni). Úgy csökkent dimenziót, hogy bombaerős feature-öket generál.
Az ugye mindenkinek megvan, hogy miért kellett WAV-ba konvertálni? Merthogy a WAV tömörítetlen formájában egy kvázi adatbázis, hangfizikai jellemzőkkel (csatorna, mintavételezés, bitmélység, stb)
Itt alább látható a gépi osztályozás minőségéről egy kép.
A klasszikus és metál a legjobban elkülöníthető és a jazz a legkevésbé :
Megjegyzés: számomra a 0.99 AUC túlságosan szépnek tűnik, hogy igaz legyen, de nem kizárt.
2013. november 17., vasárnap
MP3 zenei hangfile-ok műfaji besorolása adatbányászattal
Címkék:
adatbányászat,
book,
classification,
data mining,
könyv,
music,
osztályozás,
python,
zene
Feliratkozás:
Megjegyzések küldése (Atom)
Nincsenek megjegyzések:
Megjegyzés küldése