Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2016. június 13., hétfő

Gépi audio2text konverzióról

.
Makara: Relaxa Tangó blogposzt -ban már előkerült az Aitia -s, magyar nyelvű, jó minőségűnek tűnő, real-time, bár drága megoldás, az egyéni nyelvtanulást segítő szoftveres megoldások kontetxusában. De most az izgalmas ugye a sokkal régebb óta létező angol nyelvű lehetőségek.

Ma játékból kipróbáltam az Original Effortless English 1.lecke ("Day of the Dead") vocabulary fejezetének gépi audio-to-text átírását/auto-konverzióját, mondván, hogy ez az egy fejezettípus nincs leiratban, csináljunk akkor egyet tesztként.

Kiváncsi voltam:
(a) van-e free megoldás?
(b) megy-e real-time is a dolog?
(c) milyen a minőség?

És lehidaltam az eredménytől. :)

A www.voicebase.com-on csak szimplán regisztrálni kellett, feltöltöttem a 10 perces mp3-at vártam pár percet. És pár elütést nem számítva kvázi tökéletes (helyesírásos, központozásos)  szöveget kaptam vissza (amíg ellenőriztem).

Tartja magát a legenda/mítosz, hogy úgy általában nagyon gyenge az audio-text konverzió. Itt egy cikk a témáról alább: Én azonban úgy érzem sokkal előrébb jár a technológia, mint gondolná/várná az ember (hasonlóan ahhoz, hogy a Gó-ban is mára tud gép verni mestert: egy-két éve ezt sem hittük). Ember nem is hinné mily csodákra képes a mesterséges intelligencia és alkalmazásai.
Automatic audio-transcription software science-fiction

Kérdés az, hogy a gépi fordítás miért tud csak nagyon lassan felzárkózni, minőséget illetően? Ugyanazért-e mert neki is rosszul tanítják a nyelvet, mint embereknél, ahogy Makara is sugallja legújabb könyvében? :DDDDDDDDDDD

Amúgy az az érdekes, hogy audio-to-text esetében a nehézség pont fordítva van, mint az ember várná. Ugye az angol "tigrist" mond, miközben "zongorára" céloz (Markos-Nádas) :), míg a magyar nyelv kiejtés szempontból egyszerű(bb) nyelvnek tűnik. Mégis az angol gépi konverzió sokkal könnyebb, sokkal régebb óta létezik, míg a magyar csak pár éve van jó minőségben.

De, ha valaki mégsem hisz a dologban, vannak szorgos indiaiak, akik segítenek. Mondjuk árat így kutyafuttában nem láttam. De ez a lehetőség Makara szoftvervíziójában amúgy sem játszik, ugye :)
www.transcriptionservicesindia.com/audio-transcription.php

Érdekes amúgy eljátszani a gondolattal, hogy ha a gép jól csinálja az audio-to-text konverziót, akkor a bediktált szöveg kiejtéséről mit lehet mondani, nyelvvizsga-pontozás kontextusában.
* Lehet-e gyenge kiejtés nyomán jó konverzió?
* Lehet-e jó kiejtés nyomán gyenge konverzió stb.

A Google-nak is van két cucca:
Mikrofonos:
Google Speech
Feltöltős
Google Speech API

De ezekkel most nem játszottam, pedig lehet, hogy tudják a real-time dolgot is már.

Nincsenek megjegyzések:

Megjegyzés küldése