Magamról

Saját fotó
Főiskolai, majd egyetemi diplomamunkáimtól kezdve világ életemben, adatok, adatbázisok, adattárházak (leginkább Oracle) környékén mozogtam. Mostanság adattárházasként, adatbányászként élem napjaimat.

2010. szeptember 14., kedd

Intelligens ügyfélszolgálati rendszert vezet be a Vodafone

. Az alább következő blogposzt már v1.1-es verziójú és egyelőre egy darabig véglegesnek is tekinthető. A tegnapihoz képest jelentős javítást az indokolja, hogy a hír mögötti új hangbányászati illetve -felismerési technológiára az elmúlt pár órában lett egy pici rálátásom, már nem kell annyira a sötétben tapogatóznom.Mivel v1.1-et írtam és nem v9.0-t nagy csodát senki ne várjon! ;) Friss tegnapi tárgybeli hír két forrásból is, a második (indexes) cikk kommenteket is tartalmaz, ennyiben érdekesebb. :o)   Intelligens ügyfélszolgálati rendszert vezet be a Vodafone (index.hu) A gépek figyelnek, ha a Vodafone-t hívjuk (privatbankar.hu)
A Vodafone Magyarország és a Montana Tudásmenedzsment Kft. intelligens ügyfélszolgálati rendszert vezet be a mobiltávközlési társaságnál, a valós idejű ügyfélkiszolgálás egy folyékonybeszéd-felismerő szoftveres megoldáson alapul, s első lesz a magyar piacon A kedden Budapesten sajtótájékoztatón bemutatott megoldás a telefonáló beszédének elemzésével automatikusan meghatározott kategóriákba sorolja a hívást. A rendszer képes lesz olyan statisztika előállítására is, amely megmutatja az ügyfélszolgálat kihasználtságát és a leggyakoribb kérdéseket. A kategóriáknak köszönhetően hatékonyabban lehet majd a munkát megszervezni, a munkatársakat beosztani, így az ügyfél gyorsabb és pontosabb megoldást kaphat problémájára. A Montana által vezetett fejlesztést az Európai Unió és a magyar állam összesen 218,4 millió forinttal támogatja. A kutatás-fejlesztés révén a Vodafone először alkalmazhat majd hangfelismerő rendszert call centerében. A projekt teljes bekerülési költsége 336 millió forint. A projekt két év alatt, 2012 első negyedévének végére éri el a kívánt eredményt.
NÉZZÜK AKKOR, mit lehet ennyi infóból kihámozni.
* Nincs új a nap alatt: következzenek a történelmi előzmények

Régi vágy a szakmában a szöveg (text) és a hang (voice) kölcsönös megfeleltetése. Míg azonban a szöveg felolvasása hanggá régóta és jó minőségben létezik, úgymond könnyű feladat. A másik irány vagyis a hangzó szöveg írott szöveggé alakítása jóval nehezebb feladat. A historikus előzményeket is figyelembevéve vannak különböző nehézségi fokozatok:

- Nem mindegy, hogy például Bőzsöny Ferenc szép magyar beszédét CD-minőségben kell dekódolni írott szöveggé, avagy szegedi tájszólásos ember recsegős és/vagy háttérzajos vonalas- vagy mobiltelefonról érkező hangját.

- Nem (feltétlen) mindegy a nyelv, különös tekintettel arra, hogy a magyar nyelv agglutináló (ragozó) nyelv, szemben az ebből a szemponból jóval egyszerűbb angol nyelvvel. Nem is véletlen, hogy angol nyelvterületen előbb voltak sikerek a témában.

- Nem mindegy, hogy egy szöveghez kapcsolódik-e érzelmi analízis. Nyílván az olyan ügyfélre jobban kell figyelni, aki ordít és/vagy dühös, pláne, ha kiemelt jó ügyfélről van szó. Vagy olyan esetben, amikor a cég call-centeres ügyintézője vált véletlenül "bicskanyitogató" módba.

- Nem mindegy, hogy csak kategóriákba kell-e sorolni egy hanganyagot, avagy hangról-hangra dekódolni kell azt.

- A friss indexes hír szövegből derül ki egy érdekes feladat, nevezetesen megkísérelni azonosítani a gyakori kérdéseket/problémákat. Ez a fenti kategórizálásos problémánál nehezebb csoportosítási/osztályozási feladat. Ide eljutni is hírértékű lenne (magyar nyelvterületen, gyenge minőségű telefonos hanganyag esetén).

- Végül nem mindegy, hogy
+ teljesen általános, spontán, hétköznapi, szűkebb szókincsű(?) folyamatos beszéd folyamatos online valós-idejű konverziójáról van-e szó
+ egy konferencia moderátorának félig spontán beszédének szöveggé alakításáról van-e szó
+ egy tévés hírcsatorna híradósának előre megírt szövegéről van-e szó.
Érezhető, hogy egyfelöl könnyebbedik a feladat, másfelöl más-más a pontossági követelmény és a várható felhasználás.

* Magyar nyelvterület eddigi eredményeinek áttekintése (amiről én tudok)

- A témában - hangsúlyozottan az én tudtommal, és alapvetően két éves emlékeimre támaszkodva -, legelőször két éve a Nextent robbantott. Ők a Szegedi Tudományegyetem egyik műhelyében kikísérletezett tudományos kutatást hoztak fel termékszintre. Ebben van érzelmi analízis is. Alapvetően szócentrikus metódus, lényegi működése, hogy előre megadott szavakat keres rossz minőségű telefonos hangfile-okban. A módszer mélyében egy nem publikus módon módosított/feltalált SVM (kernel-módszer) algoritmus húzódik. A módszer akkor lehet előnyös a teljes hang->szöveg konverzióval szemben, ha a felismerendő szavak tényleg nagyon nagy megbízhatósággal felismerődnek és akkor hátrányos, ha a teljes hang-szöveg konverzió átlagosan is nagyon magas megbízhatóságú. Ebben az esetben akkor már csak árversenyben tudhat jobbat adni a szófelismeréses módszerű szoftver (technológiai értelemben nem).

Itt egy korabeli két évvel ezelötti  indexes cikk egy létező, kapható folyamatosan fejlesztett termékről, szintén kommentekkel, amik persze mutatnak némi áthallást a friss kommentekkel. ;)
A hangulatunkat is elemzik a call centerek

Itt a magyar fejlesztésű termék honlapja:
Voice Miner

- Nem sokra rá jött a magyar piacra a nagy konkurens izraeli Nice cég, amelyik rohamtempóban próbálta meg angol nyelvterületen már létező megoldását adaptálni magyar nyelvterületre. Olykor övön aluli módszereket is alkalmazva: ügyfél által súlyos pénzekért megvásárolt call center system által speciális file-formátumban tárolt hanganyagokhoz nem engedte a saját pénzes ügyfeleit hozzáférni, saját tulajdonának tekintve azt.

- A harmadik legfrissebb szerepelő a BME-vel együttműködő Netxtenthez hasonlóan magyar Aitia.

Összefoglalva tehát ez egy többszerepelős piac, más-más fókuszokkal, súlypontokkal, előélettel.

* Azt azért látni kell a friss hírek kapcsán, hogy:

- Nem szabad elfelejteni, amiről hírt kaptunk a fentebbiek szerint, az egyelőre csak terv. 2012-re várható eredmény a projekttől. Ez egy kötelező kommüniké volt, a támogatás miatt.

- Ügyfélszolgálati kihasználtsági mutatókhoz, egyéb hang-, szöveg- és adatbányászati megoldásoktól független technológiák is rendelkezésre állnak.

- 336 millió forint nekem nagyon kevésnek tűnik egy fullos megoldáshoz. Bár kétségtelenül lehet belőle valamilyen eredményt szállítani. :o)

- Egyébként az "szép" lehet az egész történetben, hogy az ügyfelek fogják megfizetni vásárolt szolgáltatásokon keresztül ezt a drága call centeres technológiát: mármint hogy gépekkel lehet majd társalogni nem kevés várható potenciális probléma árán, miközben a minél tökéletesebb hangfelismerés egyéb célokra is használható lesz.

- Az indexes cikk kommentjeiből egyértelműen kiderül két reakció
(1) szkepticizmus
(2) azonnal előkerül a nagy testvér figyel típusú adatvédelmi aggodalom.

* Folyékonybeszéd-felismerő

Ez eredendően elég tág határok között értelmezhető: lehet csak annyiról szó, hogy képes a program megkülönböztetni az élőbeszédet a zenétől például. Egészen addig elmenve, hogy a hangot képes valós időben text-állománnyá lekonvertálni illetve szövegbányászatilag feldolgozni. Na ez utóbbit én a saját tapasztalatom alapján egészen egyszerűen nem hiszem el -> írtam tegnap. Ma meg saját szememmel láttam egy AITIÁ-s demót, és nem hittem a szememnek, azt hittem káprázik.

Egy nő telefonált egy internetszolgáltatóhoz talán, és ahogy mondta tök normál sebességgel a szöveget t-é-n-y-l-e-g azonnal íródott ki a (magyar) szöveg a képernyőre, elképesztő pontossággal. Volt a szövegben pár xyz de lényegtelen volt (az sem kizárt, hogy recsegés következményeként), én így hasraütve a lényeget illetően 99%-os pontosságot mondanék rá. (Nyilván ez egy jól kiválasztott minta volt, lehetnek jóval gyengébb minták is) Részemről maximális respect, technológiai megvalósíthatósági értelemben lenullázódott a szkepticizmusom.Ha nem demó-, hanem éles üzemi körülmények között látom, akkor azt mondom, hogy komplett kiérlelt a technológia. Amennyi kevéske infóm nekem van, annak alapján azt mondom a Nextent megoldásának fel van adva a lecke, egy erős konkurens érkeztével.

* AITIÁ-s technológiai háttér

Természetesen egy ilyen impresszív élmény után megpróbáltam utánajárni mi lehet a háttérben. Nyilván sok infó azért nem elérhető angolul sem, rövid idő alatt nem lehet csodát tenni egy ilyen blogposztban, ráadásul én sosem dolgoztam a témában. Hiába áll szívemhez közel a hangbányászat is, mint speciális adatbányászat, ha olykor még a terminológiával sem vagyok tisztában a fentiek miatt. Ami nekem lejött nagyon röviden:

- Mivel folyamatos beszéd detektálásáról van szó, szó nem lehet szavak detektálásáról. Vesznek mondjuk egy 10 másodperces hangrészletet azt elemzik. Próbálják megtalálni a neki megfelelő szöveget. Próbálnak benne detektálni szünetet. Ha analógiával akarnék élni, a szövegbányászatban ismert n-gram technikához hasonlítanám. Ami nóvum, az az, hogy ezek az elemek a felismerés során egyre "értelmesednek" illetve hálózatot, praktikusan például Bayes hálózatot alkothatnak, rákövetkezési valószínűségekkel "súlyozva". Óriási szakmai gyönyörűség ha más nem is, csak ilyen felismerési hálózatokkal foglalkozhatni. :o)

- Minden például 10 másodperces hanganyag legelőszöris átesik egy lényeg/jellemző-kiemelésen (->feature extraction).Az így kapott jellemzővektor illesztődhet aztán szótárban előzetesen meglévő mintákhoz.

Kétféle szótár van:

+ Akkusztikai alapú: jellemző nyelvspecifikus fonémák jellemzővektorainak szótára. Ez alapjában egy sok helyről összelapátolt cucc, van benne Bőzsöny Ferenc típusú hanganyagtól kezdve háttérzajos, meg spontán benyögéses anyag is.A szótár bővíthető, a kritikus pont a hanganyagok leképzése algoritmus szemponból már kezelhető jellemzővektorokra. Amúgy a képbányászok is alapvetően ilyen - esetükben nyilván képspecifikus - jellemzővektorokkal dolgoznak egyébként.

+ Nyelv(tan)i alapú: itt jön a szavak - emlegetett és valószínűségekkel megfűszerezett - Bayes hálózata.

A poén az, hogy a kettő összefűzhető: a akkusztikai verzióból kapott statisztikai valószínűségek (eloszlások) megfeleltethetők a nyelvi verzióval, ezáltal azok kvázi beágyazhatók ez utóbbiba. Ha működik, elmondhatatlan szépségű elképzelés.

- Kulcskérdés a hangzó szöveg megtalálásának konfidencia szintje (nem mindegy, hogy legjobb közelítéssel avagy pontosan találjuk el mit mondtak), mindezt kettős célkitűzéssel. (1) Minél magasabb legyen, és (2) minél pontosabban megadható. Az az ígéret, hogy ebben van az egyik nagy dobás.Sikerült egy olyan számítási módszert találni ami kvázi egyetlen valós számot rendel megfeleltetésekhez és a megfeleltések optimális aggregálása után jönnek a döbbenetes eredmények. Na ez a konfidencia-számolás meg a másik óriási szakmai gyönyörűség. :o)

- A felismerési hálózatkonfiguráció révén tehát, egyre értelmesebbre leképzett hangfoszlánydarabkákhoz valós számmal reprezentált hasonlóságmértékünk lehet. A következő kérdés hogyan kell legjobbat választani? Egy véges bármilyen nagy szótár/korpus nem elégséges mindehhez. Ezért jön a következő nagy ötlet. Egy olyan felismerő hálózatot generálni, ami minden jellemzővektor-sorozathoz jól illeszkedik. Én ebből az állításból azt értem, hogy miért jó és örömteli. Viszont ha nekem kéne egy ilyen hálózatot generálnom, így első belegondolás után ebbe beletörne a bicskám, olyan nehézségűnek hangzik, méretre is, kezelhetőségre is.

- Konfidencia-konklúzió tehát, hogy a hang+nyelv illesztés, illetve a mindenhez illeszkedő hálózat együttesen tudhat kellően jól artikulált és argumentált konfidencia eredményt adni.

- Egy dologról nem esett szó: hogyan tud ez valós-időben menni. Természetesen fogalmam sincs.Úgy képzelem a jellemzővektoros összehasonlítás, pláne valamiféle indexes támogatással nem egy nagy dolog. Utána a Bayes hálózat valószínűség szorzásai, összeadásai megint nem elviselhetetlen műveletigényűek. És a legvégső aggregálásnál sem látok szorzás összeadásnál bonyolultabb műveletet, és belőlük sem sokat. Azaz a valós-idejű működést tudom a legjobban elképzelni az egész fenti történetből, működhetőség szempontjából.

* Végül itt egy már működő érdekes webes alkalmazás/honlap a csapattól.Itt videókban lehet szöveget keresni.
Mindroom

Köszönet mindenkinek a blogposzthoz nyújtott különféle segítségért.

4 megjegyzés:

  1. Személy szerint a t-mobile-hoz tartozom.
    De engem már az is kiborít, amikor felhívom őket, hogy géppel szelektálnak, ami azt jelenti, hogy egy hang bemondja, mihez melyik gombot nyomjam meg. Természetesen eközben elkéri az ügyfélszámom is teljesen fölöslegesen, ugyanis amikor végre nagy nehezen sokadik körre diszpécser veszi fel a kagylót, ő ismételten rákérdez...

    Hát, belegondolva, hogy a jövőben gépekkel kell beszélgetni... :))))
    Úgy gondolom, izgalmas lesz, mindezek közben megtudniuk majd a pillanatnyi lelkiállapotomat :)))

    VálaszTörlés
  2. Hát igen. Sajnos. Ennél már csak az a jobb, ha reklámokat kell hallgatni pluszba, vagy vonalszakadás után az egész tortúra kezdődhet előlről.
    :o(((((

    VálaszTörlés
  3. Ez nem is egy javított írás, ez egy másik írás :)))))

    Nagyon komoly bejegyzést fabrikáltál végül egy könnyed posztból :)
    Innen fogva már nem is idavaló a hozzászólásom.

    VálaszTörlés
  4. Köszönöm kedves szavaidat.
    És dehogynem idevaló a hozzászólásod. A dolog érvényessége semmit nem változott tegnap óta. :o)

    VálaszTörlés