Beszédfelismerő technológia

Beszédfelismerés, az eszközök képessége reagálni a beszélt parancsokra. A beszédfelismerés lehetővé teszi a különféle eszközök és felszerelések kihangosítás nélküli vezérlését (sok áldásban részesülő ember számára), beadja az automatikus fordítást, és nyomtatásra kész diktálást hoz létre. A beszédfelismerés legkorábbi alkalmazásai között szerepeltek az automatizált telefonrendszerek és az orvosi diktáló szoftverek. Gyakran használják diktálásra, adatbázisok lekérdezésére és parancsok megadására számítógépes rendszerekre, különösen azokban a szakmákban, amelyek a speciális szókincsre támaszkodnak. Ezenkívül személyes asszisztenseket is lehetővé tesz járművekben és okostelefonokban, például az Apple Siri-ben.

Mielőtt bármilyen gép értelmezni tudja a beszédet, a mikrofonnak át kell alakítania az ember hangjának rezgéseit hullámszerű elektromos jellé. Ezt a jelet a rendszer hardvere - például egy számítógép hangkártyája - digitális jellé konvertálja. Ez a digitális jel, amelyet egy beszédfelismerő program elemz annak érdekében, hogy felismerje a különálló fonémeket, a beszéd alapvető építőköveit. A fonémokat ezután szavakba egyesítik. Sok szó ugyanakkor hangzik, és a megfelelő szó kiválasztásához a programnak a kontextusra kell támaszkodnia. Számos program létrehozza a kontextust trigram analízissel, egy olyan gyakorisággal, amely egy gyakori háromszóból álló klaszterek adatbázisán alapszik, amelyben valószínűséget kap, hogy bármelyik két szót egy adott harmadik szó követi. Például, ha egy beszélõ azt mondja, hogy „ki vagyok”, a következõ szót „I” névmásként fogják felismerni, nem pedig a hasonló hangzású, de kevésbé valószínû „szem” -ként. Ennek ellenére időnként emberi beavatkozásra van szükség a hibák kijavításához.

Néhány elkülönített szó felismerésére szolgáló programok, mint például a telefonos navigációs rendszerek, szinte minden felhasználó számára működnek. Másrészről a folyamatos beszédprogramokat, például a diktálási programokat meg kell tanítani az egyén beszédmintáinak felismerésére; a képzés magában foglalja a felhasználó hangos szöveges minták olvasását. Ma, a személyi számítógépek és a mobil eszközök növekvő erejével, a beszédfelismerés pontossága jelentősen javult. Több tízezer szót tartalmazó szójegyzékben a hibaarány körülbelül 5% -ra csökkent. Még nagyobb pontosság érhető el a korlátozott szótárakban a speciális alkalmazásokhoz, például a radiológiai diagnózisok diktálásához.