Word Error Rate kertoo puheentunnistusjärjestelmän tarkkuudesta

mennessä 3 syys, 2024

Word Error Rate (WER) on yleisesti käytetty mittari, jolla arvioidaan puheentunnistusjärjestelmien tarkkuutta. WER mittaa, kuinka monta virhettä puheentunnistusjärjestelmä tekee, kun se muuntaa puheen tekstiksi. WER lasketaan vertaamalla tunnistettua tekstiä alkuperäiseen käsikirjoitukseen ja tunnistamalla erot, kuten lisätyt, puuttuvat tai väärin tunnistetut sanat.

WER lasketaan seuraavasti:


• S on virheellisesti korvatut sanat (Substitutions),
• D on puuttuvat sanat (Deletions),
• I on lisätyt sanat (Insertions),
• N on alkuperäisen tekstin sanojen määrä.

Käytännössä WER:n avulla voidaan arvioida puheentunnistusjärjestelmän suorituskykyä eri käyttötilanteissa. Se on keskeinen mittari, kun kehitetään ja parannetaan automaattisia puheentunnistusjärjestelmiä, joita käytetään apuna myös esimerkiksi Spokenin tekstitys- ja litterointipalveluissa.

Puheentunnistusjärjestelmä on sitä tarkempi, mitä pienempi WER on. Siksi WER:n
pienentäminen on keskeinen tavoite monille yrityksille ja tutkijoille, jotka työskentelevät puheentunnistuksen parissa.

Whisper ja eri kielten WER-arvot

Me Spokenilla käytämme puheentunnistukseen OpenAI:n Whisper-puheentunnistusmallia, jonka osalta WER-arvot vaihtelevat kielestä riippuen. Englanninkielisessä puheentunnistuksessa WER on yleensä alhaisin ja siten parhaimmalla tasolla, johtuen suuresta määrästä saatavilla olevaa dataa ja siitä, että mallia on optimoitu englannin kielelle.

Englannin osalta WER voi olla niinkin alhainen kuin 5–6 %. Ruotsin-, norjan- ja tanskankielisessä puheentunnistuksessa WER-arvot ovat tätä hieman korkeammat, noin 8–10 %. Suomeksi WER voi olla vielä näitäkin hieman korkeampi, noin 10–12 % johtuen suomen kielen ainutlaatuisesta rakenteesta ja morfologiasta (sanarakenteet ja taivutukset), joka asettaa erityisiä haasteita puheentunnistusjärjestelmille.

Tämä vertailu osoittaa, että vaikka Whisper on erittäin tehokas useilla kielillä, kielen rakenteella ja datan saatavuudella on merkittävä vaikutus WER-arvoon.