Speechmatics přidává formátování entit, aby zlepšil svůj software pro rozpoznávání řeči

0
Speechmatics přidává formátování entit, aby zlepšil svůj software pro rozpoznávání řeči

Startup sídlící ve Velké Británii Speechmatika dnes uvedla, že učinila velký krok v pokroku v rozpoznávání řeči přidáním „formátování entit“. Autonomní rozpoznávání řeči software.

Startup s oficiálním názvem Cantab Research Ltd. říká, že řeší jednu z hlavních výzev dnešního strojového učení, která zahrnuje interpretaci mluvených čísel, měn, procent, adres, dat a času a jejich správný přepis do psané podoby.

Speechmatics prodává přepisovací software založený na umělé inteligenci, který funguje tak, že rozumí mluvenému slovu a přepisuje je jako text. Uvedl, že získání vhodného formátování čísel v textu bylo pro přepisovací software vždy velkým problémem, protože způsob, jakým se tyto entity mluví v konverzaci, se liší, a to i mezi zeměmi, které mluví stejným jazykem.

Například někteří anglicky mluvící mohou při vyslovení telefonního čísla použít slovo „oh“ místo „nula“. Mohou také používat dvojité nebo trojité číslice, například „trojité tři“.

Speechmatics uvedla, že zlepšila přesnost svého přepisovacího softwaru pomocí technologie zvané Inverse Text Normalization, aby lépe rozpoznávala mluvené formáty a čísla a správně je interpretovala. Díky správnému formátování entity jsou její přepisy čitelnější, což snižuje potřebu jejich následného zpracování kvůli přesnosti.

Výkonná ředitelka Speechmatics Katy Wigdahl uvedla, že vytváření profesionálnějších, správně formátovaných přepisů urychlí pracovní postupy zákazníků tím, že sníží potřebu lidských úprav ve všech podporovaných jazycích.

„Kontext je také kritický – existuje tolik nuancí a nejednoznačností, které je třeba zohlednit v jazyce, jako například, zda je „libra“ odkazem na váhu nebo měnu, a zda se „venti“ používá jako italské slovo pro 20. nebo větry,“ řekla.

Speechmatics uvedl, že formátování entit bude mít velký dopad v „numericky náročných odvětvích“, která potřebují přesně přepsat spoustu mluveného obsahu.

„Formátování entit bylo vždy notoricky náročným úkolem pro rozpoznávání řeči, ale s touto nejnovější aktualizací poskytujeme nejlepší funkce na trhu a přinášíme významnou hodnotu našim zákazníkům působícím v odvětvích, kde je správné získání čísel pro převod řeči na text velmi důležité. kritické,“ dodal Wigdahl.

Speechmatics tvrdí, že již dříve pokročila v rozpoznávání řeči. Říká se, že její platforma Autonomous Speech Recognition je jednou z prvních, která byla školena na obrovském množství neoznačených dat bez jakéhokoli lidského zásahu. Společnost uvedla, že tato metoda umožňuje komplexněji porozumět řadě různých hlasů a akcentů, čímž se snižuje zkreslení AI a chyby v rozpoznávání řeči.

Obrázek: Speechmatika

Ukažte svou podporu našemu poslání tím, že se připojíte k našemu klubu Cube Club a komunitě odborníků Cube Event Community. Připojte se ke komunitě, která zahrnuje Amazon Web Services a generálního ředitele Amazon.com Andyho Jassyho, zakladatele a generálního ředitele společnosti Dell Technologies Michaela Della, CEO společnosti Intel Pat Gelsingera a mnoho dalších osobností a odborníků.

podobné příspěvky

Leave a Reply