Amazon uvolňuje databázi „MASSIVE“ pro rozšíření porozumění přirozenému jazyku

0
Amazon uvolňuje databázi „MASSIVE“ pro rozšíření porozumění přirozenému jazyku

Společnost Amazon.com Inc. dnes oznámila vydání nové masivní datové sady, příslušně nazvané „MASSIVE“, o níž říká, že ji lze použít k vytváření virtuálních asistentů, kteří podporují některé z nejobskurnějších světových jazyků.

Kromě databáze Amazon také vydal modelovací kód s otevřeným zdrojovým kódem, který vývojářům pomáhá vytvářet schopnější virtuální asistenty.

MASSIVE databáze je to, co je známé jako „paralelní datový soubor“, což znamená, že každý z výroků v ní je uveden ve všech 51 jazycích, které podporuje, včetně mnoha neznámých, kterým chybí označená data umožňující školení AI.

Myšlenka je taková, že vývojáři mohou použít MASSIVE databázi k trénování modelů umělé inteligence, aby porozuměli těm obskurnějším jazykům v podobné míře, jakou lze dosáhnout běžnějšími jazyky, jako je angličtina.

Tento přístup je známý jako masivně vícejazyčné porozumění přirozenému jazyku, což je paradigma, které umožňuje modelům umělé inteligence analyzovat a porozumět vstupům z mnoha typologicky odlišných jazyků. Učením sdílených reprezentací dat, které pokrývají více jazyků, mohou modely umělé inteligence přenášet znalosti z jazyků, kde je dostatek trénovacích dat, do jazyků, ve kterých je dat málo, vysvětlil Amazon.

Amazon uvedl, že databáze MASSIVE bude zvláště užitečná při prohlubování porozumění mluvenému jazyku, kde je zvuk převeden na text před provedením NLU. Virtuální asistenti, jako je Amazon Alexa, běžně používají SLU k pochopení příkazů uživatele, ale kvůli nedostatku školicích dat podporují jen malý zlomek z více než 7 000 světových jazyků.

Doufáme, že MASSIVE, což víceméně znamená Multilingual Amazon SLURP (SLU resource package) pro vyplňování slotů, klasifikaci záměrů a hodnocení virtuálního asistenta, dokáže překonat tento nedostatek dat. Databáze obsahuje 1 milion realistických, paralelních, označených textových projevů virtuálních asistentů, které pokrývají 51 jazyků, 18 domén, 60 záměrů a 55 slotů. Vytvořili jej profesionální překladatelé, kteří měli za úkol přeložit nebo lokalizovat datovou sadu v angličtině do 50 typologicky odlišných jazyků z 29 rodů, včetně mnoha jazyků s nízkými zdroji.

Amazon uvedl, že MASIVNÍ datová sada a nástroje pro její použití jsou počínaje dneškem dostupné z jeho úložiště GitHub. Kromě spuštění datasetu vytvořila také soutěž, která má vývojáře povzbudit k práci s ním. Soutěž Massively Multilingual NLU 2022 je hostována na eval.ai a skládá se ze dvou úkolů.

První úkol, MMNLU-22-Full, zve vývojáře, aby trénovali a testovali jeden model umělé inteligence ve všech 51 jazycích v MASSIVE datasetu. Poté se vývojáři mohou pokusit o druhý úkol, MMNLU-22-ZeroShot, který zahrnuje jemné doladění předem připraveného modelu pouze s daty označenými v angličtině a jeho následné testování ve všech 50 neanglických jazycích v MASSIVE.

„To hodnotí schopnost modelu zobecnit na nové jazyky, což je důležité hledisko vzhledem k počtu jazyků po celém světě, pro které existuje jen málo nebo žádná označená data,“ napsal tým Amazonu pro umělou inteligenci v blogovém příspěvku. “Zero-shot learning je klíčovou technologií pro škálování technologie NLU na mnoho dalších jazyků s nízkými zdroji po celém světě.”

Amazon spustil MASIVNÍ žebříček pro sledování účastníků soutěže, která potrvá do 8. srpna. Vítězové budou poté vyzváni, aby osobně nebo virtuálně prezentovali svou práci na konference EMNLP 2022 který se koná v prosinci v Abu Dhabi.

Obraz: Freepik

Ukažte svou podporu našemu poslání tím, že se připojíte k našemu klubu Cube Club a komunitě odborníků Cube Event Community. Připojte se ke komunitě, která zahrnuje Amazon Web Services a generálního ředitele Amazon.com Andyho Jassyho, zakladatele a generálního ředitele společnosti Dell Technologies Michaela Della, CEO společnosti Intel Pat Gelsingera a mnoho dalších osobností a odborníků.

podobné příspěvky

Leave a Reply