Google podrobně popisuje novou špičkovou AI generace obrázků

0
Google podrobně popisuje novou špičkovou AI generace obrázků

Google LLC dnes detailní Imagen, systém umělé inteligence, který dokáže automaticky generovat obrázky na základě textových výzev poskytnutých uživatelem.

Během několika posledních let výzkumníci vyvinuli několik neuronových sítí schopných automaticky generovat obrázky. Jednou z nejpropracovanějších položek v této kategorii je systém umělé inteligence tzv DALL-E 2 který byl podrobně popsán společností OpenAI LLC na začátku tohoto roku. Podle Googlu může jeho nově oznámený systém Imagen překonat DALL-E 2 stejně jako ostatní modely AI v této kategorii.

Imagen obsahuje dvě samostatné neuronové sítě. První bere jako vstup kus textu, který popisuje, jaký obrázek má být nakreslen. Neuronová síť převádí tento popis do podoby, kterou může pochopit druhá neuronová síť Imagen, která je zodpovědná za kreslení obrázku.

Při sestavení Imagen využil Google řadu klíčových pokroků ve výzkumu AI, které byly uskutečněny za poslední desetiletí.

První neuronová síť v Imagenu, která je zodpovědná za převod textového popisu do podoby, které systém rozumí, je tzv. Model transformátoru. Transformátorové modely jsou typem algoritmu pro zpracování přirozeného jazyka, který vynalezl Google v roce 2017. Dokážou porozumět významu textu přesněji než dřívější algoritmy.

Model Transformer spoléhá na kontext, aby pochopil význam slov ve větě. Analyzuje text, který slovo obklopuje, určuje, které konkrétní části textu nejvíce ovlivňují význam slova a využívá je k rozhodování. Nový systém Imagen společnosti Google využívá model Transformer k přeměně popisu obrázku poskytnutého uživatelem na vložení, matematickou reprezentaci dat, které jsou neuronové sítě schopny porozumět.

Poté, co se popis obrázku změní na vložení, druhá AI integrovaná do Imagen jej použije k nakreslení odpovídajícího obrázku. Tato druhá AI je tzv difuzní modeltyp neuronové sítě, který byl poprvé vyvinut v roce 2015.

Takové neuronové sítě se liší od jiných algoritmů pro generování obrazu ve způsobu, jakým jsou trénovány. K trénování difúzního modelu mu inženýři nejprve dodají obrázky, které obsahují typ chyby známý jako Gaussův hluk. Poté je difúznímu modelu zadán úkol najít způsob, jak odstranit Gaussův šum.

Výzkumníci umělé inteligence běžně používají soubor dat nazvaný COCO k porovnání účinnosti algoritmů generování obrázků. Google říká, že Imagen výrazně překonal konkurenční systémy AI, včetně špičkového systému DALL-E 2 od OpenAI, v interním testu, který používal COCO. Imagen také dokázal překonat konkurenci v samostatném testu založeném na DrawBench, novém benchmarku vyvinutém společností Google.

Oznámení společnosti Google o Imagen přichází několik týdnů po vyhledávacím gigantu debutoval PaLM, další špičková AI vyvinutá jeho výzkumníky. Je navržen pro úlohy zpracování přirozeného jazyka a obsahuje 540 miliard parametrů, což jsou konfigurační nastavení, která pomáhají určovat, jak se neuronová síť rozhoduje. Podle Google může PaLM při provádění určitých úkolů překonat sofistikovanou neuronovou síť GPT-3 OpenAI.

Obrázek: Google

Ukažte svou podporu našemu poslání tím, že se připojíte k našemu klubu Cube Club a komunitě odborníků Cube Event Community. Připojte se ke komunitě, která zahrnuje Amazon Web Services a generálního ředitele Amazon.com Andyho Jassyho, zakladatele a generálního ředitele společnosti Dell Technologies Michaela Della, CEO společnosti Intel Pat Gelsingera a mnoho dalších osobností a odborníků.

podobné příspěvky

Leave a Reply