NLP inovuje rychleji než jiné domény AI

Společnost Meta nedávno představila model Open Pretrained Transformer (OPT) se 175 miliardami parametrů. Meta tvrdí, že tento masivní model, který je trénován na veřejně dostupných souborech dat, je prvním jazykovým technologickým systémem této velikosti, který byl vydán se svými předtrénovanými modely a tréninkovým kódem. V tom, co lze považovat za vzácný jev, vytvořila Meta tento model jako open-source.

Model OPT se připojuje k řadě dalších pokročilých jazykových modelů, které byly vyvinuty a představeny nedávno. Oblast NLP AI zaznamenala v posledních několika letech masivní inovace, na kterých se podílely přední technologické společnosti světa. Proč je v této oblasti tak silná konkurence, nebo jinými slovy, zaostávají za NLP z hlediska inovací jiné domény umělé inteligence?

THE BELAMY

Přihlaste se k odběru týdenní dávky toho, co je v nových technologiích.

E-mail

Pokrok v NLP

Oblast umělé inteligence je široce roztříštěna do domén, které se zaměřují na různé druhy problémů. Některé systémy se používají k řešení problémů, které zahrnují navigaci a pohyb ve fyzických prostorech, jako jsou autonomní vozidla a robotika; další se zabývají aplikacemi souvisejícími s počítačovým viděním – rozlišováním a kategorizací obrazů a vzorů; zdravý rozum AI. Jiné formy umělé inteligence řeší kritické a specifické problémy. Stejně jako AlphaFold od DeepMind vyřešil 50 let starou výzvu. Tato inovace mnohonásobně urychlila proces objevování léků.

NLP inovuje rychleji než jiné domény AI

Zpracování přirozeného jazyka je pravděpodobně nejžhavější oblastí AI. Dokonce i u lidí bylo mnohojazyčnost a znalost jazyka považovány za hlavní ukazatele inteligence. Obecně se považuje za naznačující schopnost analyzovat složité zprávy a dešifrovat variace kódování napříč kontextem, slangem a dialekty. Není divu, že výzkumníci umělé inteligence považují výuku strojů schopnost rozumět přirozenému jazyku a reagovat na něj za skvělý výkon a dokonce za krok k dosažení obecné inteligence.

Když už mluvíme o inovaci v této oblasti, široce zvažovaném průlomu, 175 miliard parametr GPT-3 byl vydán OpenAI v roce 2020. Komplexní neuronová síť GPT-3 byla trénována na 700 gigabajtech dat seškrábaných z celého webu. , včetně Wikipedie a digitalizovaných knih. GPT-3 vytvořil precedens pro ještě větší, pokročilé a v některých případech výpočetně levné modely.

Inovace podporující NLP

Vývoj oblasti zpracování přirozeného jazyka prošel několika fázemi. Začalo to v 80. letech expertním systémem, přesouvalo se ke statistické revoluci a nakonec k neurální revoluci. Když už mluvíme o neuronové revoluci, umožnila ji kombinace hlubokých neuronových architektur, specializovaného hardwaru a velkého množství dat. To znamená, že revoluce v doméně NLP byla mnohem pomalejší než v jiných oblastech, jako je počítačové vidění, které velmi těžilo ze vzniku předtrénovaných modelů ve velkém měřítku, které zase umožnily velké datové sady, jako je ImageNet. Předtrénované modely ImageNet pomohly dosáhnout nejmodernějších výsledků v úkolech, jako je detekce objektů, odhad lidské pozice, sémantická segmentace a rozpoznávání videa. Umožnily aplikaci počítačového vidění v oblastech, kde je počet školicích příkladů malý a anotace drahé.

Jedním z nejvýraznějších vynálezů poslední doby byli Transformers. Transformers, vyvinutý v Google Brains v roce 2017, je nová architektura neuronové sítě a je založena na konceptu mechanismu sebepozorování. Model předčil rekurentní i konvoluční modely. Bylo také pozorováno, že Transformer vyžaduje menší výpočetní výkon k trénování a je vhodnější pro moderní hardware strojového učení, který řádově urychluje trénink. Stala se architekturou volby pro problémy NLP a nahradila dřívější modely jako LSTM. Dodatečná paralelizace školení umožnila školení na mnohem větší datové sadě, než bylo dříve možné.

Díky Transformers a následnému vynálezu BERT dosáhlo NLP svého ‚ImageNet momentu‘. BERT způsobil revoluci v NLP a od té doby byla navržena široká škála variant těchto modelů, jako jsou RoBERTa, ALBERT a XLNet. Kromě Transformers se několik reprezentačních technik, jako je ELMo a ULMFiT, dostalo do titulků tím, že prokázalo, že předem připravené jazykové modely mohou dosáhnout nejmodernějších výsledků v řadě úloh NLP.

„Architektura transformátoru způsobila revoluci v NLP tím, že umožnila generování a dolaďování jazyků v měřítku, které v NLP dosud nebylo vidět. Navíc tyto modely fungují lépe, když jsou trénovány na velkém množství dat; organizace se proto zaměřují na školení větších a větších jazykových modelů s malými změnami v architektuře modelu. Velké firmy jako Google a Meta, které si mohou dovolit tento typ školení, vyvíjejí nové jazykové modely a já očekávám více toho samého od dalších velkých korporací,“ řekl Shameed Sait, šéf umělé inteligence v tmrw.

Anoop Kunchukuttan, výzkumník Microsoftu a spoluzakladatel AI4Bharat, ve stejném duchu řekl: „Je zajímavé, že přínosy hlubokého učení byly zpočátku vidět převážně v oblasti počítačového vidění a řeči. Stalo se, že NLP získalo určitý náskok, pokud jde o druhy modelů, které byly představeny následně. Mechanismus založený na pozornosti například vedl k velkému pokroku v NLP. Také zavedení samokontrolovaného učení ovlivnilo pokrok v oblasti NLP.“

Přístup k masivním datům

Jednou z hlavních výhod NLP je dostupnost obrovského množství datových sad pro trénování pokročilých modelů. Hugging Face, startup, který buduje „GitHub pro strojové učení“, pracuje na demokratizaci AI se zvláštním zaměřením na NLP. V loňském roce Hugging Face vydala Datasets, komunitní knihovnu pro NLP, která byla vyvíjena více než rok. Tato knihovna, kterou vyvinulo více než 250 vývojářů, obsahuje 650 unikátních datových sad zaměřených na standardizaci rozhraní pro koncové uživatele, správu verzí, dokumentaci a nabízí odlehčený frontend pro korpusy v měřítku internetu.

Podobně Facebook AI open-source databáze FLORES-101 ke zlepšení vícejazyčných modelů překladu. Jedná se o mnohonásobný hodnotící datový soubor pokrývající 101 různých jazyků. Zveřejněním těchto informací chce Facebook urychlit pokrok v NLP tím, že umožní vývojářům vytvářet rozmanitější a lokálně relevantní nástroje.

Největší výhodou jazykového modelování je, že trénovací data jsou zdarma s jakýmkoli textovým korpusem. Dostupnost potenciálně neomezeného množství tréninkových dat je zvláště důležitá, protože NLP se nezabývá pouze anglickým jazykem.

Směrem k AGI? Ještě tam není

Když byl vydán model GPT-3, mnoho přehnaně nadšených publikací jej označilo za první krok k AGI. Zatímco model této velikosti a výpočetního výkonu není ničím menším než technologickým zázrakem, uvažovat o tom, že je posun směrem k AGI, je trochu oříšek.

Emeritní profesor z New York University Gary Marcus, autor nedávné knihy „Rebooting AI“, řekl v dřívějším rozhovoru pro časopis Analytics India Magazine: „Konkrétní cestou, na které jsme, jsou velké jazykové modely, rozšíření velká data. Můj pohled na ně není optimistický. Jsou méně ohromující svou schopností nebýt toxický, říkat pravdu nebo být spolehlivý. Nemyslím si, že chceme budovat obecnou inteligenci, která je nespolehlivá, dezinformuje lidi a je potenciálně nebezpečná. Například máte GPT-3 doporučující lidem spáchat sebevraždu.

Ve strojovém překladu došlo k obrovskému pokroku, ale ne ve strojovém porozumění. Morální uvažování není nikde a nemyslím si, že umělá inteligence je právě teď zdravý obor.“

Ve vzácných případech se zdá, že Marcusův rival Yann LecCun s ním souhlasí. Na samostatné konferenci označil Lecun jazyk za epifenomén lidské inteligence. Dodal, že ve zpravodajství je toho hodně, co nemá nic společného s jazykem. „Tady bychom měli na věci zaútočit jako první. … [Jazyk] je číslo 300 v seznamu 500 problémů, kterým musíme čelit,“ řekl Yann LeCun.

I když jazykové modely a doména NLP mohou být jistě důležité pro dosažení AGI, nestačí to. V současné době, s blížícím se oznámením GPT-4 a dalšími jazykovými modely, které čekají na zavedení, lze v této oblasti ještě dlouho zaznamenat zrychlený pokrok.