Microsoft Kosmos-1 paver ceļu uz cilvēka līmeņa AI

Šīs nedēļas sākumā pētnieki no Microsoft prezentēja Kosmos-1, multimodālu mākslīgā intelekta modeli, kas var analizēt attēlus satura iegūšanai, atrisināt vizuālas mīklas, veikt vizuālu teksta atpazīšanu, veikt vizuālos IQ testus un saprast dabiskās valodas norādījumus. Pēc pētnieku domām, šādi AI modeļi ir pirmais solis ceļā uz mākslīgā vispārējā intelekta (AI) izveidi, kas spēj veikt kopīgus cilvēka līmeņa uzdevumus. Tas ir, šī tehnoloģija spēs aizstāt cilvēku jebkurā intelektuālā uzdevumā. Un tas ir OpenAI, galvenā biznesa partnera, noteiktais mērķis Microsoft mākslīgā intelekta jomā.

Šajā gadījumā Kosmos-1 ir tīri personīga uzņēmuma attīstība Microsoft. Pētnieki to izveidi sauc par "multimodālu plašās valodas modeli" (MLLM), jo tā saknes meklējamas tikai teksta dabiskās valodas apstrādē, piemēram, LLM, piemēram, ChatGPT. Lai modelis varētu pieņemt ievades attēlus, pētniekiem vispirms ir jāpārvērš attēli īpašās marķieru sērijās (galvenokārt tekstā), ko LLM var saprast.

Kosmos-1 tika apmācīts par datubāzi no interneta, tostarp izvilkumiem no The Pile (800 GB angļu teksta resurss) un Common Crawl. Pēc tam modelis tika pārbaudīts ar vairākiem testiem runas izpratnei, runas ģenerēšanai, teksta klasifikācijai bez optiskās rakstzīmju atpazīšanas, attēlu parakstiem, vizuālās atbildes uz jautājumiem, atbildēm uz tīmekļa lapas jautājumiem un attēlu klasifikācijai ar lokalizāciju. Saskaņā ar Microsoft, Kosmos-1 daudzos no šiem testiem pārspēja pašreizējos modeļus.

Īpaši interesants bija Raven's Progressive Reasoning tests, kas mēra vizuālo IQ, uzrādot formu secību un lūdzot subjektam pabeigt secību. Kosmos-1 spēja sniegt pareizo atbildi 22% gadījumu.

Šie agrīnie soļi, kas ar turpmāko optimizāciju varētu dot vēl nozīmīgākus rezultātus, ļaujot AI modeļiem uztvert un ietekmēt jebkāda veida medijus, ievērojami paplašinot mākslīgo palīgu iespējas.

Lasi arī:

Jereloarttechnica

Pierakstīties

0 komentāri

Iegultās atsauksmes

Skatīt visus komentārus

Citi raksti

Microsoft iepazīstināja ar multimodālu pieeju, paverot ceļu uz cilvēka līmeņa AI

Jaunākie komentāri