Komanda Tokijas Universitātē ir atklājusi Alter3, humanoīdu robotu, kas var veikt kustības, izmantojot GPT-4 Large Language Model (LLM). Alter3 izmanto jaunāko rīku Atveriet AI dinamiski uzņemt dažādas pozas, sākot no pašbildes pozas līdz spoku attēlošanai, bez nepieciešamības iepriekš ieprogrammēt datubāzes ierakstus.

"Alter3 reakcija uz sarunu saturu, izmantojot sejas izteiksmes un žestus, ir būtisks progress humanoīdu robotikā, kas ir viegli pielāgojams citiem androīdiem ar minimālām izmaiņām," sacīja pētnieki.

LLM integrācijas ar robotiem jomā galvenā uzmanība tiek pievērsta pamata komunikācijas uzlabošanai un reālistisku reakciju modelēšanai. Pētnieki arī iedziļinās LLM iespējās, lai roboti varētu saprast un izpildīt sarežģītas instrukcijas, tādējādi palielinot to funkcionalitāti.

Tradicionāli zema līmeņa vadība darbojas ir saistīts ar aparatūru un atrodas ārpus LLM korporāciju kompetences. Tas rada grūtības tiešai LLM balstītu darbu pārvaldībai. Atrisinot šo problēmu, japāņu komanda ir izstrādājusi metodi, kā cilvēka kustību izteiksmes pārvērst Android saprotamā kodā. Tas nozīmē, ka robots laika gaitā var patstāvīgi ģenerēt darbību secības, izstrādātājiem nav nepieciešams individuāli ieprogrammēt katru ķermeņa daļu.

Mijiedarbības laikā persona var dot Alter3 komandas, piemēram, “Uzņemiet pašbildi ar savu iPhone”. Pēc tam robots sāk virkni pieprasījumu GPT-4, lai iegūtu norādījumus par nepieciešamajām darbībām. GPT-4 pārtulkos to Python kodā, kas ļauj darbam "saprast" un veikt nepieciešamās kustības. Šis jauninājums ļauj Alter3 kustināt ķermeņa augšdaļu, kamēr ķermeņa apakšdaļa paliek nekustīga, piestiprināta pie statīva.

Alter3 ir trešā iterācija Alter humanoīdu robotu sērijā kopš 2016. gada, un tajā ir 43 izpildmehānismi, kas atbild par sejas izteiksmēm un ekstremitāšu kustībām, ko darbina saspiests gaiss. Šī konfigurācija nodrošina plašu izteiksmīgu žestu klāstu. Robots nevar staigāt, bet var atdarināt tipiskas staigāšanas un skriešanas kustības.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 arī demonstrēja spēju kopēt cilvēka pozas, izmantojot kameru un OpenPose sistēmu. Robots pielāgo savas locītavas novērotajām pozām un saglabā veiksmīgas imitācijas vēlākai lietošanai. Mijiedarbība ar cilvēku radīja daudzveidīgākas pozas, atbalstot domu, ka dažādas kustības rodas, atdarinot cilvēku, līdzīgi kā jaundzimušie mācās ar atdarināšanu.

Pirms LLM pētniekiem bija rūpīgi jākontrolē visi 43 izpildmehānismi, lai atjaunotu cilvēka pozu vai simulētu uzvedību, piemēram, tējas pasniegšanu vai šaha spēlēšanu. Tas prasīja daudzus manuālus pielāgojumus, taču AI palīdzēja atbrīvot komandu no šīs rutīnas. "Mēs sagaidām, ka Alter3 efektīvi iesaistīsies dialogā, parādot kontekstam atbilstošas sejas izteiksmes un žestus. Tas demonstrēja spēju atspoguļot emocijas, piemēram, reaģējot uz skumjām vai laimi, tādējādi daloties emocijās ar mums," saka pētnieki.

Lasi arī:

Jerelointeresanta inženierija

Pierakstīties

0 komentāri

Iegultās atsauksmes

Skatīt visus komentārus

Citi raksti

Tokijā tika parādīti Alter3 humanoīda robota panākumi, pamatojoties uz GPT-4

Jaunākie komentāri