Google DeepMind Robotics вперше демонструє робота- Techinfo.com.ua

Команда Google DeepMind Robotics цього тижня продемонструвала можливості робота RT-2, оснащеного нейромережею Google Gemini 1.5 Pro. Робот здатний виконувати команди, озвучені природною мовою, та орієнтуватися в офісному приміщенні.

DeepMind Robotics опублікувала статтю під назвою "Mobility VLA: мультимодальна навігація за інструкціями за допомогою VLM з довгим контекстом та топологічними графами", в якій представлено серію відеороликів з роботами, що виконують різні завдання в офісному приміщенні площею 9000 квадратних футів (836 квадратних метрів).

В одному з відеороликів співробітник Google просить робота відвести його до місця, де можна помалювати. "Добре, дай мені хвилинку. Розмірковуємо разом із Gemini…" – відповідає робот, після чого підводить людину до лекційної дошки розміром зі стіну.

В іншому відео інший співробітник просить робота дотримуватися вказівок на дошці, де намальована проста карта з маршрутом до «Синьої зони». Робот на мить замислюється, а потім вирушає вказаним маршрутом до майданчика для випробувань робототехніки. «Я успішно виконав вказівки на дошці», – повідомляє робот.

Перед записом відеороликів роботів ознайомили із простором за допомогою рішення «Мультимодальна навігація за інструкціями з демонстраційними турами (MINT)». Завдяки цьому робот може переміщатися офісом відповідно до вказаних мовою орієнтирів. DeepMind Robotics використала ієрархічну систему «Бачення-Мова-Дія» (VLA), яка поєднує розуміння довкілля та силу здорового глузду. Це дозволило роботам реагувати на написані та намальовані команди, а також на жести та орієнтуватися на місцевості.

За даними Google, приблизно у 90% із 50 взаємодій із співробітниками роботи успішно виконували дані їм інструкції.

Google DeepMind Robotics вперше демонструє робота, який виконує інструкції, озвучені природною мовою

Залишити відповідь Скасувати коментар

Грицай Микита

Залишити відповідь Скасувати коментар

Грицай Микита

Related Posts