Google DeepMind Robotics вперше демонструє робота, який виконує інструкції, озвучені природною мовою
1 min read

Google DeepMind Robotics вперше демонструє робота, який виконує інструкції, озвучені природною мовою

Команда Google DeepMind Robotics цього тижня продемонструвала можливості робота RT-2, оснащеного нейромережею Google Gemini 1.5 Pro. Робот здатний виконувати команди, озвучені природною мовою, та орієнтуватися в офісному приміщенні.

DeepMind Robotics опублікувала статтю під назвою “Mobility VLA: мультимодальна навігація за інструкціями за допомогою VLM з довгим контекстом та топологічними графами”, в якій представлено серію відеороликів з роботами, що виконують різні завдання в офісному приміщенні площею 9000 квадратних футів (836 квадратних метрів).

В одному з відеороликів співробітник Google просить робота відвести його до місця, де можна помалювати. “Добре, дай мені хвилинку. Розмірковуємо разом із Gemini…” — відповідає робот, після чого підводить людину до лекційної дошки розміром зі стіну.

В іншому відео інший співробітник просить робота дотримуватися вказівок на дошці, де намальована проста карта з маршрутом до “Синьої зони”. Робот на мить замислюється, а потім вирушає вказаним маршрутом до майданчика для випробувань робототехніки. “Я успішно виконав вказівки на дошці”, — повідомляє робот.

Перед записом відеороликів роботів ознайомили із простором за допомогою рішення “Мультимодальна навігація за інструкціями з демонстраційними турами (MINT)”. Завдяки цьому робот може переміщатися офісом відповідно до вказаних мовою орієнтирів. DeepMind Robotics використала ієрархічну систему “Бачення-Мова-Дія” (VLA), яка поєднує розуміння довкілля та силу здорового глузду. Це дозволило роботам реагувати на написані та намальовані команди, а також на жести та орієнтуватися на місцевості.

За даними Google, приблизно у 90% із 50 взаємодій із співробітниками роботи успішно виконували дані їм інструкції.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *