Google DeepMind Robotics вперше демонструє робота, який виконує інструкції, озвучені природною мовою
Команда Google DeepMind Robotics цього тижня продемонструвала можливості робота RT-2, оснащеного нейромережею Google Gemini 1.5 Pro. Робот здатний виконувати команди, озвучені природною мовою, та орієнтуватися в офісному приміщенні.
DeepMind Robotics опублікувала статтю під назвою “Mobility VLA: мультимодальна навігація за інструкціями за допомогою VLM з довгим контекстом та топологічними графами”, в якій представлено серію відеороликів з роботами, що виконують різні завдання в офісному приміщенні площею 9000 квадратних футів (836 квадратних метрів).
В одному з відеороликів співробітник Google просить робота відвести його до місця, де можна помалювати. “Добре, дай мені хвилинку. Розмірковуємо разом із Gemini…” — відповідає робот, після чого підводить людину до лекційної дошки розміром зі стіну.
В іншому відео інший співробітник просить робота дотримуватися вказівок на дошці, де намальована проста карта з маршрутом до “Синьої зони”. Робот на мить замислюється, а потім вирушає вказаним маршрутом до майданчика для випробувань робототехніки. “Я успішно виконав вказівки на дошці”, — повідомляє робот.
Перед записом відеороликів роботів ознайомили із простором за допомогою рішення “Мультимодальна навігація за інструкціями з демонстраційними турами (MINT)”. Завдяки цьому робот може переміщатися офісом відповідно до вказаних мовою орієнтирів. DeepMind Robotics використала ієрархічну систему “Бачення-Мова-Дія” (VLA), яка поєднує розуміння довкілля та силу здорового глузду. Це дозволило роботам реагувати на написані та намальовані команди, а також на жести та орієнтуватися на місцевості.
За даними Google, приблизно у 90% із 50 взаємодій із співробітниками роботи успішно виконували дані їм інструкції.