Google Спортивно Протиставить Кращі AI Моделі У Живому Турнірі Шахів

Коротко

Google розпочинає Каггл Арена ігор, де провідні штучні інтелекти змагатимуться у шахи в прямій трансляції.
ChatGPT, Gemini, Claude та інші братимуть участь у змаганнях, що проводяться за системою турнірних матчів.
Турнір випробує здатності AI до міркування під тиском, відкриваючи логіку ходів та стратегії для громадськості.

У вівторок Google презентує шаховий турнір, в якому змагатимуться провідні моделі AI, перевіряючи їхні можливості до міркування.

Це трапляється після заяв Елона Маска, що його чат-бот, Grok, демонструє «відмінні здібності до міркування».

Захід проходитиме в рамках нової Каггл Арени ігор, платформи для тестування загальних AI-агентів в умовах живої конкуренції.

Перший турнір включатиме щоденні шахові матчі між шістьма основними мовними моделями: ChatGPT, Gemini, Claude, Grok, Deepseek та Kimi.

На відміну від стандартних тестів, формат публічно демонструє стратегії AI, оцінюючи, як моделі міркують, адаптуються та відновлюються під тиском, зазначив Google у своєму повідомленні.

Google сподівається, що змагання виявлять відмінності в здатностях до міркування, які не виявляють інші тестування. Турнір продовжує традицію ігрових benchmarks, що використовуються Google для перевірки міркування AI, включаючи ігри Atari, AlphaGo та AlphaStar.

«Рейтинги учасників формуються за допомогою байєсівської системи оцінювання, яка регулярно оновлюється, забезпечуючи строгий довгостроковий аналіз,» – зазначили у Google.

Байєсівська система використовує ймовірність для оновлення рейтингу гравця з часом на основі його виступів проти інших учасників.

Перші шахові матчі відбудуться між o4 mini від OpenAI та DeepSeek-R1, Gemini 2.5 Pro та Claude Opus 4, Kimi K2 Instruct від Moonshot AI та o3 від OpenAI, а також Grok 4 проти Gemini 2.5 Flash.

Шахи давно слугують майданчиком для випробування AI.

У історичному матчі 1997 року IBM Deep Blue переміг російського шахіста-гросмейстера та колишнього чемпіона світу Гарі Каспарова. Новий турнір Google продовжує цю традицію, але тепер з мовними моделями.

Матчі транслюватимуться в режимі реального часу на YouTube. Кожен раунд передбачає серію з чотирьох матчів, переможці яких проходять далі через систему одноелімінаційного турніру. Два кращі моделі змагатимуться у фінальному матчі за Золоту медаль.

«Ігри є відмінним засобом для оцінки AI, адже вони дозволяють зрозуміти, як моделі вирішують складні завдання,» – заявив Google. «Багато ігор слугують проксі для реальних навичок і можуть перевірити здатність моделі в таких областях, як стратегічне планування, адаптація та пам’ять.»

Глядачі зможуть спостерігати за розумінням кожної моделі щодо кожного ходу. За словами Google, ця прозорість є важливою для оцінки, чи справді моделі аналізують проблеми, чи просто повторюють дані з навчання.

Проте на форумі обговорення Каггл Арени ігор виникають питання про те, як поведітельні моделі LLM будуть реагувати під час матчів.

«Що буде, якщо модель продовжить пропонувати незаконні ходи після того, як закінчилися всі дозволені переосмислення?» – запитує один користувач. «Чи програє вона гру одразу, пропустить хід або якимось чином дискваліфікується?»

«Це справді змушує мене задуматися, чи бачимо ми справжнє міркування чи просто вгадування на основі шаблонів?» – запитує інший.

Google планує розширити Каггл Арену ігор за межі шахів у майбутніх заходах. Для початку цей турнір стане публічним стрес-тестом для перевірки здатностей сучасних найбільш розвинутих моделей до стратегічного прийняття рішень у режимі реального часу.

«Ігри завжди були корисним майданчиком для перевірки AI, в тому числі в нашій роботі над AlphaGo та AlphaZero,» – написав співзасновник і CEO Google DeepMind Деміс Хасабіс. «Ми з нетерпінням чекаємо, як цей бенчмарк стимулюватиме прогрес, коли ми додамо більше ігор та випробувань до Арени – очікуємо швидкого покращення!»

На запит про коментарі Google поки що не відповів.

Коротко

Бєляєва Христина

Related Posts