Mistral Повертається: Нове Покоління AI, Яке Кусає на П’яти DeepSeek
Французький стартап у сфері штучного інтелекту, Mistral, зробив вагомий крок уперед, представивши свою найамбітнішу продукцію. Тепер він намагається зайняти своє місце на ринку, який традиційно контролюється американськими та китайськими гігантами. Нова лінійка моделей, що включає у себе чотири варіанти, варіюється від компактних асистентів до потужної системи з 675 мільярдами параметрів, усі вони доступні під відкритою ліцензією Apache 2.0. Кожен охочий може завантажити моделі та запустити їх на власному обладнанні, вносячи зміни або налаштовуючи під свої потреби.
Головна модель, Mistral Large 3, використовує спеціальну архітектуру Mixture-of-Experts, яка активує лише 41 мільярд параметрів на токен з загальної кількості. Це рішення дозволяє моделі демонструвати вражаючу продуктивність, працюючи з профілем, близьким до 40 мільярдів параметрів. Професійне навчання Mistral Large 3 проходило на 3000 графічних процесорів NVIDIA H200, і модель вже зайняла друге місце на престижному рейтингу LMArena серед відкритих моделей без логічного мислення.
Змагання з моделлю DeepSeek відображає складну картину. За даними Mistral, їхня найкраща модель перевищує DeepSeek V3.1 за кількома показниками, але поступається новішій V3.2 на декілька балів. У завданнях загальних знань та експертного мислення сімейство моделей Mistral показує хороші результати, у той час як DeepSeek має переваги в швидкості кодування та математичній логіці.
Моделі “Ministral” викликають особливий інтерес серед розробників. Вони представлені у трьох варіантах: 3B, 8B і 14B параметрів, причому кожен варіант має базову та інструкторську версії. Всі підтримують візуальний вхід, і модель 3B привернула увагу завдяки можливості роботи безпосередньо в браузері. Це знижує витрати та дає змогу використовувати технології у дронах, роботах, ноутбуках, що працюють офлайн, та вбудованих системах.
Перші випробування виявили певну “подвійну особистість” у модельному ряді. Віпробуване Mistral Large 3 виявилося пунктуальним у розмовній fluency, іноді навіть схожим на стиль GPT-5, але з більш природним ритмом. Однак, моделі виявилися менш строгими в питаннях цензури, що робить їх привабливими для ігор у ролі.
Серед поширених скарг користувачів на коробкове повторення та стереотипні фрази, що наслідують навчальні дані, в цілому їх можливості створення контенту залишаються помітними, особливо для їхніх розмірів. Найменші моделі 3B проте досить гнучкі, що дозволяє їм працювати на недорогому обладнанні, наприклад, на смартфонах.
Світ великих підприємств вже звернув увагу на нову пропозицію. Наприклад, банк HSBC уклав багаторічне партнерство з Mistral для інтеграції генеративного штучного інтелекту у своїх операціях. Партнерство забезпечить поєднання технічної експертизи банку та знань Mistral у сфері AI.
Mistral співпрацює з NVIDIA для створення стиснутого контрольного пункту NVFP4, що дозволяє моделі Large 3 працювати на одному вузлі з восьмома графічними картами. В результаті, Ministral 3B демонструє значну швидкість обробки. Нарешті, незабаром з’явиться версія Large 3, оптимізована для логічного мислення, однак наразі на ринку залишаються альтернативи для завдань, які потребують специфічного міркування. Однак для підприємств, які потребують сучасних рішень, відкритих ваг та швидкості, нові можливості обіцяють суттєве розширення.