
Навчання Моделей ШІ та Інференція: Компанії Зіштовхуються з Неочікуваними Витратами на Використання ШІ
Коли компанії говорять про впровадження штучного інтелекту (ШІ), більшість уваги зосереджено на великих мовних моделях, таких як GPT-5 від OpenAI або Gemini 2.5 від Google.
Однак для підприємств щоденна важливість полягає не лише в самій моделі, а у процесі інференції. Це етап, на якому модель використовується для генерування прогнозів, відповідей чи аналітики.
Попереднє навчання новітньої моделі ШІ, що закладає загальну базу для інших моделей, є одноразовою та зазвичай дорогою процедурою. Це можна порівняти з коледжем, де студент проходить загальноосвітні курси. Чим кращим було навчання, тим більше підготовленим буде випускник або модель ШІ.
Інференція — це як застосування знань цього випускника на практиці. Компанії часто додають додаткове навчання — наприклад, навчають виконувати HR-функції, що схоже на налаштування моделей ШІ для специфічних цілей. Але в цьому випадку випускник не отримує фіксовану зарплату, а оплачується за виконане завдання або за годину. Це постійні витрати.
Для компаній інференція відбувається щоразу, коли працівник запитує чат-бота про щось, система виявлення шахрайства перевіряє транзакцію, або лікар використовує ШІ для інтерпретації медичних зображень. Ці витрати є регулярними і можуть швидко накопичуватися.
«Попереднє навчання моделі — це процес обробки даних, їх розбивка на токени та пошук шаблонів, і це, по суті, одноразова витрата,» — йдеться в блозі Nvidia. «Але в інференції кожен запит до моделі генерує токени, за які потрібно платити.»
Це пов’язано з тим, що кожен запит до моделі ШІ ініціює нові обчислення з нуля. Це спричиняє обробку з використанням графічних процесорів (GPU), що призводить до витрат електрики та охолодження, оскільки обчислення створюють тепло.
Також слід врахувати витрати на покупку чіпів для ШІ, будівництво та обслуговування дата-центрів, а також найм персоналу. Коли моделі використовуються через API в хмарі, гіганти хостингу об’єднують усі ці витрати у тарифи на інференцію, які платять підприємства.
Для підсумку розглянемо різницю:
- Навчання моделі ШІ: Це процес створення моделі, який передбачає введення великих обсягів даних у алгоритми машинного навчання, поки система не навчиться виявляти шаблони. Це потребує значних обчислювальних потужностей, часто з використанням спеціалізованих чіпів, таких як GPU. Зазвичай це здійснюють раз компанії-постачальники ШІ, такі як OpenAI, Anthropic або Google.
- Інференція (використання): Це застосування попередньо навчених моделей до нових даних. Коли клієнт банку запитує у віртуального помічника про процентні ставки за іпотекою, асистент не проходить повторного навчання; він виконує інференцію, відповідаючи на запит, спираючись на своє навчання та інші інструменти. Кожного разу, коли хтось використовує ШІ, це пов’язано з витратами.
Для підприємств процес навчання зазвичай є проблемою для когось іншого. Лише деякі компанії, за винятком технологічних гігантів або спеціалізованих дослідницьких лабораторій, створюють і навчають великі моделі з нуля. Зазвичай вони ліцензують або отримують доступ до моделей через API або платформи, такі як AWS, Azure або Google Cloud.
Однак інференція є неминучою. Кожен робочий процес, що використовує ШІ, передбачає інференцію, і чим більше запитів або прогнозів роблять системи ШІ в компанії, тим більші витрати.
Наприклад, одна будівельна компанія створила інструмент для прогнозної аналітики на базі ШІ в хмарі, і витрати становили менше 200 доларів на місяць, як повідомив Павло Бантсевич, менеджер продукту Pynest. Але після початку використання витрати зросли до 10 000 доларів на місяць. Коли компанія перейшла на самостійне хостингування замість хмари, витрати знизилися і стабілізувалися, але все ще залишалися на рівні 7 000 доларів на місяць.
Кількість компаній, що використовують системи ШІ, продовжує зростати. Наприклад, дані PYMNTS Intelligence показують, що майже 40% технологічних компаній протягом 12 місяців до березня 2024 року повідомили про «досить позитивну» рентабельність інвестицій. Через чотирнадцять місяців це число виросло до 50%.
Ще один приклад — чат-боти для обслуговування клієнтів. Компанія може обробляти тисячі запитів на годину. Кожен з них викликає інференцію, і витрати базуються на кількості «токенів» або частин тексту, що обробляються. Ці витрати можуть швидко накопичуватися — і залишатимуться такими постійно.
Дехто може запитати, чому багато чат-ботів ШІ пропонують безкоштовні або дешеві варіанти приблизно за 20 доларів на місяць, такі як ChatGPT, Claude та Perplexity AI (який дозволяє користувачам взаємодіяти з різними моделями ШІ). Вони використовуються як стратегія залучення, щоб зацікавити людей у ШІ — і це спрацювало. ChatGPT тепер має 700 мільйонів користувачів на тиждень.
Хороша новина для бізнесу полягає в тому, що витрати на інференцію знижуються. Згідно з доповіддю Stanford AI Index на 2025 рік, витрати на інференцію для системи, що працює на рівні GPT-3.5, впали більше ніж у 280 разів з листопада 2022 року до жовтня 2024 року. Очікуються подальші зниження.
Для бізнес-лідерів висновок простий: не зосереджуйтесь лише на заголовках про розміри моделей або прориви у навчанні. Істотний вплив на фінансові результати має управління інференцією.
З прочитаним далі:
Чек-лист ШІ: Витрати на навчання великих мовних моделей
Підприємства стикаються з реальними витратами впровадження ШІ
Z.ai заявляє, що нова модель ШІ коштує менше для використання, ніж DeepSeek