Розвиток штучного інтелекту виходить за межі великих даних і обчислювальних потужностей
1 min read

Розвиток штучного інтелекту виходить за межі великих даних і обчислювальних потужностей

Ефективність моделей штучного інтелекту (ШІ) є надзвичайно важливою для компаній, які інвестують у цю технологію та впроваджують її. Однак виникає дискусія щодо того, чи уповільнилися досягнення в розвитку великих мовних моделей.

Ця дискусія зосереджена навколо законів масштабування ШІ.

Концепція законів масштабування, популяризована OpenAI, звучить так: великі моделі, які тренуються на потужнішому обладнанні, демонструють кращі результати. Папер, опублікований OpenAI у 2020 році, під назвою «Закони масштабування нейронних мовних моделей» став першим впливовим документом, що продемонстрував ці закони.

У 2022 році Google DeepMind опублікувала статтю «Тренування великих мовних моделей з оптимальним використанням обчислювальних ресурсів», яка внесла важливий аспект: вона продемонструвала, що дані, а не розмір моделі, і обчислення є ключовими факторами, що впливають на продуктивність моделі. Модель Chinchilla виявилася меншою за GPT-3 більше ніж у два рази, але з чотири рази більшою кількістю даних перевершила його за ефективністю.

«За останні кілька років дослідницькі лабораторії ШІ прийшли до того, що виглядає як виграшна тактика: збільшення кількості параметрів, даних та обчислювальної потужності», — зазначив Гері Тан, президент стартап-інкубатора Y Combinator, в програмі YC Decoded. «Продовжуйте масштабувати свої моделі, і вони постійно покращуватимуться».

Проте є ознаки того, що перші стрибки у продуктивності починають сповільнюватися.

Основні ресурси для масштабування — дані та обчислення — стають все більш дефіцитними та дорогими, пише Аднан Масуд, головний архітектор ШІ та машинного навчання в UST, у блозі. «Ці тенденції вказують на припинення зростання у поточній траєкторії великих мовних моделей».

Наприклад, у тестах на знання, математичних задачах і тестах з програмування, покращення починають «припинятися», зазначив Масуд. Він зауважив, що в тесті на знання MMLU GPT-3 показав 43,9%, а GPT-4 у 2023 році збільшив цей результат до 86,4%, але згодом зупинився на 90% у 2024-му.

«Якщо старі закони масштабування починають втрачати свою силу, що буде далі?» — запитав Тан.

Відповідь від Тана та Масуда полягає в тому, що закони масштабування змінюються. Продуктивність моделей ШІ все ще зростає, але тепер завдяки новим технікам, а не лише збільшенню даних і обчислювальної потужності.

Саме тому OpenAI представила моделі міркувань o1 і o3 після серії GPT, за словами Тана. Для моделей o, або омні, OpenAI використала техніки «ланцюга думок», щоб змусити модель детально продумувати свої відповіді. Це призвело до покращення ефективності. (OpenAI пропустила назву o2, оскільки вона була вже зайнята телекомунікаційним провайдером.)

«Дослідники OpenAI виявили, що чим довше o1 могла размірковувати, тим краще була її продуктивність», — заявив Тан. «З нещодавнім випуском її наступника, o3, здається, що межа для цього нового підходу до масштабування великих мовних моделей немає».

Тан зазначив, що o3 «перевершила всі бенчмарки, які раніше вважалися недосяжними для ШІ».

В США провідні моделі ШІ займають перші місця лише близько трьох тижнів, перш ніж їх обганяють, зокрема, open-source конкуренти, згідно з доповіддю Innovation Endeavors за червень 2025 року. Цикл випуску моделей залишається швидким, якщо не сказати швидшим.

Закони масштабування ще не померли, але спільнота ШІ готується до майбутнього, яке підкреслює розумніші архітектури, моделі, що базуються на міркуванні, та використання розподілених джерел даних.

Читати далі:

Що мають запитувати бізнеси при виборі моделі ШІ

Суд ухвалює рішення, що Anthropic не потребує дозволу на навчання ШІ з книг

Головний науковець Meta з штучного інтелекту критикує пошуки інтелекту на рівні людини