Salesforce Зіштовхується З Колективним Позовом Через Підозрюване Неправомірне Використання Даних Для Навчання Штучного Інтелекту
1 min read

Salesforce Зіштовхується З Колективним Позовом Через Підозрюване Неправомірне Використання Даних Для Навчання Штучного Інтелекту

Коротко

  • Автори Е. Моллі Танзер та Дженніфер Гілмор подали позов проти компанії Salesforce, звинувачуючи її в “піратстві” сотень тисяч авторських книг для створення своїх моделей штучного інтелекту XGen.
  • У заяві йдеться, що Salesforce спочатку оголосила про використання набору даних “RedPajama-Books” у червні 2023 року, але через два місяці видалила посилання на них, перейменувавши навчальні дані на “публічно доступні”.
  • Генеральний директор Salesforce Марк Беніофф раніше заявляв, що компанії зі штучного інтелекту “вкрали” дані для навчання, і “всі навчальні дані були вкрадені” в інтерв’ю Bloomberg.

Новий колективний позов у федеральному суді Сан-Франциско звинувачує програмний гігант Salesforce у тому, що він побудував свої моделі штучного інтелекту XGen на основі піратської бібліотеки книг, а потім виправив своє походження, коли виникли питання.

Позов подали в середу автори Е. Моллі Танзер та Дженніфер Гілмор відповідно до Закону про авторське право, заявляючи про постійні порушення, та стверджують, що Salesforce “продовжує це робити, зберігаючи, копіюючи, використовуючи та обробляючи набори даних, що містять копії авторських книг позивачів”.

У заяві йдеться, що компанія Salesforce.INC “піратствувала сотні тисяч авторських книг для розробки свого серії великих мовних моделей XGen”, спираючись на “сумно відомі набори даних RedPajama та The Pile”, до яких входить корпус книг Books3, що складається з понад 196 000 книг, скопійованих з приватного трекера Bibliotik.

У позові зазначається, що Salesforce спочатку вказала “RedPajama-Books” серед джерел для навчання, коли запустила XGen у червні 2023 року, а один з інженерів компанії зв’язав тутористів GitHub безпосередньо з обома наборами даних.

Однак до вересня Salesforce нібито видалила ці посилання з свого сайту і замінила їх неясними описами “даних природної мови”, запозичених з “публічно доступних джерел”.

Hugging Face, платформа, що хостила Books3, усунула набір даних наступного місяця, посилаючись на скарги щодо авторських прав, як зазначено у позові.

Позов стверджує, що Salesforce використовувала The Pile для навчання своїх моделей CodeGen у 2022 році, а потім комерціалізувала технологію через свою платформу Agentforce AI, включаючи модель XGen-Sales, випущену в жовтні 2024 року.

Два місяці потому Salesforce нібито видалила свої розкриття, усунувши графіки і посилання на “RedPajama-Books” та замінивши їх нечіткими формулюваннями про “змішання публічно доступних даних”, перш ніж у грудні 2023 року стверджувати, що її моделі використовують “правомірний набір даних” без жодного згадування про RedPajama.

Ішита Шарма, управляючий партнер Fathom Legal, зазначила, що авторам потрібно “доказати реальну фінансову шкоду, а не просто те, що їх книги були використані для навчання”, зауваживши, що суддя Вінс Чабрія нещодавно відхилив подібні вимоги проти Meta, вказавши, що “просто стверджуючи ‘наша робота була використана’, недостатньо.”

Недавні рішення були на користь OpenAI та Anthropic у подібних справах, коли судді вважали, що авторами не було доведено шкоду ринку, хоча один із суддів розкритикував Anthropic за збереження “постійної бібліотеки піратських книг”.

“Використання публічних наборів даних, таких як RedPajama чи The Pile, не автоматично знімає відповідальність за умисне порушення”, – сказала Шарма, додавши: “якщо вони знали або ігнорували, що авторські твори були включені, суди все ще можуть вважати це безвідповідальним ставленням.”

“Доки ШІ не може відтворювати частини оригінальної роботи, самі ваги моделі не вважаються порушенням авторського права”, додала вона.

У позові наводяться висловлювання генерального директора Salesforce Марка Беніоффа, який у січні 2024 року під час інтерв’ю з Bloomberg заявив, що компанії зі штучного інтелекту “вкрали” дані для навчання і що “всі навчальні дані були вкрадені.”

Автори прагнуть отримати класове підтвердження для всіх американських власників авторських прав, чиї роботи використовувалися з жовтня 2022 року, вимагаючи статутних збитків, знищення порушуючих копій, повернення прибутків, визнання умисного порушення та гонорарів адвокатів.


Розумний ШІ Новини

Щотижневий шлях у світ штучного інтелекту, на якому нам розповідає Ген, модель генеративного штучного інтелекту.