Salesforce зіштовхується з колективним позовом через підозрюване неправомірне використання даних для навчання штучного інтелекту

Новий колективний позов у федеральному суді Сан-Франциско звинувачує програмний гігант Salesforce у тому, що він побудував свої моделі штучного інтелекту XGen на основі піратської бібліотеки книг, а потім виправив своє походження, коли виникли питання.

Звинувачення

Позов подали в середу автори Е. Моллі Танзер та Дженніфер Гілмор відповідно до Закону про авторське право, заявляючи про постійні порушення, та стверджують, що Salesforce «продовжує це робити, зберігаючи, копіюючи, використовуючи та обробляючи набори даних, що містять копії авторських книг позивачів».

У заяві йдеться, що компанія Salesforce.INC «піратствувала сотні тисяч авторських книг для розробки свого серії великих мовних моделей XGen», спираючись на «сумно відомі набори даних RedPajama та The Pile», до яких входить корпус книг Books3, що складається з понад 196 000 книг, скопійованих з приватного трекера Bibliotik.

У позові зазначається, що Salesforce спочатку вказала «RedPajama-Books» серед джерел для навчання, коли запустила XGen у червні 2023 року, а один з інженерів компанії зв’язав тутористів GitHub безпосередньо з обома наборами даних.

Однак до вересня Salesforce нібито видалила ці посилання з свого сайту і замінила їх неясними описами «даних природної мови», запозичених з «публічно доступних джерел».

Hugging Face, платформа, що хостила Books3, усунула набір даних наступного місяця, посилаючись на скарги щодо авторських прав, як зазначено у позові.

Позов стверджує, що Salesforce використовувала The Pile для навчання своїх моделей CodeGen у 2022 році, а потім комерціалізувала технологію через свою платформу Agentforce AI, включаючи модель XGen-Sales, випущену в жовтні 2024 року.

Судові рішення

Два місяці потому Salesforce нібито видалила свої розкриття, усунувши графіки і посилання на «RedPajama-Books» та замінивши їх нечіткими формулюваннями про «змішання публічно доступних даних», перш ніж у грудні 2023 року стверджувати, що її моделі використовують «правомірний набір даних» без жодного згадування про RedPajama.

Ішита Шарма, управляючий партнер Fathom Legal, зазначила, що авторам потрібно «доказати реальну фінансову шкоду, а не просто те, що їх книги були використані для навчання», зауваживши, що суддя Вінс Чабрія нещодавно відхилив подібні вимоги проти Meta, вказавши, що «просто стверджуючи ‘наша робота була використана’, недостатньо.»

Недавні рішення були на користь OpenAI та Anthropic у подібних справах, коли судді вважали, що авторами не було доведено шкоду ринку, хоча один із суддів розкритикував Anthropic за збереження «постійної бібліотеки піратських книг».

«Використання публічних наборів даних, таких як RedPajama чи The Pile, не автоматично знімає відповідальність за умисне порушення», – сказала Шарма, додавши: «якщо вони знали або ігнорували, що авторські твори були включені, суди все ще можуть вважати це безвідповідальним ставленням. Доки ШІ не може відтворювати частини оригінальної роботи, самі ваги моделі не вважаються порушенням авторського права».

У позові наводяться висловлювання генерального директора Salesforce Марка Беніоффа, який у січні 2024 року під час інтерв’ю з Bloomberg заявив, що компанії зі штучного інтелекту «вкрали» дані для навчання і що «всі навчальні дані були вкрадені.»

Автори прагнуть отримати класове підтвердження для всіх американських власників авторських прав, чиї роботи використовувалися з жовтня 2022 року, вимагаючи статутних збитків, знищення порушуючих копій, повернення прибутків, визнання умисного порушення та гонорарів адвокатів.

Звинувачення

Судові рішення

Бєляєва Христина

Related Posts