Адвокати New York Times і Daily News, які подали до суду на OpenAI за нібито звільнення їхніх проектів для навчання своїх моделей штучного інтелекту без дозволу, кажуть, що інженери OpenAI випадково видалили дані, які потенційно стосуються справи.
Раніше цієї осені OpenAI погодився надати дві віртуальні машини, щоб консультанти Times і Daily News могли здійснювати пошук вмісту, захищеного авторським правом, у наборах навчання AI. (Віртуальні машини — це комп’ютери на основі програмного забезпечення, які знаходяться в операційній системі іншого комп’ютера і часто використовуються для цілей тестування, резервного копіювання даних і запуску програм.) У листі юристи видавців кажуть, що вони та найняті ними експерти витратили більше ніж 150 годин з 1 листопада на пошук навчальних даних OpenAI.
Але 14 листопада інженери OpenAI видалили всі пошукові дані видавців, що зберігалися на одній із віртуальних машин, згідно з вищезгаданим листом, який був поданий до Окружного суду США Південного округу Нью-Йорка ввечері в середу.
OpenAI намагався відновити дані – і в основному успішно. Однак, оскільки структура папок і імена файлів були «безповоротно втрачені», відновлені дані «не можна використовувати для визначення того, де скопійовані новинні статті позивачів використовувалися для створення [OpenAI’s] моделі», – йдеться в листі.
«Позивачі новин були змушені відтворити свою роботу з нуля, використовуючи значні людино-години та час комп’ютерної обробки», — написали адвокати Times і Daily News. «Лише вчора позивачі дізналися, що відновлені дані нічого не варті, і що цілий тиждень роботи експертів і адвокатів необхідно виконати заново, тому цей додатковий лист подано сьогодні».
Адвокати позивачів чітко пояснюють, що у них немає підстав вважати, що стирання було навмисним. Але вони кажуть, що інцидент підкреслює, що OpenAI «знаходиться в найкращому становищі для пошуку у власних наборах даних» потенційно правопорушного вмісту за допомогою власних інструментів.
Представник OpenAI відмовився від коментарів.
Але пізно ввечері в п’ятницю, 22 листопада, адвокат OpenAI подав відповідь на лист, який юристи The Times і Daily News надіслали в середу. У своїй відповіді юристи OpenAI категорично заперечили, що OpenAI видалив будь-які докази, і натомість припустили, що позивачі винні в неправильній конфігурації системи, яка призвела до технічної проблеми.
«Позивачі вимагали змінити конфігурацію одного з багатьох двигунів, які OpenAI надав для пошуку навчальних наборів даних», — написав адвокат OpenAI. «Проте впровадження зміни, яку вимагали позивачі, призвело до видалення структури папок і певних імен файлів на жорсткому диску — диску, який мав використовуватися як тимчасовий кеш… У будь-якому випадку, немає жодних причин для вважають, що записи насправді були втрачені».
У цьому та інших випадках OpenAI стверджував, що моделі навчання з використанням загальнодоступних даних, включаючи статті з Times і Daily News, є добросовісним використанням. Іншими словами, створюючи такі моделі, як GPT-4o, які «вчаться» на мільярдах прикладів електронних книг, есе тощо для генерування тексту, що звучить як людина, OpenAI вважає, що немає потреби ліцензувати чи іншим чином платити за приклади. — навіть якщо він заробляє на цих моделях.
Тим не менш, OpenAI підписав ліцензійні угоди з дедалі більшою кількістю нових видавців, включаючи Associated Press, власника Business Insider Акселя Спрінгера, Financial Times, батьківську компанію People Dotdash Meredith і News Corp. OpenAI відмовився виконувати умови цих публічних угод, але один контент-партнер, Dotdash, як повідомляється, отримує щонайменше 16 мільйонів доларів на рік.
OpenAI не підтвердив і не спростував, що навчав свої системи штучного інтелекту на конкретних творах, захищених авторським правом, без дозволу.
Оновлення: додано відповідь OpenAI на звинувачення.