OpenAI повідомляє, що розглядає докази того, що китайський стартап DeepSeek порушив умови служби з збиранням великих кількостей даних з технологій AI.
Базуючись у Сан -Франциско, який зараз оцінюється в 157 мільярдів доларів, заявив, що DeepSeek, можливо, використовував дані, що виробляються OpenAI Technologies, щоб навчити подібних навичок власних систем.
Цей процес, який називається дистиляцією, є поширеним у поля AI. Однак умови послуги OpenAI кажуть, що компанія не дозволяє нікому використовувати дані, отримані своїми системами, для побудови технологій, що конкурують на одному ринку.
“Ми знаємо, що команди в GDC активно працюють над використанням методів, включаючи дистиляцію, для відтворення вдосконалених моделей USAI”, Представник OpenAi Liz Bourgeois e -Mail в The New York Times, посилаючись на Китайську Республіку народної Республіки.
“Ми знаємо та переглядаємо вказівки на те, що DeepSeek, можливо, був невідповідним нашими моделями та поділиться інформацією, як ми знаємо більше”, – сказав він. “Ми приймаємо агресивно, профілактичні контрзаходи для захисту нашої технології, і ми будемо продовжувати тісно співпрацювати з урядом США, щоб захистити найбільш здібні моделі, зроблені тут”.
DeepSeek не одразу відповів на запит про коментарі.
Deepseek повідомив про технологічні компанії Силіконової долини та відправив фінансові ринки США на Tailspin на початку цього тижня після випуску AI Technologies, які відповідають усім іншим на ринку.
Переважаюча мудрість полягала в тому, що найпотужніші системи не могли бути виготовлені без мільярдів доларів у спеціалізованих комп’ютерних мікросхемах, але DeepSeek сказав, що створила свої технології, використовуючи набагато менше ресурсів.
Як і будь -яка інша компанія AI, DeepSeek створив свої технології за допомогою комп’ютерного коду та даних в Інтернеті. Компанії AI значною мірою схиляються до практики під назвою Open Sourcing, вільно діляться кодом, який підтримує їх технології – та повторно використовуйте код, який ділиться іншими. Вони бачать, що це спосіб прискорення технологічного розвитку.
Їм також потрібна величезна кількість електронних даних для підготовки своїх систем AI. Ці системи вивчають свої навички, визначивши шаблони в тексті, комп’ютерних програмах, зображеннях, звуках та відео. Топ -системи вивчають свої навички, аналізуючи майже весь текст в Інтернеті.
Дистиляція часто використовується для підготовки нових систем. Якщо компанія отримує дані від приватної технології, практика може бути юридично проблематичною. Але часто допускається технологіями з відкритим кодом.
Зараз OpenAI стикається з більш ніж дванадцяти позовами, які звинувачують його у використанні незаконних даних про захист від авторських прав для підготовки своїх систем. Сюди входить позов, поданий New York Times проти OpenAI та її партнера Microsoft.
У позові стверджується, що мільйони статей, опублікованих Times, використовувались для підготовки автоматизованих чатів, які зараз конкурують з магазином новин як джерела надійної інформації. І OpenAI, і Microsoft заперечують звинувачення.
У разів також показав, що OpenAI використовував технологію розпізнавання мови для переписування звуку з відео YouTube, надаючи новий текст розмови, який зробить систему AI розумнішим. Деякі працівники OpenAI обговорювали, як такий крок може протистояти правилам YouTube, три люди, які знають переговори, сказали.
Команда OpenAI, включаючи президента компанії, Грег Брокман, передає більше мільйона годин відео на YouTube, заявили люди. Потім тексти подали в систему під назвою GPT-4, яка вважалася однією з найпотужніших моделей AI у світі і була основою останньої версії Chatgpt Chatbot.