Ілон Маск зазначив, що технологічним компаніям тепер, можливо, доведеться покладатися на синтетичні дані — матеріал, створений самим ШІ — для навчання та вдосконалення своїх моделей. Це знаменує серйозну зміну в тому, як розробляються передові системи ШІ, такі як ChatGPT
читати далі
Світ штучного інтелекту натрапив на дивну перешкоду: здається, скарбниця людських знань в Інтернеті все-таки не безмежна. Ілон Маск, мільярдер, який стоїть за компаніями Tesla і SpaceX, заявив, що компанії штучного інтелекту фактично «вичерпали» всі створені людьми дані в Інтернеті до 2024 року.
До речі його штучний інтелект, xAI, Маск він зазначив, що технологічним компаніям тепер, можливо, доведеться покладатися на синтетичні дані — матеріал, створений самим ШІ — для навчання та вдосконалення своїх моделей. Це знаменує серйозну зміну в тому, як розробляються передові системи ШІ, такі як ChatGPT.
Жага ШІ до знань натикається на стіну
Моделі штучного інтелекту, такі як GPT-4 OpenAI, покладаються на величезну кількість даних, отриманих з Інтернету, для навчання та вдосконалення. Ці системи аналізують шаблони в інформації, дозволяючи їм передбачати результати, наприклад наступне слово в реченні. Однак Маск пояснив, що запас цих навчальних даних вичерпано, що змушує компанії шукати альтернативні методи. Синтетичні дані, де штучний інтелект створює власний матеріал і вдосконалює його шляхом самооцінки та процесу навчання, стали найкращим вибором.
Ця техніка не зовсім нова — такі великі гравці, як Meta та Microsoft, уже включили синтетичні дані у свої процеси розробки ШІ. Хоча синтетичні дані пропонують порятунок, вони також створюють унікальні проблеми, зокрема щодо підтримки точності та креативності.
Проблема «галюцинацій»
Також Маск торкнувся питання «галюцинацій» штучного інтелекту. де моделі створюють неточний або нелогічний вміст. Він назвав це основною перешкодою при покладанні на синтетичні дані, оскільки стає важко відрізнити справжню інформацію від сфабрикованої. Інші експерти повторили ці побоювання. Ендрю Дункан з британського Інституту Алана Тюрінга попередив, що надмірне використання синтетичних даних може призвести до «краху моделі», коли якість результатів штучного інтелекту з часом погіршується. Оскільки системи штучного інтелекту харчуються власними творіннями, зростає ризик упереджених або менш творчих результатів.
Судова боротьба за контроль даних
Цей брак високоякісних навчальних даних також розпалює судові спори. OpenAI визнав, що такі інструменти, як ChatGPT, не існували б без доступу до матеріалів, захищених авторським правом, що викликало дебати про компенсацію для творчих індустрій і видавців, чия робота використовується для освіти. Тим часом зростаюча присутність контенту, створеного штучним інтелектом, в Інтернеті викликає занепокоєння, що майбутні навчальні набори даних можуть бути переповнені синтетичним матеріалом, що ще більше ускладнить цикл.
Оскільки компанії зі штучним інтелектом долають цей новий рубіж, баланс між інноваціями та етичними й технічними проблемами буде ключовим. Коментарі Маска підкреслюють складність технології, яка розвивається швидше, ніж її основи можуть встигати.