Чи справді сучасні моделі штучного інтелекту запам’ятовують, думають, планують і розмірковують так, як це зробив би людський мозок? Деякі лабораторії штучного інтелекту хочуть, щоб ви повірили, що це так, але, за словами головного науковця Meta, Янна Лекуна, відповідь – ні. Однак він вважає, що ми можемо досягти цього через десятиліття чи близько того, дотримуючись нового методу під назвою «глобальна модель».
На початку цього року OpenAI випустив нову функцію під назвою «пам’ять», яка дозволяє ChatGPT «запам’ятовувати» ваші розмови. Останнє покоління моделей стартапу, o1, відображає слово «думати», виробляючи результат, і OpenAI каже, що ті самі моделі здатні до «складної логіки».
Все це звучить так, ніби ми дуже близькі до AGI. Однак під час нещодавньої розмови на Hudson Forum Лекун підривав оптимістів ШІ, таких як засновник xAI Ілон Маск і співзасновник Google DeepMind Шейн Легг, які припускають, що штучний інтелект на рівні людини стоїть на порозі.
«Нам потрібні машини, які розуміють світ. [machines] які можуть запам’ятовувати речі, які мають інтуїцію, які мають здоровий глузд, речі, які можуть міркувати та планувати на тому ж рівні, що й люди», – сказав ЛеКун під час виступу. «Незважаючи на те, що ви, можливо, чули від деяких людей із більшим ентузіазмом, нинішні системи штучного інтелекту нічого з цього не здатні».
ЛеКун каже, що сучасні великі мовні моделі, як-от ті, що використовують ChatGPT і Meta AI, далекі від «штучного інтелекту людського рівня». Пізніше він сказав, що до досягнення цього людству можуть залишитися «роки чи десятиліття». (Це не заважає його босу, Марку Цукербергу, запитувати його, коли відбудеться AGI.)
Причина проста: ці LLM працюють, передбачаючи наступний токен (зазвичай кілька літер або коротке слово), а сучасні моделі зображення/відео передбачають наступний піксель. Іншими словами, мовні моделі є одновимірними прогнозами, а моделі зображень/відео AI є двовимірними прогнозами. Ці моделі досить добре передбачають відповідні розміри, але вони насправді не розуміють 3D-світ.
Через це сучасні системи ШІ не можуть виконувати прості завдання, які можуть виконувати більшість людей. ЛеКун зазначає, як люди вчаться прибирати зі столу до 10 років і водити машину до 17 — і вчаться і того й іншого за лічені години. Але навіть найдосконаліші системи штучного інтелекту в сучасному світі, побудовані на тисячах або мільйонах годин даних, не можуть надійно працювати у фізичному світі.
Щоб виконувати більш складні завдання, ЛеКун припускає, що нам потрібно створити 3D-моделі, які можуть сприймати навколишній світ і зосереджуватися навколо нового типу архітектури ШІ: моделей світу.
«Модель світу — це ваша ментальна модель того, як поводиться світ», — пояснив він. «Ви можете уявити послідовність дій, які ви могли б зробити, і ваша модель світу дозволить вам передбачити, який вплив ця послідовність дій матиме на світ».
Подумайте про «модель світу» у своєму розумі. Наприклад, уявіть собі, що ви дивитеся на брудну спальню і хочете її очистити. Ви можете собі уявити, як було б зібрати весь одяг і скласти його. Вам не обов’язково пробувати кілька методів або спочатку вчитися прибирати кімнату. Ваш мозок спостерігає за тривимірним простором і створює план дій для досягнення мети з першої спроби. Цей план дій є секретом, який обіцяють глобальні моделі ШІ.
Частково перевагою тут є те, що глобальні моделі можуть приймати значно більше даних, ніж LLM. Це також робить їх обчислювально інтенсивними, тому постачальникам хмарних технологій важко співпрацювати з компаніями штучного інтелекту.
Глобальні моделі — це велика ідея, за якою зараз прагнуть багато лабораторій ШІ, і цей термін швидко стає наступним модним словом для залучення венчурного фінансування. Команда високоповажних дослідників штучного інтелекту, включаючи Фей-Фей Лі та Джастіна Джонсона, щойно зібрала 230 мільйонів доларів для свого стартапу World Labs. «Хрещена мати ШІ» та її команда також переконані, що глобальні моделі розблокують значно розумніші системи ШІ. OpenAI також описує неопублікований відеогенератор Sora як глобальну модель, але не вдається в подробиці.
ЛеКун описав ідею використання світових моделей для створення штучного інтелекту на рівні людини в статті 2022 року про «цілеспрямований штучний інтелект», хоча він зазначає, що цій ідеї більше 60 років. Коротше кажучи, базове уявлення про світ (наприклад, відео брудної кімнати) і пам’ять вводяться в модель світу. Потім модель світу прогнозує, як виглядатиме світ на основі цієї інформації. Потім ви ставите моделі світу цілі, включно зі зміненим станом світу, якого ви хотіли б досягти (наприклад, чисту кімнату), а також огорожі, щоб гарантувати, що модель не завдасть шкоди людям для досягнення мети (не t kill Я в процедурі прибирання своєї кімнати, будь ласка). Потім глобальна модель знаходить серію дій для досягнення цих цілей.
Довгострокова лабораторія дослідження штучного інтелекту Meta, FAIR або Fundamental AI Research, активно працює над створенням цільових і орієнтованих на світ моделей штучного інтелекту, за словами Лекуна. Раніше FAIR працювала над штучним інтелектом для майбутніх продуктів Meta, але ЛеКун каже, що останніми роками лабораторія змінилася, щоб зосередитися виключно на довгострокових дослідженнях ШІ. ЛеКун каже, що сьогодні FAIR навіть не використовує LLM.
Глобальні моделі є цікавою ідеєю, але ЛеКун каже, що ми не досягли значного прогресу у втіленні цих систем у реальність. Є багато дуже складних проблем, які потрібно вирішити з того місця, де ми є сьогодні, і він каже, що це безумовно складніше, ніж ми думаємо.
«Потрібні будуть роки, перш ніж ми зможемо все зробити тут, якщо не десятиліття», — сказав Лекун. «Марк Цукерберг постійно запитує мене, скільки часу це займе».