Дискусії про довідкові точки AI – і про те, як про них повідомляють лабораторії AI – триває на публіці.
Цього тижня співробітник OpenAI звинуватив компанію AI AI AI Elon Musk XAI, щоб видати оманливі довідкові результати для останньої моделі AI, Grok 3.
Істина десь посередині.
У публікації в блозі XAI компанія опублікувала графік, що показує продуктивність Grok 3 на Aime 2025, збірку складних математичних питань з останніх іспитів з математики запрошення. Деякі експерти поставили під сумнів обґрунтованість Ейме як орієнтир. Однак AIME 2025 та більш ранні версії тесту зазвичай використовуються для вивчення математичної здатності моделі.
Діаграма XAI показала два варіанти Grok 3, Grok 3 Logic of Beta та Grok 3 Mini міркувань, потрапляючи на доступні OpenAI, O3-Mini-High, AIME 2025.
Що таке мінуси@64, чи можете ви запитати? Що ж, це коротко про “консенсус@64” і в основному дає модель 64 намагається відповісти на кожну проблему в орієнтирній точці і отримує відповіді, які найчастіше створюються як остаточні відповіді. Як ви можете собі уявити, мінуси@64 мають тенденцію до покращення опорних рейтингів моделей, і пропустити його з одного графіка, може зробити це схожим на модель, яка подолала іншу, коли насправді це не так.
GROK 3 BETA-Облік та Grok 3 Mini Collections для AIME 2025 в “@1”-індикує, що перший бал, який моделі отримали на точку референтного стрибків під оцінкою O3-Mini-High. Grok 3 Логічні бета-маршрути також постійно знаходяться за допомогою моделі OpenAI O1, встановленої на “середніх” комп’ютерах. Однак XAI рекламує Grok 3 як “найрозумніший AI у світі”.
Бабушкін стверджував у X, що OpenAi опублікував подібні оманливі довідкові діаграми в минулому – хоча діаграми, що порівнюють продуктивність власних моделей. Більш нейтральна партія в дебатах зібрала більш “точну” діаграму, що показує майже кожну ефективність моделі в мінусах@64:
Весело, як деякі люди бачать мій сюжет як напад на Openai та інших як напад на Грока, а насправді це пропаганда DeepSeek
(Я дійсно думаю, що Grok там добре виглядає, а TTC OpenAI TTC за O3-Mini-*High*-Pass@”” “” “варто більше чеків.) Https://t.co/djqljpcjh8 pic.twitter.com/3wh8foufic– Teortaxes ▶ Місце 20 лютого 2025 року
Але, як зазначив дослідник Ай Натана Ламберта в одному місці, можливо, найважливішим вимірюванням залишається загадка: обчислювальні (і грошові) витрати, необхідні для кожної моделі для досягнення найкращої оцінки. Саме так ще кілька орієнтирів AI спілкуються для обмежень моделей – та їх сильних сторін.