САН-ФРАНЦИСКО — Технологічний гігант OpenAI рекламував свій інструмент транскрипції Whisper на базі штучного інтелекту як «надійність і точність, близьку до людського рівня».
Але Whisper має один серйозний недолік: згідно з інтерв’ю з більш ніж дюжиною програмістів, розробників і академічних дослідників, він схильний генерувати фрагменти тексту або навіть цілі речення. Ці експерти стверджують, що деякі сфабриковані тексти, відомі в індустрії як галюцинації, можуть включати расові образи, насильницьку риторику та навіть уявні медичні процедури.
Експерти кажуть, що такі конструкції є проблематичними, оскільки Whisper використовується в багатьох галузях промисловості по всьому світу для перекладу та транскрипції інтерв’ю, створення тексту в популярних споживчих технологіях і створення субтитрів для відео.
Більше занепокоєння, за їхніми словами, викликає поспіх медичних центрів використовувати інструменти на основі Whisper для запису консультацій пацієнтів з лікарями, незважаючи на попередження OpenAI про те, що інструмент не слід використовувати в «зонах високого ризику».
Повний масштаб проблеми важко зрозуміти, але дослідники та інженери кажуть, що вони часто стикалися з галюцинаціями Віспера у своїй роботі. Дослідник Мічиганського університету, який проводив дослідження публічних зустрічей, наприклад, сказав, що виявив галюцинації у восьми з 10 аудіозаписів, які він перевірив, перш ніж почати намагатися вдосконалити модель.
Один інженер з машинного навчання сказав, що спочатку він виявив галюцинації приблизно в половині з понад 100 годин стенограм Whisper, які він проаналізував. Сторонній розробник сказав, що виявив галюцинації майже в кожному з 26 000 стенограм, які він створив за допомогою Whisper.
Проблеми залишаються навіть із добре записаними короткими аудіо зразками. Нещодавнє дослідження комп’ютерних науковців виявило 187 галюцинацій у понад 13 000 чистих аудіозаписів, які вони дослідили.
За словами дослідників, ця тенденція призведе до десятків тисяч неправильних транскрипцій у мільйонах записів.
Такі помилки можуть мати «справді серйозні наслідки», особливо в лікарнях, сказала Алондра Нельсон, яка до минулого року очолювала Управління наукової та технологічної політики Білого дому в адміністрації Байдена.
«Ніхто не хоче помилкового діагнозу», — сказав Нельсон, професор Інституту передових досліджень у Прінстоні, Нью-Джерсі. «Повинна бути вища планка».
Whisper також використовується для створення закритих субтитрів для глухих і слабочуючих людей, які мають особливий ризик помилкової транскрипції. Це тому, що глухі та слабочуючі люди не можуть розпізнати, що конструкції “приховані серед усього цього іншого тексту”, – сказав Крістіан Фоглер, який є глухим і керує Програмою доступу до технологій університету Галлодет.
Поширеність таких помилок змусила експертів OpenAI, прихильників і колишніх співробітників закликати федеральний уряд переглянути правила ШІ. Принаймні, вони сказали, що OpenAI має усунути недолік.
«Це здається вирішуваним, якщо компанія бажає визначити пріоритети», — сказав Вільям Сондерс, інженер-дослідник із Сан-Франциско, який звільнився з OpenAI у лютому через занепокоєння щодо напрямку діяльності компанії. «Це проблематично, якщо ви розміщуєте його там, і люди стають занадто впевненими в тому, що він може зробити, і інтегрують його в усі ці інші системи».
Представник OpenAI сказав, що компанія постійно вивчає, як зменшити галюцинації, і високо оцінив висновки дослідників, додавши, що OpenAI включає відгуки в оновлення моделей.
Хоча більшість розробників припускають, що інструменти транскрипції неправильно пишуть слова або допускають інші помилки, інженери та дослідники кажуть, що вони ніколи не бачили інструмент транскрипції штучного інтелекту таким оманливим, як Whisper.
Інструмент вбудовано в деякі версії флагманського чат-бота OpenAI ChatGPT і є інтегрованою пропозицією на платформах хмарних обчислень Oracle і Microsoft, які обслуговують тисячі компаній по всьому світу. Він також використовується для транскрибування та перекладу тексту багатьма мовами.
Лише за останній місяць останню версію Whisper було завантажено понад 4,2 мільйона разів платформою ШІ з відкритим кодом HuggingFace. Санчіт Ганді, інженер з машинного навчання, сказав, що Whisper є найпопулярнішою моделлю розпізнавання мовлення з відкритим кодом і вбудована в усе, від кол-центрів до голосових помічників.
Професори Еллісон Конеке з Корнельського університету та Мона Слоан з Університету Вірджинії дослідили тисячі коротких уривків, отриманих із TalkBank, дослідницького сховища, розміщеного в Університеті Карнегі-Меллона. Вони виявили, що майже 40% галюцинацій були шкідливими або тривожними, оскільки мовця можна було неправильно витлумачити або неправильно витлумачити.
В одному прикладі, який вони показали, спікер сказав: «Він, хлопець, узяв би, я точно не впевнений, парасольку».
Але програмне забезпечення для транскрипції додало: «Він узяв великий шматок хреста, молодий, маленький шматочок… Я впевнений, що в нього не було страшного ножа, і саме так він убив багато людей».
На іншому записі співрозмовник описав «інших двох дівчат і одну жінку». Шепіт зробив додаткові коментарі щодо раси, додавши “дві інші дівчини та жінка, гм, які були чорношкірими”.
У третій транскрипції Віспер винайшов неіснуючий препарат під назвою «суперактивовані антибіотики».
Дослідники не впевнені, чому Whisper та подібні інструменти галюцинують, але розробники програмного забезпечення кажуть, що вигадки зазвичай виникають під час пауз, фонових звуків або відтворення музики.
У своїх онлайн-розкриттях OpenAI рекомендував не використовувати Whisper у «контекстах прийняття рішень, де недоліки в точності можуть призвести до серйозних недоліків у результатах».
Це застереження не завадило лікарням або медичним центрам використовувати моделі перетворення мовлення в текст, включаючи Whisper, щоб транскрибувати сказане під час візитів до лікаря, щоб звільнити медичних працівників, щоб вони витрачали менше часу на нотатки або введення звітів.
Понад 30 000 клініцистів і 40 систем охорони здоров’я, включно з клінікою Манкато в Міннесоті та дитячою лікарнею Лос-Анджелеса, почали використовувати інструмент на основі Whisper, створений компанією Nabla, яка має офіси у Франції та США.
Цей інструмент був добре налаштований на медичну мову для транскрибування та узагальнення взаємодії пацієнтів, сказав головний технічний директор Nabla Мартін Рейсон.
Представники компанії сказали, що знають, що Шепіт може галюцинувати, і пом’якшують проблему.
Неможливо порівняти транскрипцію, створену штучним інтелектом Nabla, з оригінальним записом, оскільки інструмент Nabla видаляє оригінальне аудіо з «міркувань безпеки даних», сказав Райсон.
Набла сказав, що інструмент використовувався для запису близько 7 мільйонів медичних візитів.
Сондерс, колишній інженер OpenAI, сказав, що видалення оригінального аудіо може викликати занепокоєння, якщо транскрипції не перевіряються двічі або клініцисти не мають доступу до запису, щоб перевірити їх правильність.
«Ви не зможете вловити помилки, якщо заберете правду», — сказав він.
Набла сказав, що жодна модель не є ідеальною, і наразі їхня модель вимагає від медичних працівників швидкої обробки та затвердження транскрибованих нотаток, але це може змінитися.
Оскільки зустрічі пацієнтів з лікарями є конфіденційними, важко знати, як на них впливають стенограми, згенеровані ШІ.
Член Конгресу від штату Каліфорнія Ребекка Бауер-Кахан сказала, що на початку цього року вона водила одного зі своїх дітей до лікаря і відмовилася підписати форму, яку мережа охорони здоров’я запитувала у неї, щоб поділитися аудіо консультацією з постачальниками, включно з Microsoft Azure. система хмарних обчислень, якою керує найбільший інвестор OpenAI. За її словами, Бауер-Кахан не хотіла, щоб такі інтимні медичні розмови ділилися з технологічними компаніями.
«Реліз був дуже конкретним, тому комерційні компанії мали б право на нього», — сказав Бауер-Кахан, демократ, який представляє частину передмістя Сан-Франциско в Асамблеї штату. «Я сказав: «Абсолютно ні».
Речник John Muir Health Бен Дрю сказав, що система охорони здоров’я відповідає державним і федеральним законам про конфіденційність.
___
Шелманн повідомив з Нью-Йорка.
___
Ця історія була створена в партнерстві з мережею підзвітності ШІ Пулітцерівського центру, яка також частково підтримала академічне дослідження Whisper.
___
Associated Press отримує фінансову допомогу від Omidyar Network для підтримки висвітлення штучного інтелекту та його впливу на суспільство. AP несе повну відповідальність за весь вміст. Знайдіть стандарти AP для роботи з благодійними організаціями, перелік прихильників і фінансованих зон покриття на AP.org.
___
Associated Press і OpenAI мають ліцензійну та технологічну угоду, яка дозволяє OpenAI отримати доступ до деяких текстових файлів AP.