Кілька місяців тому мій лікар показав мені інструмент транскрипції штучного інтелекту, який він використовував для запису та узагальнення своїх зустрічей з пацієнтами. У моєму випадку анотація була хороша, але цитувалися дослідники ABC News виявили, що це не завжди так із Whisper від OpenAI, який працює над інструментом, що використовується в багатьох лікарнях — іноді він просто щось вигадує.
Whisper використовується компанією під назвою Nabla для інструменту медичної транскрипції, яка, за оцінками, транскрибувала 7 мільйонів медичних розмов. ABC News. Понад 30 000 клініцистів і 40 систем охорони здоров’я використовують його, повідомляє газета. Кажуть, що Набла знає, що Шепіт може мати галюцинації, і “вирішує проблему”.
Команда дослідників з Корнельського університету, Вашингтонського університету та інших виявила під час дослідження, що Шепіт мав галюцинації приблизно в 1 відсотку стенограм, складаючи повні речення з інколи бурхливими емоціями або дурними фразами під час мовчання в записах. Дослідники, які зібрали зразки аудіо з AphasiaBank TalkBank в рамках дослідження, відзначають, що мовчання особливо поширене, коли говорить хтось із розладом мови, який називається афазією.
Один із дослідників, Еллісон Кенеке з Корнельського університету, опублікував приклади, подібні до наведеного нижче, у ланцюжку дослідження.
Дослідники виявили, що галюцинації також включали вигадані захворювання або фрази, які ви могли б очікувати від відео на YouTube, наприклад «Дякую за перегляд!» (Повідомляється, що OpenAI транскрибує понад мільйон годин відео YouTube для навчання GPT-4.)
Дослідження було представлено в червні на конференції Асоціації обчислювальних машин FAccT у Бразилії. Незрозуміло, чи був він рецензований.
Прес-секретар OpenAI Тая Крістіансон надіслала заяву електронною поштою The Verge:
Ми серйозно ставимося до цієї проблеми та постійно працюємо над удосконаленням, зокрема над зменшенням галюцинацій. Що стосується використання Whisper на нашій платформі API, наша політика використання забороняє використання в певних середовищах прийняття рішень із високими ставками, а наша картка моделі використання з відкритим кодом містить рекомендації щодо використання в зонах високого ризику. Дякуємо дослідникам, які діляться своїми висновками.