Модель штучного інтелекту, відома як VASA-1, може створити анімаційне відео людини, яка говорить, із синхронними рухами губ, використовуючи лише зображення та аудіозапис мови
Дослідники Microsoft представили новий інструмент штучного інтелекту, який може створювати глибоко реалістичні людські аватари, але не запропонували графіку, коли він стане загальнодоступним, посилаючись на занепокоєння щодо сприяння глибокому фейковому вмісту.
Модель штучного інтелекту, відома як VASA-1, для «візуальних афективних навичок» може створити анімаційне відео людини, яка говорить, із синхронними рухами губ, використовуючи лише зображення та аудіокліп мови.
Дослідники дезінформації побоюються масового зловживання додатками на основі штучного інтелекту для створення «глибоко фейкових» зображень, відео та аудіокліпів у вирішальний рік виборів.
«Ми виступаємо проти будь-якої поведінки, спрямованої на створення оманливого або шкідливого контенту про реальних людей», — написали автори звіту VASA-1, опублікованого цього тижня Microsoft Research Asia.
«Ми відповідально ставимося до розробки штучного інтелекту з метою покращення добробуту людей», — сказали вони.
«Ми не маємо наміру випускати веб-демонстрацію, API, продукт, додаткові відомості про програму або будь-які пов’язані пропозиції, доки не будемо впевнені, що технологія буде використовуватися відповідально та відповідно до відповідних правил».
Дослідники Microsoft заявили, що ця технологія може вловлювати широкий діапазон нюансів обличчя та природних рухів голови.
«Це прокладає шлях для взаємодій у реальному часі з реалістичними аватарами, які імітують людську розмовну поведінку», — йдеться в дописі дослідників.
За словами Microsoft, VASA може працювати з художніми фотографіями, піснями та неанглійською мовою.
Дослідники назвали потенційні переваги технології, такі як надання віртуальних репетиторів для студентів або терапевтична підтримка для людей, які цього потребують.
“Це не призначено для створення контенту, який використовується для введення в оману або обману”, – сказали вони.
Відео VASA досі містять «артефакти», які показують, що вони були створені ШІ, згідно з дописом.
Головний технічний директор ProPublica Бен Вердмюллер сказав, що «буде дуже радий почути про те, що хтось вперше використає його, щоб представляти себе на зустрічі Zoom».
“Ну як це було? Хтось помітив?” – повідомив він у соцмережі Threads.
Розробник ChatGPT OpenAI у березні представив інструмент клонування голосу під назвою «Voice Engine», який може фактично копіювати чиюсь мову на основі 15-секундного аудіо зразка.
Проте в компанії заявили, що «використовують обережний та інформований підхід до ширшого випуску через можливість неправильного використання синтетичного голосу».
Раніше цього року консультант, який працював на перспективних кандидатів у президенти від Демократичної партії, визнав, що стоїть за роботизованою імітацією Джо Байдена, надісланою виборцям у Нью-Гемпширі, заявивши, що він намагався висвітлити небезпеку штучного інтелекту.
Заклик звучав як голос Байдена, який закликав людей не голосувати на січневих первинних виборах у штаті, що викликало тривогу серед експертів, які побоюються потоку глибокої дезінформації, керованої штучним інтелектом, у боротьбі за Білий дім у 2024 році.
Читайте також: Tech Week: дебютує новий медальйон AI