У світі перекладу є великі можливості для генетичного штучного інтелекту, і стартап під назвою Panjaya виводить цю ідею на наступний рівень: гіперреалістичний інструмент для озвучування відео на основі штучного інтелекту, який відтворює оригінальний голос людини, яка говорить новим мова з відео та природними рухами мовця, які автоматично змінюються відповідно до нових моделей мовлення.
Після того, як останні три роки був у прихованому режимі, стартап представляє BodyTalk, першу версію свого продукту, разом із першим зовнішнім фінансуванням у розмірі 9,5 мільйонів доларів.
Панджая є дітищем Хіліка Шані та Аріеля Шалома, двох експертів з глибокого навчання, які більшу частину свого професійного життя тихо працювали над технологіями глибокого навчання для уряду Ізраїлю, а зараз є генеральним директором і технічним директором стартапу відповідно. Вони повісили свої капелюхи G-man у 2021 році через свербіж стартапів, а 1,5 роки тому Гай Пікарц приєднався до них як генеральний директор.
П’єкарц не є засновником Panjaya, але це відоме ім’я: у 2013 році він продав стартап, який зробив знайдено в Apple. Matcha, як називався стартап, був першим активним гравцем у пошуку та рекомендаціях потокового відео, і був придбаний на перших днях стратегії Apple щодо телебачення та потокового передавання, коли це були більше чутки, ніж реальні продукти. Matcha запустили та продали за дрібниці: від 10 до 15 мільйонів доларів — це скромно, враховуючи головний напрямок Apple — нарешті створити потокове медіа.
П’єкарц пропрацював в Apple майже десять років, створивши Apple TV, а потім свою спортивну компанію. Потім він був представлений Panjaya через Viola Ventures, одного з її спонсорів (інші включають R-Squared Ventures, співзасновника та генерального директора JFrog Шломі Бен Хаїма, Кріса Райса, Гая Шорі, Раяна Флойда з Storm Ventures, Алі Бехнама з Riviera Partners, і Одед Варди.
«На той час я покинув Apple і планував зробити щось зовсім інше», — сказав П’єкарц. «Однак побачивши демонстрацію технології, я вразився, а решта вже історія».
BodyTalk цікавий тим, що він одночасно вводить у кадр кілька частин технології, які впливають на різні аспекти композитних носіїв.
Він починається з перекладу на основі аудіо, який наразі може запропонувати переклади 29 мовами. Потім переклад озвучується голосом, що імітує оригінального мовця, який, у свою чергу, налаштовується на версію оригінального відео, де губи мовця та інші рухи змінюються відповідно до нових слів і фраз. Усе це автоматично генерується у відео після того, як користувачі завантажують їх на платформу, яка також має інформаційну панель із додатковими інструментами редагування. Плани на майбутнє включають API, а також підхід до обробки в реальному часі. (Прямо зараз BodyTalk працює «майже в реальному часі», для обробки відео потрібні хвилини, сказав Пікарц.)
«Ми використовуємо найкраще у своєму роді, де це доречно», — сказав П’єкарц про використання компанією великих сторонніх мовних моделей та інших інструментів. «І ми створюємо власні моделі штучного інтелекту там, де ринок насправді не має рішення».
Прикладом цього є синхронізація губ компанії, продовжив він. «Увесь наш механізм синхронізації губ працює нашою дослідницькою групою штучного інтелекту, тому що ми не знайшли нічого, що було б близько до рівня та якості багатьох динаміків, кутів і всіх професійних кейсів, які ми хочемо підтримувати».
Зараз він зосереджений лише на B2B. Серед клієнтів JFrog і медіаорганізація TED. Компанія планує розширити свою діяльність у медіа, особливо в таких сферах, як спорт, освіта, маркетинг, охорона здоров’я та медицина.
Отримані відео перекладу дуже незвичайні, на відміну від того, що ви отримуєте з deepfakes, хоча Piekarz відкидає цей термін, який за роки набув негативних конотацій, які є прямо протилежними цільовому ринку стартапу.
«Діпфейк — це не те, що нас цікавить», — сказав він. «Ми намагаємося уникати цієї всієї назви». Натомість, сказав він, думайте про Панджаю як про частину «глибокого реального класу».
Орієнтуючись лише на ринок B2B і контролюючи, хто має доступ до його інструментів, компанія створює «огорожі» навколо технології для захисту від зловживання, додав він. Він також вважає, що в довгостроковій перспективі буде створено більше інструментів, включаючи водяні знаки, щоб допомогти виявити, коли будь-які відео були змінені для створення синтетичних носіїв, як законних, так і шкідливих. “Ми точно хочемо бути частиною цього і не допускати дезінформації”, – сказав він.
Не дуже дрібний шрифт
Існує низка стартапів, які конкурують з Panjaya в ширшій сфері перекладу відео зі штучним інтелектом, включаючи такі гучні імена, як Vimeo та Eleven Labs, а також менші гравці, такі як Speechify і Synthesis. Для всіх них пошук шляхів покращення роботи компіляції схожий на плив проти сильної течії. Це тому, що субтитри стали дуже стандартною частиною споживання відео в наші дні.
На телебаченні це пов’язано з багатьма причинами, зокрема поганими динаміками, фоновим шумом у нашому насиченому житті, бурмотінням акторів, обмеженим бюджетом виробництва та більшою кількістю звукових ефектів. Під час опитування американських телеглядачів CBS виявила, що більше половини з них тримають субтитри «деякий (21%) або весь (34%) час».
Але деякі люди люблять підписи лише тому, що їх цікаво читати, і навколо них створено цілий культ.
У соціальних мережах та інших програмах субтитри просто інтегруються в роботу. Наприклад, у листопаді 2023 року TikTok запустив субтитри за замовчуванням у всіх відео.
Проте міжнародний ринок дубльованого контенту залишається величезним, і хоча англійська мова часто вважається мовою Інтернету, дослідницькі групи, як-от CSA, свідчать про те, що вміст, наданий рідною мовою, краще залучає, особливо в контексті. B2B. Причина Панджаї полягає в тому, що більше вмісту рідною мовою може стати ще кращим.
Деякі з її клієнтів, здається, підтримують цю теорію. TED каже, що доповіді, озвучені за допомогою інструментів Панджаї, збільшили кількість переглядів на 115%, причому відсоток завершених перекладених відео подвоївся.