Нова технологія клонування голосу занадто небезпечна: OpenAI відкладає її запуск

Автор Iryna оновлено 1 Кві, 2024

Компанія OpenAI розробила інструмент, здатний створити переконливий клон голосу будь-якої людини. Всього 15 секунд записаного аудіо достатньо для Voice Engine, щоб відтворити почутий голос. Але цю технологію було визнано занадто ризикованою для загального випуску.

Voice Engine було вперше створено у 2022 році, і початкова версія, вбудована в ChatGPT, використовувалася для перетворення тексту в мовлення. Але справжню потужність інструменту не розкривали публічно. Зокрема, через «обережний та поінформований» підхід, який OpenAI використовує для більш широкого випуску. Компанія бачить небезпеку у широкому використанні синтетичних голосів.

У своєму блозі компанія поділилася прикладами того, як партнери, які отримали доступ до технології, використовують її.

Так, фірма освітніх технологій Age of Learning використовує інструмент для створення сценарію озвучування, а додаток HeyGen може створювати переклади записаного контенту, зберігаючи акцент і голос оригінального оратора. Наприклад, генерування англійської мови з аудіо зразком від франкомовної людини дає мову з французьким акцентом.

Дослідники з Інституту нейронаук Нормана Принса в Род-Айленді використали неякісний 15-секундний кліп молодої жінки, яка виступає з презентацією на шкільному проекті, щоб «відновити» голос, який вона втратила через хворобу.

«Ми вибираємо попередній перегляд, але не будемо широко випускати цю технологію на даний момент», — пояснює компанія OpenAI.

⚡ Читають прямо зараз

Абонентів “lifecell” з 21 січня 2026 року чекають зміни в…

Січ 14, 2026

Як працює мобільний зв’язок під час відключень світла: Київстар…

Лис 26, 2025

Компанія наголошує, що потрібно поступово відмовлятися від використання голосової автентифікації як засобу безпеки. Наприклад, для доступу до банківських рахунків та іншої конфіденційної інформації.

OpenAI також закликає «навчати громадськість розуміти можливості та обмеження технологій ШІ, включаючи можливість оманливого контенту ШІ».

За словами OpenAI, покоління Voice Engine мають водяні знаки, що дозволяє організації відстежувати походження будь-якого згенерованого аудіо. Додається також, що «наші умови з цими партнерами вимагають чіткої та інформованої згоди від оригінального спікера, і ми не дозволяємо розробникам створювати способи для окремих користувачів створювати власні голоси».

Інструмент OpenAI дійсно виділяється технічною простотою та невеликою кількістю оригінального аудіо, необхідного для створення переконливого клону, але ця технологія – не єдина. Вже існують конкурентні інструменти, які доступні для громадськості.

Такі компанії, як ElevenLabs, можуть створити повний голосовий клон, маючи лише «кілька хвилин аудіо». Щоб спробувати зменшити шкоду від подібних технологій, компанія запровадила запобіжний засіб «заборонених голосів». Він призначений для виявлення та запобігання створенню голосових клонів, які імітують політичних кандидатів, що беруть активну участь у виборах. В тому числі мова йде про кандидатів у США та Великій Британії.

Підпишись на нас в Google НОВИНИ, та отримуй більше свіжих новин!

Джерело The Guardian