Как искусственный интеллект помог Вэлу Килмеру вернуть голос в Top Gun Maverick

[ad_1]

How A.I. helped Val Kilmer get his voice back for Top Gun Maverick — Предоставлено: Питер Прихарски/Unsplash.

Спойлер: не читайте, если не смотрели «Лучший стрелок: Маверик».

Долгожданный сиквел блокбастера 1986 года Тома Круза разбил все ожидания с тех пор, как он был запущен в кинотеатрах 27 мая и достиг 160 миллионов долларов на внутреннем прокате.

Высоколетящие, практически снятые боевые сцены с реактивным самолетом и неподражаемая звездная сила Круза заставили толпы встать на ноги.

Но возвращение Вэла Килмера в роли Тома «Ледяного человека» Казанского стало для многих неоспоримым событием. И все это благодаря искусственному интеллекту.

В «Лучшем стрелке: Маверик» внешний вид Килмера был под большим вопросом. Актер потерял способность говорить после лечения рака горла в 2014 году.

Вместо того, чтобы исключить Айсмена и Килмера из долгожданного сиквела, сценаристы вплели историю Килмера в персонажа.

В «Лучшем стрелке: Маверик» Айсмен тоже болен раком и большую часть своего короткого времени в фильме общается с Мавериком, печатая.

Однако у Килмера есть одна эмоциональная линия диалога, которая потребовала уникального партнерства между Килмером и Sonantic, компанией по синтезу голоса.

Sonantic, с которым Килмер ранее сотрудничал в 2021 году для другого проекта, через ИИ передал часы архивных записей Килмера, чтобы создать голосовую модель, которая является вокальным клоном актера.

Использование этой технологии стало настоящим ударом для Рупала Пателя, северо-восточного профессора в области коммуникативных наук и расстройств.

Патель много работала с технологией синтеза голоса, и почти сразу после того, как фильм попал в кинотеатры, ее телефон начал отключаться. Ее работа в Лаборатории коммуникационного анализа и дизайна и в ее дочерней компании VocaliD использует эту технологию для воссоздания голосов для тех, кто их потерял или у кого их никогда не было.

Патель сказал, что работа Sonantic с Килмером возможна только благодаря быстрому развитию технологий синтеза вокала за последнее десятилетие.

То, что раньше было трудоемким и дорогостоящим процессом, требующим часов записанного или архивированного звука для создания или восстановления голоса, стало более рациональным и продвинутым, чем когда-либо прежде.

«За последние 10 лет были достигнуты все эти успехи в машинном обучении, которые позволяют нам теперь брать меньше аудио — может быть, около часа аудио, а иногда даже меньше — и передавать его в нейронную сеть», — Патель. сказал. «Затем эта нейронная сеть учится говорить, как этот человек».

По словам Пателя, Sonantic, скорее всего, использовала подход преобразования текста в речь для «Top Gun: Maverick». При преобразовании текста в речь ранее записанный звук или звук от вокального донора используется в качестве основы вокальной модели.

В данном случае Килмер предоставил часы архивных материалов, которые, по сути, помогли обучить нейронную модель клонировать его голос. Однако записи не содержали достаточного количества звука для создания точной модели, как написала Sonantic в своем блоге о своем первоначальном сотрудничестве с Килмером.

В конечном итоге Sonantic заявила, что «создала более 40 различных моделей голоса и выбрала самую лучшую, самую качественную и самую выразительную». Оттуда креативщики взяли модель голоса, накормили ее диалогами и вручную отрегулировали производительность.

Появление Килмера в «Лучшем стрелке: Маверик» довело зрителей до слез, но Патель сказал, что зрители пока не должны ожидать достойной Оскара работы от озвучивания с помощью искусственного интеллекта.

«Это займет какое-то время, но то, что мы видим сегодня по сравнению даже с пятью годами ранее, — это огромная разница, потому что машинное обучение перегрузило эту область таким образом, что мы никогда не могли себе представить», — сказал Патель.

Использование голосового синтеза в Top Gun: Maverick и даже в The Mandalorian — это только верхушка айсберга, когда речь идет о технологии. Синтезированные голоса повсюду, даже если большинство людей этого не осознают, сказал Патель. Это выходит за рамки виртуальных помощников, таких как Siri от Apple и Alexa от Amazon; синтезированные голоса теперь используются в телемаркетинге, рекламе, аудиокнигах и даже на радио.

Однако, как и в случае с любой новой технологией, Патель призвал к осторожности при рассмотрении ее использования — и неправильного использования. В 2020 году кибер-мошенники озвучили директора компании, чтобы совершить ограбление банка на 35 миллионов долларов, но потенциальные этические ловушки выходят за рамки преступной деятельности. Есть также вопросы о том, как гарантировать добросовестное использование и гонорары актерам озвучивания.

«Очень важно, чтобы компании, которые создают голосовые клоны, действительно имели место за столом переговоров, чтобы понять, как предотвратить неправомерное использование этой технологии и злоупотребление ею», — сказал Патель. «Согласие действительно важно. Понимание вариантов использования действительно важно».

VocaliD и Modulate Пателя, еще одна бостонская компания, создали Aithos Coalition, чтобы гарантировать, что синтетические медиатехнологии используются этично и не создают «больших ловушек в будущем», сказал Патель.

По ее словам, взвешенный, многосторонний подход к будущему этой технологии принесет свои плоды, особенно по мере того, как синтез голоса продолжает развиваться.

«Если последние несколько лет диктуют, куда мы идем, грань между человеком и виртуальным будет становиться все более и более размытым», — сказал Патель.

Автор Коди Мелло-Кляйн.

[ad_2]

Source

Добавить комментарий Отменить ответ