[ad_1]
От «Звездных войн» до «Делай ноги» — многие любимые фильмы содержат сцены, которые стали возможными благодаря технологии захвата движения, которая записывает движение объектов или людей с помощью видео. Кроме того, приложения для этого отслеживания, которые включают сложные взаимодействия между физикой, геометрией и восприятием, распространяются не только на Голливуд, но и на военные, спортивные тренировки, медицинские области, компьютерное зрение и робототехнику, позволяя инженерам понимать и моделировать действия, происходящие в реальном мире. среды.
Поскольку это может быть сложным и дорогостоящим процессом — часто требующим размещения маркеров на объектах или людях и записи последовательности действий — исследователи работают над тем, чтобы переложить бремя на нейронные сети, которые могли бы получать эти данные из простого видео и воспроизводить их в модели. . Работа в области физического моделирования и рендеринга показывает, что это обещает сделать его более широко используемым, поскольку он может характеризовать реалистичное, непрерывное, динамическое движение изображений и преобразовывать туда и обратно между 2D-рендерингом и 3D-сценой в мире. Однако для этого современные методы требуют точного знания условий окружающей среды, в которых происходит действие, и выбора средства визуализации, которые часто недоступны.
Теперь команда исследователей из Массачусетского технологического института и IBM разработала конвейер обученной нейронной сети, который позволяет избежать этой проблемы, с возможностью делать выводы о состоянии окружающей среды и происходящих действиях, физических характеристиках объекта или интересующего человека (системы). , и его управляющие параметры. При тестировании этот метод может превзойти другие методы в моделировании четырех физических систем твердых и деформируемых тел, которые иллюстрируют различные типы динамики и взаимодействия в различных условиях окружающей среды. Кроме того, методология позволяет проводить имитационное обучение — прогнозировать и воспроизводить траекторию реального летающего квадрокоптера по видео.
«Исследовательская проблема высокого уровня, которой посвящена эта статья, заключается в том, как реконструировать цифрового двойника из видео динамической системы», — говорит Тао Ду, доктор философии 21 года, постдоктор кафедры электротехники и компьютерных наук (EECS), член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и член исследовательской группы. Чтобы сделать это, говорит Ду, «нам нужно игнорировать различия в рендеринге видеоклипов и попытаться уловить основную информацию о динамической системе или динамическом движении».
Среди соавторов Ду ведущий автор Пинчуан Ма, аспирант EECS и член CSAIL; Джош Тененбаум, профессор карьеры Пола Э. Ньютона в области когнитивных наук и вычислений на факультете мозга и когнитивных наук и член CSAIL; Войцех Матусик, профессор электротехники и информатики, член CSAIL; и главный научный сотрудник MIT-IBM Watson AI Lab Чуанг Ган. Эта работа была представлена на этой неделе Международной конференции по обучению представлений.
Запись видео с персонажами, роботами или динамическими системами для определения динамического движения делает эту информацию более доступной, но также создает новую проблему. «Изображения или видео [and how they are rendered] во многом зависят от условий освещения, информации о фоне, информации о текстуре, информации о материалах вашей среды, и это не обязательно поддается измерению в реальном сценарии», — говорит Ду. Без этой информации о конфигурации рендеринга или сведений о том, какой модуль рендеринга используется, в настоящее время сложно собрать динамическую информацию и предсказать поведение субъекта видео. Даже если средство визуализации известно, современные подходы к нейронным сетям по-прежнему требуют больших наборов обучающих данных. Однако с их новым подходом это может стать спорным вопросом. «Если вы снимаете бег леопарда утром и вечером, конечно, вы получите визуально разные видеоклипы, потому что условия освещения совсем другие. Но что вас действительно волнует, так это динамическое движение: углы суставов леопарда — не важно, выглядят ли они светлыми или темными», — говорит Ду.
Чтобы устранить проблемы с доменами рендеринга и различиями изображений, команда разработала конвейерную систему, содержащую нейронную сеть, получившую название «сеть с инвариантным прогнозированием состояния рендеринга (RISP)». RISP преобразует различия в изображениях (пикселях) в различия в состояниях системы — т. е. среды действия — делая их метод обобщаемым и независимым от конфигураций рендеринга. RISP обучается с использованием случайных параметров и состояний рендеринга, которые передаются в дифференцируемый рендерер, тип рендерера, который измеряет чувствительность пикселей по отношению к конфигурациям рендеринга, например, цветам освещения или материалов. Это генерирует набор различных изображений и видео на основе известных параметров достоверности, которые позже позволят RISP обратить этот процесс вспять, прогнозируя состояние окружающей среды на основе входного видео. Команда дополнительно минимизировала градиенты рендеринга RISP, чтобы его прогнозы были менее чувствительны к изменениям в конфигурациях рендеринга, что позволило научиться забывать о визуальном внешнем виде и сосредоточиться на изучении динамических состояний. Это стало возможным благодаря дифференцируемому рендереру.
Затем метод использует два аналогичных конвейера, работающих параллельно. Один для исходного домена с известными переменными. Здесь системные параметры и действия вводятся в дифференцируемое моделирование. Сгенерированные состояния моделирования объединяются с различными конфигурациями рендеринга в дифференцируемый модуль рендеринга для создания изображений, которые передаются в RISP. Затем RISP выводит прогнозы состояния окружающей среды. В то же время аналогичный конвейер целевого домена запускается с неизвестными переменными. RISP в этом конвейере получает эти выходные изображения, создавая прогнозируемое состояние. При сравнении прогнозируемых состояний исходного и целевого доменов возникает новая потеря; эта разница используется для настройки и оптимизации некоторых параметров в конвейере исходного домена. Затем этот процесс можно повторить, еще больше уменьшив потери между конвейерами.
Чтобы определить успех своего метода, команда проверила его на четырех смоделированных системах: квадрокоптер (летающее твердое тело, не имеющее физического контакта), куб (твердое тело, взаимодействующее с окружающей средой, как кубик). , шарнирная рука и стержень (деформируемое тело, способное двигаться как змея). Задачи включали оценку состояния системы по изображению, идентификацию параметров системы и сигналов управления действиями по видео, а также обнаружение сигналов управления по целевому изображению, которые направляют систему в желаемое состояние. Кроме того, они создали базовые линии и оракул, сравнивая новый процесс RISP в этих системах с аналогичными методами, в которых, например, отсутствуют потери градиента рендеринга, не обучаются нейронные сети с какими-либо потерями или вообще отсутствуют нейронные сети RISP. Команда также рассмотрела, как потеря градиента повлияла на производительность модели прогнозирования состояния с течением времени. Наконец, исследователи развернули свою систему RISP, чтобы сделать вывод о движении реального квадрокоптера, который имеет сложную динамику, из видео. Они сравнили производительность с другими методами, в которых отсутствовала функция потерь и использовались различия в пикселях, или с методами, которые включали ручную настройку конфигурации средства визуализации.
Почти во всех экспериментах процедура RISP превосходила аналогичные или самые современные доступные методы, имитируя или воспроизводя желаемые параметры или движение, и доказывая, что она является эффективным по данным и обобщаемым конкурентом текущих подходов захвата движения.
Для этой работы исследователи сделали два важных предположения: известна информация о камере, такая как ее положение и настройки, а также геометрия и физика, управляющие отслеживаемым объектом или человеком. Дальнейшая работа запланирована для решения этой проблемы.
«Я думаю, что самая большая проблема, которую мы здесь решаем, — это преобразование информации из одной области в другую без очень дорогого оборудования», — говорит Ма. Такой подход должен быть «полезным для [applications such as the] метавселенная, целью которой является воссоздание физического мира в виртуальной среде», — добавляет Ган. «По сути, это повседневное доступное решение, аккуратное и простое, для междоменной реконструкции или обратной задачи динамики», — говорит Ма.
Это исследование было частично поддержано лабораторией MIT-IBM Watson AI Lab, Neexplore, программой DARPA Machine Common Sense, Управлением военно-морских исследований (ONR), ONR MURI и Mitsubishi Electric.
[ad_2]
Source