[ad_1]
Люди довольно хорошо смотрят на одно двухмерное изображение и понимают всю трехмерную сцену, которую оно захватывает. Агентов искусственного интеллекта нет.
Тем не менее, машина, которая должна взаимодействовать с объектами в мире – например, робот, предназначенный для сбора урожая или оказания помощи в хирургии – должна иметь возможность делать выводы о свойствах 3D-сцены из наблюдений за 2D-изображениями, на которых она обучается.
Хотя ученые добились успеха с использованием нейронных сетей для вывода представлений трехмерных сцен из изображений, эти методы машинного обучения недостаточно быстры, чтобы сделать их применимыми для многих реальных приложений.
Новый метод, продемонстрированный исследователями из Массачусетского технологического института и других организаций, позволяет отображать трехмерные сцены из изображений примерно в 15 000 раз быстрее, чем некоторые существующие модели.
Этот метод представляет сцену в виде светового поля на 360 градусов, которое представляет собой функцию, описывающую все световые лучи в трехмерном пространстве, проходящие через каждую точку и во всех направлениях. Световое поле кодируется в нейронную сеть, что позволяет ускорить рендеринг базовой 3D-сцены из изображения.
Разработанные исследователями сети светового поля (LFN) могут реконструировать световое поле только после однократного наблюдения за изображением, и они могут визуализировать 3D-сцены с частотой кадров в реальном времени.
«В конце концов, большое обещание этих нейронных репрезентаций сцены состоит в том, чтобы использовать их в задачах по зрению. Я даю вам изображение, и из этого изображения вы создаете представление сцены, а затем все, что вы хотите рассуждать о себе, делаете в пространстве этой трехмерной сцены », – говорит Винсент Зицманн, постдок из Лаборатории компьютерных наук и искусственного интеллекта. (CSAIL) и соавтор статьи.
Зицманн написал статью с соавтором Семоном Резчиковым, доктором Гарвардского университета; Уильям Т. Фриман, профессор электротехники и компьютерных наук Томаса и Герда Перкинсов, член CSAIL; Джошуа Б. Тененбаум, профессор вычислительной когнитивной науки факультета мозга и когнитивных наук и член CSAIL; и старший автор Фредо Дюран, профессор электротехники и информатики и член CSAIL. Исследование будет представлено на конференции по системам обработки нейронной информации в этом месяце.
Картирование лучей
В компьютерном зрении и компьютерной графике рендеринг трехмерной сцены из изображения включает отображение тысяч или, возможно, миллионов лучей камеры. Подумайте о лучах камеры, как о лазерных лучах, выходящих из объектива камеры и поражающих каждый пиксель изображения, по одному лучу на пиксель. Эти компьютерные модели должны определять цвет пикселя, на который попадает каждый луч камеры.
Многие современные методы достигают этого путем взятия сотен образцов по длине каждого луча камеры, когда он движется в пространстве, что является дорогостоящим в вычислительном отношении процессом, который может привести к медленному рендерингу.
Вместо этого LFN учится представлять световое поле трехмерной сцены, а затем напрямую сопоставляет каждый луч камеры в световом поле с цветом, который наблюдается этим лучом. LFN использует уникальные свойства световых полей, которые позволяют визуализировать луч только после однократной оценки, поэтому LFN не нужно останавливаться по длине луча для выполнения вычислений.
«С другими методами, когда вы делаете этот рендеринг, вы должны следовать за лучом, пока не найдете поверхность. Вы должны сделать тысячи образцов, потому что именно это означает найти поверхность. И вы еще даже не закончили, потому что могут быть сложные вещи, такие как прозрачность или отражения. В случае светового поля, как только вы реконструируете световое поле, что представляет собой сложную проблему, для рендеринга одного луча требуется всего лишь один образец представления, потому что представление напрямую отображает луч в его цвет », – говорит Зицманн.
LFN классифицирует каждый луч камеры, используя его «координаты Плюккера», которые представляют линию в трехмерном пространстве в зависимости от ее направления и того, как далеко она находится от исходной точки. Система вычисляет координаты Плюккера каждого луча камеры в точке, где он попадает в пиксель для рендеринга изображения.
Отображая каждый луч с использованием координат Плюккера, LFN также может вычислять геометрию сцены из-за эффекта параллакса. Параллакс – это разница в видимом положении объекта при просмотре с двух разных линий зрения. Например, если вы поворачиваете голову, объекты, находящиеся дальше, кажутся менее подвижными, чем объекты, находящиеся ближе. LFN может определять глубину объектов в сцене из-за параллакса и использует эту информацию для кодирования геометрии сцены, а также ее внешнего вида.
Но для восстановления световых полей нейронная сеть должна сначала узнать о структуре световых полей, поэтому исследователи обучили свою модель множеству изображений простых сцен с автомобилями и стульями.
«Существует внутренняя геометрия световых полей, которую наша модель пытается изучить. Вы можете беспокоиться о том, что световые поля машин и стульев настолько разные, что вы не можете усвоить какую-то общность между ними. Но оказывается, что если вы добавляете больше видов объектов, пока есть некоторая однородность, вы лучше и лучше понимаете, как выглядят световые поля общих объектов, так что вы можете делать обобщения о классах », – говорит Резчиков.
Как только модель узнает структуру светового поля, она может визуализировать 3D-сцену только из одного изображения в качестве входных данных.
Быстрый рендеринг
Исследователи протестировали свою модель, реконструировав 360-градусные световые поля нескольких простых сцен. Они обнаружили, что LFN могут отображать сцены со скоростью более 500 кадров в секунду, что примерно на три порядка быстрее, чем другие методы. Кроме того, трехмерные объекты, визуализированные LFN, часто были более четкими, чем объекты, созданные другими моделями.
LFN также менее интенсивно использует память, требуя всего около 1,6 мегабайт памяти, в отличие от 146 мегабайт для популярного базового метода.
«Световые поля предлагались раньше, но тогда они были трудноразрешимыми. Теперь, с помощью техник, которые мы использовали в этой статье, вы впервые можете представить эти световые поля и работать с этими световыми полями. Это интересная конвергенция математических моделей и моделей нейронных сетей, которые мы разработали, объединившись в этом приложении для представления сцен, чтобы машины могли их рассуждать », – говорит Зицманн.
В будущем исследователи хотели бы сделать свою модель более надежной, чтобы ее можно было эффективно использовать для сложных реальных сцен. По словам Зицманна, один из способов продвинуть LFN вперед – это сосредоточиться только на реконструкции определенных участков светового поля, что может позволить модели работать быстрее и лучше в реальных условиях.
«Нейронный рендеринг недавно сделал возможным фотореалистичный рендеринг и редактирование изображений только из небольшого набора входных представлений. К сожалению, все существующие методы очень дороги в вычислительном отношении, что не позволяет приложениям, требующим обработки в реальном времени, например видеоконференцсвязи. Этот проект делает большой шаг к новому поколению вычислительно эффективных и математически элегантных алгоритмов нейронного рендеринга », – говорит Гордон Ветцштейн, доцент кафедры электротехники Стэнфордского университета, не принимавший участия в этом исследовании. «Я ожидаю, что он найдет широкое применение в компьютерной графике, компьютерном зрении и не только».
Эта работа поддерживается Национальным научным фондом, Управлением военно-морских исследований, Mitsubishi, Агентством перспективных оборонных исследовательских проектов и Агентством оборонной науки и технологий Сингапура.
[ad_2]
Source