[ad_1]
Люди наблюдают за миром с помощью комбинации различных модальностей, таких как зрение, слух и наше понимание языка. С другой стороны, машины интерпретируют мир с помощью данных, которые могут обрабатывать алгоритмы.
Таким образом, когда машина «видит» фотографию, она должна кодировать эту фотографию в данные, которые она может использовать для выполнения такой задачи, как классификация изображений. Этот процесс усложняется, когда входные данные поступают в нескольких форматах, таких как видео, аудиоклипы и изображения.
«Главная проблема здесь заключается в том, как машина может согласовать эти разные модальности? Нам, людям, это легко. Мы видим машину, а затем слышим звук проезжающей мимо машины, и мы знаем, что это одно и то же. Но для машинного обучения все не так просто», — говорит Александр Лю, аспирант Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и первый автор статьи, посвященной этой проблеме.
Лю и его сотрудники разработали метод искусственного интеллекта, который учится представлять данные таким образом, чтобы улавливать понятия, которые являются общими для визуальных и звуковых модальностей. Например, их метод может узнать, что действие плача ребенка в видео связано с произнесенным словом «плач» в аудиоклипе.
Используя эти знания, их модель машинного обучения может определить, где в видео происходит определенное действие, и пометить его.
Он работает лучше, чем другие методы машинного обучения, в кросс-модальных задачах поиска, которые включают поиск фрагмента данных, например видео, который соответствует запросу пользователя, заданному в другой форме, например, в устной речи. Их модель также облегчает пользователям понимание того, почему машина считает, что полученное видео соответствует их запросу.
Этот метод может когда-нибудь использоваться, чтобы помочь роботам узнавать о понятиях в мире через восприятие, больше похожее на то, как это делают люди.
В газете к Лю присоединились постдок CSAIL СуЁн Джин; аспиранты Ченг-И Джефф Лай и Эндрю Рудитченко; Од Олива, старший научный сотрудник CSAIL и директор MIT-IBM Watson AI Lab; и старший автор Джеймс Гласс, старший научный сотрудник и руководитель группы систем разговорного языка в CSAIL. Исследование будет представлено на ежегодном собрании Ассоциации компьютерной лингвистики.
Образовательные представления
Исследователи сосредоточили свою работу на репрезентативном обучении, которое представляет собой форму машинного обучения, направленную на преобразование входных данных, чтобы упростить выполнение таких задач, как классификация или прогнозирование.
Модель обучения представлению берет необработанные данные, такие как видео и соответствующие им текстовые подписи, и кодирует их, извлекая признаки или наблюдения за объектами и действиями в видео. Затем он отображает эти точки данных в сетке, известной как пространство встраивания. Модель группирует похожие данные вместе как отдельные точки в сетке. Каждая из этих точек данных или векторов представлена отдельным словом.
Например, видеоклип жонглирующего человека может быть сопоставлен с вектором, помеченным как «жонглирование».
Исследователи ограничивают модель, чтобы она могла использовать только 1000 слов для маркировки векторов. Модель может решить, какие действия или концепции она хочет закодировать в один вектор, но она может использовать только 1000 векторов. Модель выбирает слова, которые, по ее мнению, лучше всего представляют данные.
Вместо того, чтобы кодировать данные из разных модальностей в отдельные сетки, их метод использует общее пространство встраивания, где две модальности могут быть закодированы вместе. Это позволяет модели изучать взаимосвязь между репрезентациями двух модальностей, таких как видео, показывающее, как человек жонглирует, и аудиозапись того, как кто-то говорит «жонглирует».
Чтобы помочь системе обрабатывать данные из нескольких модальностей, они разработали алгоритм, который направляет машину для кодирования схожих концепций в один и тот же вектор.
«Если есть видео о свиньях, модель может присвоить слово «свинья» одному из 1000 векторов. Затем, если модель слышит, как кто-то произносит слово «свинья» в аудиоклипе, она все равно должна использовать тот же вектор для его кодирования», — объясняет Лю.
Лучший ретривер
Они протестировали модель на кросс-модальных задачах поиска, используя три набора данных: набор данных видео-текста с видеоклипами и текстовыми подписями, набор данных видео-аудио с видеоклипами и звуковыми субтитрами и набор данных изображения-аудио с изображениями и разговорным звуком. подписи.
Например, в наборе данных видео-аудио модель выбрала 1000 слов для представления действий в видео. Затем, когда исследователи скармливали ему аудиозапросы, модель пыталась найти клип, который лучше всего соответствует этим произнесенным словам.
«Точно так же, как при поиске в Google, вы вводите какой-то текст, и машина пытается подсказать вам наиболее релевантные вещи, которые вы ищете. Только мы делаем это в векторном пространстве», — говорит Лю.
Мало того, что их метод с большей вероятностью находил лучшие совпадения, чем модели, с которыми они его сравнивали, он также был легче для понимания.
Поскольку модель может использовать всего 1000 слов для маркировки векторов, пользователь может легче увидеть, какие слова использовала машина, чтобы сделать вывод о том, что видео и произносимые слова похожи. По словам Лю, это может упростить применение модели в реальных ситуациях, когда крайне важно, чтобы пользователи понимали, как она принимает решения.
У модели все еще есть некоторые ограничения, которые они надеются устранить в будущей работе. Во-первых, их исследования были сосредоточены на данных двух модальностей одновременно, но в реальном мире люди одновременно сталкиваются со многими модальностями данных, говорит Лю.
«И мы знаем, что 1000 слов работают с таким набором данных, но мы не знаем, можно ли это обобщить до реальной проблемы», — добавляет он.
Кроме того, изображения и видео в их наборах данных содержали простые объекты или простые действия; реальные данные гораздо более беспорядочны. Они также хотят определить, насколько хорошо их метод масштабируется при наличии более широкого разнообразия входных данных.
Это исследование было частично поддержано Лабораторией искусственного интеллекта Watson AI Lab MIT-IBM и ее компаниями-членами, Neexplore и Woodside, а также лабораторией Линкольна MIT.
[ad_2]
Source