[ad_1]
Возможно, компьютерное зрение и человеческое зрение имеют больше общего, чем кажется на первый взгляд?
Исследования Массачусетского технологического института показывают, что определенный тип надежной модели компьютерного зрения воспринимает визуальные представления так же, как люди делают это с помощью периферийного зрения. Эти модели, известные как устойчивые к состязательности модели, предназначены для преодоления тонких битов шума, которые были добавлены к данным изображения.
Исследователи обнаружили, что способ, которым эти модели учатся преобразовывать изображения, аналогичен некоторым элементам, участвующим в периферийной обработке человека. Но поскольку машины не имеют визуальной периферии, мало работы над моделями компьютерного зрения было сосредоточено на периферийной обработке, говорит старший автор Артуро Деза, постдоктор в Центре мозга, разума и машин.
«Похоже, что периферийное зрение и текстурные представления, которые там происходят, оказались весьма полезными для человеческого зрения. Итак, мы подумали: «Хорошо, может быть, в машинах тоже есть какое-то применение», — говорит ведущий автор Энн Харрингтон, аспирант кафедры электротехники и компьютерных наук.
Результаты показывают, что разработка модели машинного обучения, включающая некоторую форму периферийной обработки, может позволить модели автоматически обучаться визуальным представлениям, устойчивым к некоторым тонким манипуляциям с данными изображения. Эта работа также может помочь пролить свет на цели периферической обработки данных у людей, которые до сих пор не совсем понятны, добавляет Деза.
Исследование будет представлено на Международной конференции по обучающим представлениям.
Двойное зрение
И люди, и системы компьютерного зрения обладают так называемым фовеальным зрением, которое используется для тщательного изучения объектов с высокой детализацией. Люди также обладают периферийным зрением, которое используется для организации широкой пространственной сцены. По словам Деза, типичные подходы к компьютерному зрению пытаются смоделировать фовеальное зрение — именно так машина распознает объекты — и, как правило, игнорируют периферийное зрение.
Но фовеальные системы компьютерного зрения уязвимы для враждебного шума, который злоумышленник добавляет к данным изображения. При состязательной атаке вредоносный агент тонко модифицирует изображения так, что каждый пиксель изменяется очень незначительно — человек не заметит разницы, но шума достаточно, чтобы обмануть машину. Например, изображение может выглядеть для человека как автомобиль, но если на него воздействует шум противника, модель компьютерного зрения может с уверенностью ошибочно классифицировать его, скажем, как торт, что может иметь серьезные последствия для автономного транспортного средства.
Чтобы преодолеть эту уязвимость, исследователи проводят так называемое состязательное обучение, при котором они создают изображения, обработанные состязательным шумом, передают их в нейронную сеть, а затем исправляют ее ошибки путем перемаркировки данных и повторного обучения модели.
«Простое выполнение этого дополнительного процесса перемаркировки и обучения, кажется, дает большую согласованность восприятия с обработкой человеком», — говорит Деза.
Он и Харрингтон задались вопросом, надежны ли эти обученные противнику сети, потому что они кодируют представления объектов, подобные человеческому периферическому зрению. Поэтому они разработали серию психофизических экспериментов на людях, чтобы проверить свою гипотезу.
Экранное время
Они начали с набора изображений и использовали три разные модели компьютерного зрения, чтобы синтезировать представления этих изображений из шума: «нормальную» модель машинного обучения, одну, которая была обучена быть устойчивой к злоумышленникам, и одну, которая была специально разработана для учитывают некоторые аспекты периферийной обработки человека, называемые Texforms.
Команда использовала эти сгенерированные изображения в серии экспериментов, в которых участников просили различать исходные изображения и представления, синтезированные каждой моделью. В некоторых экспериментах люди также заставляли людей различать разные пары случайно синтезированных изображений из одних и тех же моделей.
Участники сосредоточили свои глаза на центре экрана, в то время как изображения вспыхивали на дальних сторонах экрана, в разных местах на их периферии. В одном эксперименте участники должны были идентифицировать странное изображение в серии изображений, которые мигали всего миллисекунды за раз, в то время как в другом они должны были сопоставить изображение, представленное в их ямке, с двумя изображениями-кандидатами-шаблонами, размещенными на их периферии. .
Когда синтезированные изображения были показаны на дальней периферии, участники в основном не могли отличить оригинал для модели, защищенной от состязательности, от модели Texform. Это не относится к стандартной модели машинного обучения.
Однако, возможно, самым поразительным результатом является то, что схема ошибок, которые совершают люди (в зависимости от того, где стимулы приземляются на периферии), в значительной степени выровнена во всех экспериментальных условиях, в которых используются стимулы, полученные из модели Texform и состязательной модели. надежная модель. Эти результаты свидетельствуют о том, что устойчивые к сопротивлению модели действительно охватывают некоторые аспекты периферийной обработки человека, объясняет Деза.
Исследователи также рассчитали конкретные эксперименты по машинному обучению и показатели оценки качества изображения, чтобы изучить сходство между изображениями, синтезированными каждой моделью. Они обнаружили, что модели, созданные устойчивой к состязаниям моделью и моделью Texforms, были наиболее похожими, что предполагает, что эти модели вычисляют аналогичные преобразования изображений.
«Мы проливаем свет на то, как люди и машины совершают одни и те же ошибки и почему», — говорит Деза. Почему возникает состязательная устойчивость? Есть ли биологический эквивалент противоборствующей устойчивости машин, который мы еще не обнаружили в мозгу?»
Деза надеется, что эти результаты вдохновят на дополнительную работу в этой области и побудят исследователей компьютерного зрения рассмотреть возможность создания более биологических моделей.
Эти результаты можно использовать для разработки системы компьютерного зрения с некой эмулируемой визуальной периферией, которая могла бы автоматически сделать ее устойчивой к враждебному шуму. Работа также может помочь в разработке машин, способных создавать более точные визуальные представления, используя некоторые аспекты обработки периферии человека.
«Мы могли бы даже узнать о человеческом зрении, пытаясь получить определенные свойства от искусственных нейронных сетей», — добавляет Харрингтон.
Предыдущая работа показала, как изолировать «надежные» части изображений, где модели обучения на этих изображениях сделали их менее восприимчивыми к сбоям со стороны злоумышленников. Эти надежные изображения выглядят как зашифрованные версии реальных изображений, объясняет Томас Уоллис, профессор восприятия в Институте психологии и Центре когнитивных наук Технического университета Дармштадта.
«Почему эти надежные изображения выглядят именно так? Харрингтон и Деза используют тщательные поведенческие эксперименты с людьми, чтобы показать, что способность людей видеть разницу между этими изображениями и оригинальными фотографиями на периферии качественно аналогична способности изображений, созданных с помощью биологически вдохновленных моделей обработки периферической информации у людей», — говорит Уоллис. кто не участвовал в этом исследовании. «Харрингтон и Деза предполагают, что один и тот же механизм обучения игнорированию некоторых изменений визуального ввода на периферии может быть причиной того, что надежные изображения выглядят так, как они есть, и почему обучение на надежных изображениях снижает восприимчивость к враждебным действиям. Эта интригующая гипотеза заслуживает дальнейшего изучения и может представлять собой еще один пример синергии между исследованиями в области биологического и машинного интеллекта».
Эта работа была частично поддержана Центром изучения мозга, разума и машин Массачусетского технологического института и корпорацией Lockheed Martin.
[ad_2]
Source