[ad_1]
Человеческий мозг тонко настроен не только на распознавание отдельных звуков, но и на определение их направления. Сравнивая различия в звуках, которые достигают правого и левого уха, мозг может определить местонахождение лающей собаки, воя пожарной машины или приближающейся машины.
Нейробиологи Массачусетского технологического института разработали компьютерную модель, которая также может выполнять эту сложную задачу. Модель, состоящая из нескольких сверточных нейронных сетей, не только выполняет задачу так же хорошо, как люди, но и борется так же, как люди.
«Теперь у нас есть модель, которая может локализовать звуки в реальном мире», — говорит Джош Макдермотт, доцент кафедры мозговых и когнитивных наук и член Института исследований мозга Макговерна при Массачусетском технологическом институте. «И когда мы относились к модели как к участнику эксперимента и смоделировали этот большой набор экспериментов, в которых люди тестировали людей в прошлом, мы снова и снова обнаруживали, что модель повторяет результаты, которые вы видите на людях».
Результаты нового исследования также предполагают, что способность людей воспринимать местоположение адаптирована к конкретным проблемам нашей окружающей среды, говорит Макдермотт, который также является членом Центра изучения мозга, разума и машин Массачусетского технологического института.
Макдермотт является старшим автором статьи, которая опубликована сегодня в Природа Поведение человека. Ведущий автор статьи — аспирант Массачусетского технологического института Эндрю Франкл.
Моделирование локализации
Когда мы слышим звук, такой как гудок поезда, звуковые волны достигают нашего правого и левого уха в разное время и с разной интенсивностью, в зависимости от того, с какого направления исходит звук. Части среднего мозга специализируются на сравнении этих незначительных различий, чтобы помочь оценить, откуда исходит звук, — задача, также известная как локализация.
Эта задача заметно усложняется в реальных условиях — когда окружающая среда создает эхо и слышно много звуков одновременно.
Ученые давно пытались построить компьютерные модели, которые могли бы выполнять такие же вычисления, которые мозг использует для локализации звуков. Эти модели иногда хорошо работают в идеальных условиях без фонового шума, но никогда не работают в реальных условиях с их шумами и эхом.
Чтобы разработать более сложную модель локализации, команда Массачусетского технологического института обратилась к сверточным нейронным сетям. Этот вид компьютерного моделирования широко использовался для моделирования зрительной системы человека, а совсем недавно Макдермотт и другие ученые начали применять его и для прослушивания.
Сверточные нейронные сети могут быть разработаны с использованием множества различных архитектур, поэтому, чтобы помочь им найти те, которые лучше всего подходят для локализации, команда Массачусетского технологического института использовала суперкомпьютер, который позволил им обучить и протестировать около 1500 различных моделей. Этот поиск выявил 10, которые казались наиболее подходящими для локализации, которые исследователи дополнительно обучили и использовали во всех своих последующих исследованиях.
Для обучения моделей исследователи создали виртуальный мир, в котором они могут контролировать размер комнаты и отражающие свойства стен комнаты. Все звуки, подаваемые на модели, исходили откуда-то из одной из этих виртуальных комнат. Набор из более чем 400 обучающих звуков включал в себя человеческие голоса, звуки животных, звуки машин, такие как автомобильные двигатели, и естественные звуки, такие как гром.
Исследователи также обеспечили запуск модели с той же информацией, что и человеческие уши. Наружное ухо, или ушная раковина, имеет множество складок, которые отражают звук, изменяя частоты, поступающие в ухо, и эти отражения различаются в зависимости от того, откуда исходит звук. Исследователи смоделировали этот эффект, пропустив каждый звук через специальную математическую функцию, прежде чем он попал в компьютерную модель.
«Это позволяет нам давать модели ту же информацию, что и человеку», — говорит Франкл.
После обучения моделей исследователи протестировали их в реальных условиях. Они разместили манекен с микрофонами в ушах в реальной комнате и воспроизвели звуки с разных направлений, а затем передали эти записи моделям. Модели вели себя очень похоже на людей, когда их просили локализовать эти звуки.
«Хотя модель обучалась в виртуальном мире, когда мы ее оценили, она смогла локализовать звуки в реальном мире», — говорит Франкл.
Похожие шаблоны
Затем исследователи подвергли модели серии тестов, которые ученые использовали в прошлом для изучения способностей человека к локализации.
В дополнение к анализу разницы во времени прибытия в правое и левое ухо человеческий мозг также основывает свои суждения о местонахождении на различиях в интенсивности звука, достигающего каждого уха. Предыдущие исследования показали, что успех обеих этих стратегий зависит от частоты входящего звука. В новом исследовании команда Массачусетского технологического института обнаружила, что модели демонстрируют такую же чувствительность к частоте.
«Похоже, что модель использует синхронизацию и разницу уровней между двумя ушами так же, как это делают люди, и это зависит от частоты», — говорит Макдермотт.
Исследователи также показали, что, когда они усложняли задачи локализации, добавляя несколько источников звука, воспроизводимых одновременно, производительность компьютерных моделей снижалась таким образом, что это близко имитировало человеческие неудачи при тех же обстоятельствах.
«По мере того, как вы добавляете все больше и больше источников, вы получаете определенный образец снижения способности людей точно оценивать количество присутствующих источников и их способности локализовать эти источники», — говорит Франкл. «Похоже, люди ограничены возможностью одновременно локализовать около трех источников, и когда мы провели тот же тест на модели, мы увидели очень похожую модель поведения».
Поскольку исследователи использовали виртуальный мир для обучения своих моделей, они также смогли изучить, что происходит, когда их модель учится локализоваться в различных типах неестественных условий. Исследователи обучили один набор моделей в виртуальном мире без эха, а другой — в мире, где никогда не было слышно более одного звука за раз. В третьем модели подвергались воздействию только звуков с узким частотным диапазоном, а не естественных звуков.
Когда модели, обученные в этих неестественных мирах, оценивались с помощью одного и того же набора поведенческих тестов, модели отклонялись от человеческого поведения, и способы, которыми они терпели неудачу, различались в зависимости от типа среды, в которой они обучались. Эти результаты подтверждают идею. Исследователи говорят, что способности человеческого мозга к локализации адаптированы к среде, в которой развивались люди.
В настоящее время исследователи применяют этот тип моделирования к другим аспектам слуха, таким как восприятие высоты тона и распознавание речи, и считают, что его также можно использовать для понимания других когнитивных явлений, таких как ограничения того, на что человек может обратить внимание или запомнить. , — говорит Макдермотт.
Исследование финансировалось Национальным научным фондом и Национальным институтом глухоты и других коммуникативных расстройств.
[ad_2]
Source