Известно, что ребенок может получать новую информацию через картинки из книг и связывать изображения со звуками. Но построение системы компьютерного зрения, которая может обучить себя всему сама, не так просто. Используя методы искусственного интеллекта, исследователи Disney Research и ETH Zurich разработали систему, которая может автоматически распознавать связь между изображениями и звуками, - сообщает Robotics.ua.

Смотря на изображение автомобиля, система может автоматически издать звук двигателя автомобиля. Система, которая знает звук автомобиля, разбивающейся посуды или хлопанья дверью, может использоваться в ряде приложений, таких как добавление звуковых эффектов к фильмам или обеспечение аудио обратной связи для людей с нарушениями зрения, - отмечает Жан-Шарль Базен, доцент и научный сотрудник Disney Research.

Ход исследования

(Искусственный интеллект и экспертные системы) В Disney Research научились распознавать связь между изображениями и звуками

Для решения этой сложной задачи исследовательская группа использовала данные из коллекций видео. "Видео со звуковыми дорожками дают нам естественным образом возможность узнать корреляции между звуками и изображениями", - говорит Базен. – "Видеокамеры оснащены микрофонами для захвата синхронизированной аудио и визуальной информации. В принципе, каждый видеокадр является возможным примером обучения".

Одна из ключевых проблем заключается в том, что видео часто содержат много звуков, которые не имеют ничего общего с визуальным контентом. Эти несвязанные звуки могут включать фоновую музыку, голос за кадром, вне экранные шумы и звуковые эффекты, которые могут запутать схему обучения.

"Звуки, связанные с видеоизображением, могут быть весьма неоднозначными", - пояснил Маркус Гросс, вице-президент Disney Research. - "Занимаясь поиском способа отфильтровать эти посторонние звуки, наша исследовательская команда сделала большой шаг в направлении использования множества новых приложений для компьютерного зрения". "Если у нас есть сборник видео автомобилей, которые содержат фактические звуки двигателя, мы сможем использовать звуковые функции, которые повторяются через несколько видео. С другой стороны, посторонние звуки, которые видео могут содержать, не будут передаваться, и, таким образом, они могут быть отфильтрованы".

После того, как видеокадры с некоррелированными звуками отфильтрованы, алгоритм компьютера может узнать, какие звуки связаны с изображением. Последующие испытания показали, что при представлении изображений предлагаемая система часто могла произвести подходящий звук. По информации Robolovers, исследование показало, что система показала лучшие результаты, чем специально обученная программа с не фильтрованными видео.

Сочетая творчество и инновации, это исследование продолжает широкую работу Disney по изобретению новых способов сделать машины еще более умными.