Нейросеть научили генерировать 3D-звуки

Американские ученые Руохан Гао из Университета Техаса в Остине и Кристен Грауман из Facebook AI Research разработали нейросеть, которая создает 3D-звуки. Система искусственного интеллекта использует обычные видеоклипы.

Исследователи создали алгоритм, который превращает обычные монофонические звуки в бинауральные. Последние дают слушателю ощущение трехмерного восприятия. 3D-эффект возникает из-за различий в параметрах звуковых волн, которые огибают голову и приходят на разные уши с задержкой. По этим изменениям человек определяет направление (источник). Чтобы записать бинауральные ритмы, нужны специальные микрофоны и другое оборудование. Искусственный интеллект помог сделать 3D-звуки доступными для многих.

Гао и Грауман давно занимаются системами компьютерного зрения. Поэтому они заменили аудиотехнику программой обработки видео. Ученые заставили систему машинного обучения по “картинке” вычислять направление источника музыки. После этого разработанная ими нейросеть творит 3D-звуки. Иными словами,  генерирует «интерактивные различия времени и уровней» звуковых волн.

Исследователи неслучайно назвали свою концепцию «2,5D-визуальным звуком». Чтобы ее воплотить, они создали для нейросети базу данных Binaural-Music-Room. С помощью камеры и микрофонов Гао и Грауман сделали бинауральные записи — 2265 коротких видеоклипов продолжительностью 6,3 часа. Однако изучив их, алгоритм смог генерировать 3D-звуки без полного эффекта трехмерного восприятия. Объяснение простое: система игнорирует “незнакомые” звуки и те музыкальные инструменты, которых нет на видео.

По мнению разработчиков, их изобретение подходит не только для записи музыкальных композиций.

“Генерирование бинаурального звука будет полезным для новых приложений виртуальной и дополненной реальности”, — утверждают Гао и Грауман.

Ранее ученые Массачусетского технологического института (США) представили систему искусственного интеллекта PixelPlayer, которая определяет источники музыки на видео. Чтобы ее обучить, разработчики закачали 60 часов выступлений музыкантов.

Источники: hub.packtpub.com, cs.utexas.edu. Подготовил Станислав Клопот

Пассивный доход с инвестиций в облигации

Облигации — самый быстрый и безопасный путь к доходным инвестициям!

Пассивный доход с инвестиций в облигации

УЗНАТЬ ПОДРОБНЕЕ