Автор и докладчик: доцент Лорн Брегитцер
За последние пару лет объёмный, или пространственный, звук стал более доступным. Вы можете слышать этот объёмный звук в наушниках Apple, Sony, VR-гарнитурах и многих других. Как работает этот объёмный звук и как он позволяет нам слышать всё вокруг нас всего через два динамика в ушах? Меня зовут Лорн Брегитцер, я профессор аудио, и я здесь, чтобы объяснить вам.
Большинство из нас распознаёт источник звука в повседневной жизни, в первую очередь, благодаря двум ушам. Мы можем слышать, откуда едет машина, кто-то зовёт нас по имени сзади или пролетающий самолёт. Двумя ушами мы можем определить направление звука. Не только в 360 градусах вокруг нас, но и в звуке над нами и под нами.
Обычно, когда мы слушаем музыку или фильмы в наушниках, звук распространяется практически на 180 градусов перед нами. Положение слышимого нами звука в основном определяется разницей уровня звука между левым и правым ушами.
3D, или пространственное, аудио включает в себя способность локализовать звук в 360 градусах вокруг нас, а также по высоте.
Так как же звук преобразуется в 3D-аудио, когда мы слушаем его в наушниках?
Чтобы создать пространственное аудио, нам нужно понять, как мы воспринимаем локализацию звука нашими ушами в реальном мире.
Существует три основных фактора, влияющих на наше восприятие положения или локализации звука. Они включают в себя межушную разницу во времени, межушную разницу в уровне и изменение тембра или разницу в частоте звука между левым и правым ушами.
Межушная разница в уровне — это разница в уровне звука между двумя ушами, которая декодируется нашим мозгом, чтобы определить, где локализован звук. Именно так мы обычно слышим стереозвук в наушниках.
Если источник звука находится слева, он будет звучать в левом ухе немного громче, чем в правом.
Клип панорамирования звука
Задержка аудиоклипа в правом ухе. В этом случае мозг сообщает нам, что звук исходит слева.
Интерауральная разница во времени — это небольшая разница во времени, когда звук достигает наших ушей. Поскольку наши уши находятся на расстоянии примерно 20 см друг от друга, звук справа достигнет левого уха немного позже, чем правого. Эта разница во времени
Клип тени головы составляет примерно 6 миллисекунд, или 6 тысячных секунды.
Третий фактор — это разница в частоте или тембре между нашими ушами. Если звук исходит слева, частотный спектр этого звука в правом ухе отличается от левого. Это называется эффектом «тени головы». Голова блокирует высокие частоты, а низкие
Клип тени окутывает нашу голову.
Точно так же, как наша голова блокирует свет с одной стороны, она делает нечто похожее и со звуком. Однако звук блокируется не полностью, а изменяется в каждом ухе.
С двумя разными частотными характеристиками в разных ушах наш мозг локализует звук, соответствующим образом ограничивая его высоту.
Высота звука декодируется нашим мозгом на основе небольших изменений эффекта тени головы. Она меняется в зависимости от высоты источника звука.
График частот HRTF
На этом графике вы можете увидеть разницу в частотах одного источника звука, слышимого левым и правым ухом слева.
Именно сочетание этих трёх методов локализации используется для воспроизведения звука, создавая трёхмерный пространственный звук, бинаурально.
Бинауральные микрофоны, исторические фотографии
Я использовал термин «бинауральный». 3D-аудио — это то же самое, что и прослушивание бинаурального звука. Бинауральное аудио существует с конца XIX века. Метод заключается в размещении микрофонов таким образом, чтобы имитировать положение человеческих ушей. При воспроизведении в наушниках разница во времени, уровне и частоте улавливается вместе со звуком.
Для искусственного воссоздания этого бинаурального звука создается функция передачи звука, связанная с головным звуком (HRTF), которая фиксирует все эти параметры локализации на всех высотах и углах.
Затем звук обрабатывается этими HRTF для преобразования звука из различных монофонических источников в трехмерное пространство в ваших наушниках.
Это пример лишь одного из типов программного обеспечения, которое можно использовать для искусственного создания трехмерного бинаурального звука из одного источника.
Обычные наушники могут воспроизводить кодированный 3D-звук. Однако для кодирования в реальном времени требуется дополнительная обработка. Это можно сделать на устройстве воспроизведения, например, на игровой консоли, например, когда я слушаю 3D-звук через наушники Sony Pulse 3D во время игры на PS5. Или это можно сделать в самих наушниках, например, в AirPods Pro от Apple, когда я смотрю фильм.
#spatialaudio #3Daudio
Информация по комментариям в разработке