1. 실감 음향의 지각과 전달
- 실감음향(immersive sound)는 청취자를 중심으로 전 방향에서 소리를 전달하는 방식이다.
- 실감음향을 전달한 방법으로는 헤드폰이나 이어폰을 사용하는 것과 다채널 스피커를 사용하는 방법이 있다.
① 방향감 지각
- 전후좌우 수평 방향에서 소리의 위치를 파악할 수 있는 것은 음원으로부터 두 귀에 전달되는 소리의 시간차(ITD, interaural tme difference)와 레벨차(ILD, interaural level difference) 때문이다.
- 사람의 두 귀는 수평면의 음원 위치는 비교적 파악하기 쉬우나 음원의 높낮이는 그에 비해 다소 둔감하다. 따라서 어깨와 머리, 귓바퀴의 바사 등으로 인한 음색의 변화를 이용한다. 따라서 음원에 EQ로 5~10kHz 주파수 대역을 부스트하면 위 방향에서 음이 들리는 것으로 느낀다.
- 머리전달함수(HRTF, head related transfer function)는 음원에서 발생한 소리가 고막에 도달했을 때 머리, 귀, 이도 등의 영향을 받아 달라진 변화를 나타낸 것이다. 헤드폰을 사용할 때 머리 내에 머무는 음상을 머리 바깥의 공간상에 위치하도록 만드는 것을 외재화(externalization)라고 한다.
- 머리전달함수는 사람마다 신체구조가 다르고, 값이 개인별로 다르기 때문에 이를 적용하여 실제와 같은 정위감을 얻는 것은 매우 어려우나, 가상현실(VR), 증강현실(AR) 분야에 필수적이다.
② 실감 음향 적용을 위한 소리의 전달 특성
- 공간상의 변화를 반영한 신호처리를 수행하여 실감 음향 제작에 사용한다.
- 청취 위치로부터 음원이 멀어짐에 따라 음압 레벨을 작아진다. 단 일반적인 실내 공간에선 음원으로부터 멀어짐에 따라 반사음이 비율이 높아지므로 음량의 감소 폭은 역제곱의 법칙보다 작아진다.
- 음원으로부터 멀어지면 공기의 저항에 의해 고음 레벨의 감소로 청감상 음색이 변한다. 거리에 따른 고음의 감소는 대개 거리가 멀어질수록 주파수가 높아질수록 그 폭이 커지게 되며 온도와 습도에 따라서 그 감소 폭이 달라진다.
- 음원으로부터 가까울수록 직접음의 비율이 높아지지만 음원으로부터 점차 멀어질수록 반사음 비율이 높아진다. 직접음은 거리가 멀어짐에 따라 일정한 비율로 감소하지만 잔향음은 실내 공간에서 일정한 레벨을 가지므로 음원으로부터 멀어질수록 직접음에 비해 잔향음의 비율이 커진다.
③ 실감 음향의 전달
- 스테레오는 2개의 스피커를 사용해 소리를 정위시키는 방식이다. 두 개의 스피커에 같은 음원을 같은 음량으로 재생하면 음원의 위치는 두 스피커 가운데 위치하는 것으로 들리는데 이를 팬텀 이미지(Phantom image, phantom center)라고 한다.
- 스테레오에서는 두 스피커에서 재생되는 레벨과 시간차를 조정해 스피커 사이 임의의 지점에 음원이 위치하도록 할 수 있다. 믹싱 콘솔의 팬폿(pan-pot)을 사용해 좌우 채널의 밸런스를 조정하는 것이 바로 이 작업이다.
- 채널 기반의 오디오는 5.1채널과 7.1채널 포맷을 표준으로 사용하고 있으며, 현재 가장 고도화된 채널 기반 오디오 포맷은 NHK에서 제안한 22.2채널 방식이 있다.
- 가장 기본적인 채널 기반의 오디오 포맷은 5.1채널로, 전면에 좌측-가운데-우측 3개 채널을 각각 60도 간격으로 배치하고, 정면에서 좌우 각 120도 방향으로 측후면 서라운드 스피커를 배치하는 방식이다. '.1'은 서브우퍼를 사용하는 (LFE, low frequency effect) 채널이다.
- 7.1 채널 포맷은 시네마와 가정용 오디오의 표준 포맷의 하나로 5.1채널에 측후면 스피커를 측면과 후면으로 나누어 놓은 것이다.
- 바이노럴 오디오(binaural audio)는 2채널의 오디오라는 점에서 스테레오와 유사하지만, 두 귀의 위치가 기준점이 되어 녹음하거나 제작된 것으로 헤드폰이나 이어폰으로 청취할 때 그 효과를 제대로 느낄 수 있다.
- 바이노럴 녹음 방식은 두 개의 무지향 마이크를 17cm 간격으로 떨어뜨린 후 두 마이크 사이를 흡음막으로 가로막아 녹음하는 것이다. 인간 머리 구조로 된 더미헤드(dummy head) 마이크나 두 귀 거리와 귀 모양을 반영한 바이노럴 마이크를 사용한다.
- 앰비소닉스(ambisonics)는 한 지점을 기준으로 전 방향의 음장을 기록하고 재현하는 오디오 포맷으로 이를 장면 기반의 실감 음향(scene based immersive sound)라고도 한다.
- 앰비소닉스는 여러 채널의 가상 마이크로폰 음원으로 이루어지는데, 1차 앰비소닉스는 1개의 무지향 마이크 채널과 3개의 X,Y,Z 축에 해당하는 각 방향의 양지햐엉 마이크 채널로 구성되는데 이를 앰비소닉스 B포맷이 한다.
- 앰비소닉스는 다양한 신호처리가 가능하고 4개의 채널만으로 전 방향의 오디오 기록과 재생이 가능하다는 점 때문에 VR장치나 유튜브, 페이스북 등 360도 영상에 동기화된 음향 재생 방식으로 사용되고 있다.
- 보다 많은 채널을 사용하는 고차 앰비소닉스(HOA, high order ambisonics)방식을 사용하면 보다 세밀한 정위감 표현이 가능하며, 2차 앰비소닉스는 9개 채널, 3차 앰비소닉스는 16개 채널로 구성되어 있다.
- 앰비소닉스 포맷으로 소리를 기록하려면, 앰비소닉스 마이크를 사용해야 하는데, 1차 앰비소닉스 마이크는 4개의 단일 지향성 캡슐이 서로 다른 방향을 바라보는 구조로 앰비소닉스 A포맷이라고 한다.
- 앰비소닉스 편집에는 일반적으로 앰비소닉스B포맷의 다채널 오디오 파일을 사용한다. 일반적인 DAW에서 앰비소닉스 음원을 제작하기 위해서는 앰비소닉스 버스(buss)를 지원해아하며, 앰비소닉스 버스는 1차 앰비소닉스의 경우 4트랙이 하나의 버스를, 2차는 9개트랙, 3차는 16트랙이 하나의 버스가 된다.
- 앰비소닉스 믹싱은 결국 각 음원의 음색과 크기를 조정하면서 공간상 위치를 정하는 작업이며 이와 함께 잔향과 밸런스를 조정한다.
- 앰비소닉스로 녹음 제작된 음원을 위해서는 우리가 청취할 수 있는 포맷으로 변환해야 한다.
- 객체 기반 오디오(object based audio)는 실감 음향 제작 과정에서 소리를 하나의 객체로 간주하고 그 객체의 오디오 데이터와 위치 정보를 사용해 기록하고 재생하는 것을 말한다. 여기서 각 개체의 정보를 메타데이터(metadata)라 하는데, 이 중 가장 중요한 것이 객체의 위치 데이터로 수평방위각, 수직각, 거리로 표현할 수 있다.
4. 실감 음향의 재현
- 벡터 기반 진폭 패닝(VBAP, vector base amplitude panning)은 인접한 3개의 스피커 사이에서 각 스피커에서 전달하는 레벨을 통해 음원의 위치를 표현하는 방법이다.
- 3차원 공간의 음원 위치 표현이 가능하며, 사용 가능한 스피커 숫자가 늘어날수록 보다 정확한 음원의 위치 표현이 가능해 스피커를 사용하는 실감 음향의 표현에 기본이 되는 원리이다.
- WFS(wave field synthesis)는 일렬로 배열된 스피커의 재생음을 사용해 가상의 음원으로부터 발생하는 파면을 생성하는 실감 음향 재생 방식이다. 실제 음원의 전달 과정을 재현하는 방식이기 때문에 소리의 정위감과 거리감을 정확하게 표현할 수 있지만, 가청 주파수 범위에서 음원 위치의 정확한 표현을 위해서는 많은 스피커를 조밀하게 배치해야한다는 단점이 있다.