< Previous유호건, 김도희, 송민환, 박형민 한국음향학회지 제 40 권 제 5 호 (2021) 506 2.4 공분산 행렬의 공동 행렬대각화 조건 공분산 행렬의 차원을 줄이기 위하여 N개의 공분 산 행렬 R n n N 을 공동으로 대각화하는 방법 [9-11] 을 적용하여 나타내면 P H R n P diag n (16) 와 같다. 이때 P∈ FTM×FTM 은 정칙행렬이며, n ∈ FTM은 비음수 벡터이다. Eqs. (14)과 (16)로부터 P H x∼ P H R n P ∼ N diag (17) 이고, 공분산에 대한 비대각성분들이 0이 되어 P H x 의 요소들이 상관관계가 없는 독립적특성을 갖는다. 따라서 P H x 를 각각의 음원 신호로 간주할 수 있으 며, 공동 행렬대각화 방법으로 인해 R n n N 의 매개 변수 수는 N(FTM) 2 개에서 (FTM) 2 + FTM으로 줄어들 게 된다. P 와 n 의 추정을 위한 마이크 입력 신호의 스펙트럼에 대한 음의 우도비용 함수는 다음과 같다. cos log x P n log P H x log detPP H (18) Eq. (18)의 비용함수가 최소가 될 때, P 와 n 을 추정 해 공분산 행렬을 구할 수 있다. 2.5 인접 채널 및 인접 시간에 대한 역상관화 (decorrelation)를 이용한 암묵음원분리 및 잔향제거 주파수영역 독립성분분석, [1] 독립벡터분석, [2-4] ILRMA [5] 는 마이크 입력 신호와 음원 신호의 수가 같 은 상황에서 잘 작동하는 대표적인 암묵음원분리 방 법이다. 또한 마이크 입력 신호의 잔향성분을 제거 하기 위한 여러 효과적인 잔향제거 알고리즘 기술들 도 존재한다. [6,7] 음원 스펙트럼의 인접 채널 및 인접 시간에 대한 역상관 모듈 통합 방법 [9-11] 으로 잔향을 제거함과 동시에 음원 분리를 수행할 수 있다. 인접 채널 및 시간프레임을 고려하여 식(16)의 정칙행렬 P 를 각 주파수에 대하여 T 개의 M×M 의 차원을 갖는 블록으로 구성된 블록 상 Toeplitz 행렬 P f f F ∈ TM×TM 로 정의하고, 행렬의 ( )번째 블록은 P f ∈ M×M if P f ∆ if ∆ ∈ ⋯ O M×M otherwise (19) 와 같이 정의한다. 이때 O M×M 은 M×M 의 영행렬 이다. 따라서 정칙행렬 P 는 아래 Eq. (20)과 같이 표 현된다. P ⊕ f F P f diag P ⋯ P F .(20) 이때, ⊕ f F P f 은 행렬 P f f F의 블록 대각행렬이다. Eq. (20)을 통해 Eq. (16)은 ⊕ f F P f H x f ∼ (21) 와 같이 표현된다. Eqs. (18)과 (21)로 대각화기 P f 를 최적화하는 비용함수는 다음과 같다. [9] f t m F T M f t m e m T P f H x f t log f t m T f F log detP f .(22) 공동 대각화 P 은 P f T ⋯ P f L T T ∈ L M×M , x f t 는 x f t T x f t ∆ T ⋯ x f t ∆ L T T ∈ L M 이며, e m 은 m 번째 항이 1인 단위벡터이다. III. 제안 방법 공동 행렬대각화 조건을 사용한 기존 방법에서는 인접 채널 및 인접 시간의 상관도를 없애는 하나의 필터 P f 를 제안하였다. 하지만 매 시간 프레임마다 공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 The Journal of the Acoustical Society of Korea Vol.40, No.5 (2021) 507 필터를 추정하기에는 필터의 차원이 다소 크기 때문 에 암묵음원분리 및 잔향제거 된 신호를 추정하는 것이 불안정하다. 따라서 하나의 필터를 추정하는 것보다 행렬분해를 적용하여 잔향제거와 음원분리 의 필터로 분해하는 방법을 제안하고 온라인 알고리 즘 구현을 제안한다. 3.1 대각화 행렬분해 식(22)의 공동 대각화 P 행렬을 P ∈ M×M 와 P f P f T ⋯P f L T T ∈ LMxM 로 분리하여 표현하면, P f P f P f p f ⋯ p f M p f ⋯ p f M (23) 와 같이 표현되며, p f m p f m 은 각각 P f 와 P f 의 m 번째의 열벡터이다. 공동 대각화 행렬에 대한 구조 는 Fig. 1(a)와 같다. m번째 열벡터에 대하여 행렬분해를 진행하면 p f m p f m I MxM L f m w f m (24) 로 L ∈ LMxM w f m ∈ M , I MxM ∈ MxM 은 단위행 렬로 표현된다. 이 때, Eq. (23)를 통해 아래와 같이 표 현된다. z f t m x f t L f m H x f t .(25) e m T P f H x f t p f m p f m H x f t w f m H x f t L f m H x f t w f m H z f t m .(26) L ∈ LMxM 의 필터는 단일 음원신호에 대한 잔향 제거 필터다. 각 마이크 채널별 잔향 제거된 출력은 z f t m , x f t x f t ∆ T ⋯ x f t ∆ L T T ∈ LM은 이전 시간 프레임에 대한 입력신호이며 자세한 구조는 Fig. 1(b)와 같다. w f m ∈ M 는 분리행렬 W f 의 m번째 열벡터이다. Eqs. (22)와 (26)을 통해 최적화 함수는 w f m H z f t log log detW f (27) 과 같다. 음원 분리행렬 W f 를 업데이트 하는 수식은 보조함수를 이용한 기존 방법 [3,4] 과 같다. 이 방식은 기존의 경사하강법의 방식 [17] 보다 안정적이고 빠르 게 수렴한다. w f m ← W f V f m e m .(28) (a) diagonalizer matirx P structure (b) ovserved mixture x structure Fig. 1. Diagonalizer matix P and observed mixture x structure.유호건, 김도희, 송민환, 박형민 한국음향학회지 제 40 권 제 5 호 (2021) 508 w f m ← w f m H V f m w f m w f m ,(29) 여기서 V f m 은 아래 Eq. (30)이다. V f m T t T f t m z f t m z f t m H ∈ M.(30) 선형 예측 필터 L f m 를 업데이트하는 수식은 Eq. (27)를 L f m 로 편미분하여 구할 수 있다. L f m w f m H T t T f t m x f t x f t H L f m T t T f t m x f t x f t H w f m (31) Eq. (31)를 통해 선형 예측 필터 L f m 는 다음과 같다. K f m x T t T f t m x f t x f t H ∈ LM×LM .(32) k f m x T t T f t m x f t x f t H ∈ LM×M .(33) L f m K m x k m x ∈ LM ×M .(34) 3.2 온라인에서의 최적화 앞서 설명한 오프라인의 방식인 batch processing 알고리즘은 프레임 전반에 걸쳐 ⋯ 얻어진 입력 신호를 통해 필터를 추정한다. 하지만 이러한 시스템은 실제 환경에서와 같이 화자의 위치가 고정 되지 않고 발화하는 비정상 음원에 대해서는 채널 간 및 프레임 간의 상관관계가 변하기 때문에 잔향 제거 및 암묵음원분리 성능이 저하된다. 또한 보청 기와 같은 음원향상 장치에서는 온라인 동작을 요구 한다는 점이다. 이러한 점을 고려하여 앞서 제안한 오프라인 방식 대신에 매 프레임마다 필터를 업데이 트하며 분리된 음원을 출력하는 온라인 방식의 알고 리즘을 제안한다. 온라인 암묵음원분리를 위해 재귀최소자승법(Re- cursive Least Squares, RLS) [12-14] 을 사용하여, 현재 시 간 프레임 의 V f t m 을 이전 시간 프레임의 V f t m 을 통해 재귀적으로 계산한다. 따라서 Eq. (30)의 V f t m 는 V f t m V f t m f t m z f t z f t H (35) 와 같이 계산되고, ( ≤≺ )는 망각인자로 과거 신호에 대한 비중을 조절하는 요소이다. 또한, Eq. (28)의 역행렬 연산은 연산비용이 크기 때문에 실시 간 동작에서 적합하지 않다. 이를 해결하기 위해 아 래 식의 matrix inversion lemma [18] 를 이용한다. B CD B B C I DB C DB . (36) 이 때, W f t V f t m V f t m W f t U f t m A f t (37) 와 같이 역행렬 행렬 U f t m A f t 을 설정하면 Eq. (36) 를 사용하여 유도하면 각각의 역행렬들은 이전 시간 프레임에 대해 U f t m U f t m p f t x f t H U f t m x f t p f t U f t m x f t x f t H U f t m H . (38) A f t ←A f t ∆w f t m H A f t e m A f t e m ∆w f t m H A f t (39) 와 같이 매 프레임마다 추정된다. ∆w f t m 은 W f t 의 m번째 열벡터 w f t m ∈ M의 업데이트 전과 후의 차 이를 나타내며 아래와 같이 반영된다.공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 The Journal of the Acoustical Society of Korea Vol.40, No.5 (2021) 509 W f t ←W f t e m ∆w f t m H.(40) 다음으로 온라인 잔향제거 [15] 의 경우에는 이전과 같은 방식으로 Eq. (32)의 LM×LM 의 차원을 갖는 K f m x 의 역행렬 연산이 음원 분리보다 더 큰 연산비 용을 갖게 된다. 마찬가지로 재귀최소자승법의 방식 을 적용하여 다음과 같이 나타낼 수 있다. K f t m x K f t m x f t m x f t x f t H .(41) k f t m x k f t m x f t m x f t x f t H .(42) 또한, matrix inversion lemma를 통해 K f t m x 을 Q f t ← f t m x f t H K f t m x x f t K f t m x f t .(43) K f t m x ← K f t m x Q f t x f t H K f t m x .(44) L f t m L f t m Q f t z f t m H(45) 와 같이 매 프레임마다 추정할 수 있다. 온라인 알고 리즘에서 잔향제거 부분에서의 f t m W P E 는 전 시간 프 레임을 통해 업데이트된 필터를 통해 다음과 같이 추정할 수 있다. f t m W P E ←w f t m H x f t L f t m H x f t .(46) 이 때, f t m BSS는 음원 신호가 정규분포를 따른다고 가정하여 다음과 같이 계산할 수 있다. f t m BSS F f F w f t m H z f t m (47) IV. 실 험 4.1 평가 지표 첫 번째 지표는 신호 대 왜곡 비(Signal-to-Distortion Ratio, SDR) [19] 이다. 즉, 마이크에 들어온 입력 신호를 암묵음원분리를 통해 얻은 해당 음원 clean 신호 sig target 와 해당 음원 출력신호 sig output 의 power 비로 아래의 식과 같다. SDR log .(48) 두 번째 지표는 Perceptual Evaluation of Speech Quality (PESQ) [20] 이다. 이 지표는 해당 음원 신호와 암묵음 분리를 통한 해당 신호 간의 유사도를 인지적 특성 을 반영하여 측정하는 방식이다. PESQ는 주관적 음 질 평가 방법을 대체할 수 있는 객관적 음질평가로 만점인 4.5점에 가까울수록 사람들은 음질이 높다고 느낀다. 4.2 실험 환경 본 실험은 WSJCAM0 데이터베이스 [21] 를 기반으 로 음원 신호를 구성했고, 잔향이 존재하는 입력신 호는 음원으로부터 마이크 위치까지의 임펄스 응답 을 image method [22] 에 따라 음원 신호에 합성 곱하여 혼합입력 신호를 생성하였다. 이때, 음원신호와 마 이크는 각각 2개, 6개로 구성하고, 혼합하는 음원들 은 서로 중복되지 않고, 임의로 선택하였다. 구체적 인 실험 환경은 Fig. 2와 같다. 마이크 어레이는 0.04 m 간격으로 일렬로 위치시 켰다. 마이크 어레이의 중심은 [2.5 m, 2.5 m, 1 m]에 존재하고, 음원의 거리는 1 m이고, 음원의 각도는 중 심선을 기준으로 30°, -80°를 이룬다. 방의 크기는 5 m × 4 m × 3 m이다. 이때, 잔향 시간(RT 60 )은 잔향시간이 작은 0.2 s부터 잔향시간이 큰 1 s로 0.2 s 간격으로 설 정했다. 그리고 각 음원과 마이크 위치 사이의 임펄 스 응답을 합성 곱하며 잔향 별로 동일한 음원 데이 터를 생성하였다. 마이크 입력신호의 샘플링 주파 수는 16 kHz이며, 국소푸리에변환에서 Hanning 윈도유호건, 김도희, 송민환, 박형민 한국음향학회지 제 40 권 제 5 호 (2021) 510 우 및 윈도우 프레임 길이와 프레임 간 간격은 각각 64 ms, 16 ms로 설정하였다. 필터 및 매개변수의 초기 값에 대해서는 W f t 와 A f t 는 I MxM , 는 ∙I LMxLM L f t m O LMxM 및 매개변수 { } 는 {0.98, 0.99}로 설정하였다. 4.3 실험 결과 본 실험은 기존 온라인 IVA [13] 와 제안 알고리즘을 두 가지 지표를 통해 비교하였다. 두 방법 모두 암묵 음원분리에서 사용되는 음원 파워 스펙트럼 밀도 의 값은 정규분포를 따른다는 가정으로 동일하 게 설정하였다. 잔향 환경에서 초기 반사는 음성인식에 있어서 사 람의 명료도를 향상시키고, [23] 음성인식(ASR) 성능 을 향상시킨다. [24] 따라서 초기 반사음 및 잔향 시간 { ∆ L }의 값을 고려하여 잔향 시간이 짧은 0.2 s부터 비교적 긴 1 s의 실험 환경에서 SDR과 PESQ의 평균 값 성능을 평가한다. 위의 Table 2은 실험을 통해 가장 높은 성능을 나타 내는 초기반사음과 잔향길이를 고려한 실험 결과이 다. 기존 온라인 IVA보다 제안한 방법의 성능이 모두 높은 것을 확인 할 수 있다. Fig. 3은 초기 반사음 및 잔 향시간에 따른 성능 추이 그래프이다. 첫 번째로 초기 반사음에 따른 성능 추이를 살펴보면, 초기 반사음의 길이를 ∆ =1로 설정할 경우 가장 높은 성능을 나타내 는 것을 확인할 수 있다. 또한 초기 반사음의 길이가 길 수록 분리 성능이 낮아지는 것을 확인할 수 있다. 이러 한 점은 초기 반사음을 길게 설정할 경우 반사되어 돌 아오는 잔향신호 성분이 남아있기 때문에 성능이 낮 아지게 된다. 두 번째로 잔향시간에 따른 성능 추이를 살펴보면, 잔향이 커짐에 따라 최적의 필터 길이가 길 어짐을 알 수 있다. 즉 잔향에 영향이 클수록 고려해야 하는 이전 시간의 입력 또한 길어진다는 것이다. 다양한 잔향 실험에서 기존의 온라인 분리 방법보 다 SDR과 PESQ 모두 높은 성능을 확인할 수 있다. 하 지만 온라인 방식은 시간경과에 따른 재귀적 방식을 사용하기 때문에 잔향의 영향이 큰 환경일수록 잔향 의 영향이 적은 환경보다 성능이 낮아지는 것을 확 인할 수 있다. 다음 실험은 시간 경과에 따른 SDR 및 PESQ의 성능을 통해 온라인 방식에서의 시간에 따 른 각 온라인 분리방법의 암묵음 분리 성능을 살펴 보았다. Fig. 4는 Fig. 3의 실험 결과를 통해 각 잔향 환 경마다 높은 성능을 나타내는 최적의 초기 반사음과 잔향 시간을 설정하여 실험하였다. Fig. 4의 결과를 살펴보면, 기존의 Online-IVA는 잔향의 영향이 적은 환경(RT 60 = 0.2 s)에서는 시간에 따른 분리성능이 향 상되지만, 잔향의 영향이 커질수록 제대로 분리가 되지 않는 것을 확인 할 수 있다. 기존의 방법과 비교 하여, 제안한 방법을 살펴보면 초기 시간에는 분리 성능이 떨어지지만 시간의 경과에 따라서 분리 성능 이 점차 향상되는 것을 확인할 수 있다. 상단의 Fig. 5 는 잔향 시간이 0.4 s인 실험 환경에서의 음원 분리 결 과 스펙트로그램의 예시이다. 온라인 방식으로 인해 두 방법 모두 초기 시간에서는 신호의 분리가 뚜렷 하게 나타지 않는다. 하지만 기존 방법(c)에서는 시 간이 경과해도 목표 음원 신호에 가깝게 분리되지 않지만 제안 방법(d)에서는 목표 음원신호(b)에 가깝 게 분리된 것을 확인 할 수 있다. Fig. 2. (Color available online) Recording conditions of impulse response obtained from image method. Table 2. Source separation performance in terms of SDR, PESQ according to reverberation time. Method Online IVAProposed method SDR (dB) / PESQSDR (dB) / PESQ 0.2 s5.93 / 2.357.77 / 2.60 0.4 s1.60 / 0.975.18 / 2.28 0.6 s0.33 / 0.863.13 / 2.06 0.8 s-0.67 / 0.801.87 / 1.94 1 s-1.19 / 0.780.82 / 1.87 average1.12/1.153.75/2.15공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 The Journal of the Acoustical Society of Korea Vol.40, No.5 (2021) 511 (a) reverberation time 0.2 s (b) reverberation time 0.4 s (c) reverberation time 0.6 s (d) reverberation time 0.4 s (e) reverberation time 1 s Fig. 3. Online source separation performance according to late-reverberation and early reflection.유호건, 김도희, 송민환, 박형민 한국음향학회지 제 40 권 제 5 호 (2021) 512 V. 결 론 본 연구에서는 공동 행렬대각화의 행렬 분해를 통 해 잔향 성분에 대한 상관도를 줄이는 방법을 제안 했고, 또한 온라인 암묵음원분리 및 잔향제거 알고 리즘을 제안하였다. 실험 결과 제안된 온라인 방식 은 잔향이 존재하는 다중화자 발화 환경에서 기존의 암묵음원분리 알고리즘보다 우수한 분리 성능을 보 Fig. 4. Online source separation performance over time. (a) obersved signal spectrogram(b) target clean signal spectrogram (c) online IVA output signal spectrogram(d) proposed method output siganal spectrogram Fig. 5. (Color available online) Spectrogram of (a) a reverberant mixture, spectrogram of (b) a clean signal and spectrograms of separated signals obtained by (c) online IVA and (d) proposed method.공동 행렬대각화 조건 기반 온라인 음원 신호 분리 및 잔향제거 The Journal of the Acoustical Society of Korea Vol.40, No.5 (2021) 513 이는 것을 확인하였다. 감사의 글 이 논문은 정부(과학기술정보통신부)의 재원으 로 정보통신기획평가원의 지원을 받아 수행된 연구 임(No. 2020-0-00860, 음향기반 멀티-롤 지원 초소형 재난·안전용 센서 디바이스 및 재난상황 인식 기술 개발 및 2019-0-01376, 다중 화자간 대화 음성인식 기 술개발). References 1.P. Smaragdis,“Blind separation of convolve mixtures in the frequency domain,” Neurocomput. 22, 21-34 (1998). 2.T. Kim, H. T. Attias, S.-Y. Lee, and T.-W. Lee, “Blind source separation exploiting higher order frequency dependencies,” IEEE Trans. ASLP. 15, 70-79 (2007). 3.N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique,” Proc. IEEE Workshop Appl. Signal Process. Audio Acoust. 189-192 (2011). 4.N. Ono and S. Miyabe, “Auxiliary-function-based in- dependent component analysis for super-Gaussian sources,” Proc. Int. Conf. Latent Variable Anal. Signal Separation, 165-172 (2010). 5.D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation uni- fying independent vector analysis and nonnegative matrix factorization,” IEEE/ACM Trans. ASLP. 24, 1626-1641 (2016). 6.T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and B. H. Juang, “Blind speech dereverberation with multi-channel linear prediction based on short time fourier transform representation,” Proc. ICASSP. 85- 88 (2008). 7.T. Yoshioka and T. Nakatani, “Generalization of multi- channel linear prediction methods for blind MIMO impulse response shortening,” IEEE Trans. Audio, Speech Lang. Process. 20, 2707-2720 (2012). 8.T. Nakatani, C. Boeddeker, K. kinoshita, R. Ikeshita, M. Delcroix, and R. Haeb-Umbach, “Jointly optimal denoising, dereverberation, and source separation,” IEEE/ACM Trans. ASLP. 28, 2276-2282 (2020). 9.R. Ikeshitam N. Ito, Nakatani, and H. Sawada, “A unifying framework for blind source separation based on a joint diagonalizability constraint,” Proc. Eur. Signal Process. Conf. 1-5 (2019). 10.R. Ikeshita, N. Ito, T.Nakatani, and H. Sawada, “In- dependent low-rank matrix analysis with decorrela- tion learning,” Proc. IEEE WASPAA. 288-292 (2019). 11.K. Sekiguchi, Y. Bando, A. Nugraha, K. Yoshiim, and T. Kawahara, “Fast multichannel nonnegative matrix factorization with directivity-aware jointly-diagonali- zable spatial covariance matrices for blind source separation,” IEEE/ACM Trans. ASLP. 28, 2610-2625 (2020). 12.M. T. Akhtar, T.-P. Jung, S. Makeig, and G. Cauwenberghs, “Recursive independent component analysis for online blind source separation,” IEEE Int. Symp. Circuits Syst. 6, 2813-2816 (2012). 13. T. Taniguchi, N. Ono, A. Kawamata, and S. Sagayama, “An auxiliary-function approach to online independent vector analysis for real-time blind source separation,” Proc. HSCMA. 107-111 (2014). 14.S.-H. Hsu, T. Mullen, T.-P. Jung, and G. Cauwenberghs, “Online recursive independent component analysis for real-time source separation of high-density EEG,” Proc. IEEE Eng. Med. Biol. Soc. Conf. 3845-3848 (2014). 15.T. Yoshioka and T. Nakatani, “Dereverberation for re- verberation-robust microphone arrays,” Proc. Eur. Signal Process. Conf. 1-5 (2013). 16.T. Nakatani and K. Kinoshita, “A unified convolutional beamformer for simultaneous denoising and derever- beration,” IEEE Signal Processing Letters, 26, 903- 907 (2019). 17.S.-I. Amari, A. Cichocki, and H. H. Yang, “A new learning algorithm for blind signal separation,” Adv. Neural Inf. Process. Syst. 8, 752-763 (1996). 18.M. Woodbury, “Inverting modified matrices,” Memo- randum Rep. 42, MR0038136 (1950). 19.E. Vincent, R. Gribonval, and C. Févotte, “Performance measurement in blind audio source,” IEEE Trans. Audio, Speech, and Lang. Process. 14, 1462-1469 (2006). 20. A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, “Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assess- ment of telephone networks and codecs,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 2, 749-752 (2001). 21.T. Robinson, J. Fransen, D. Pye, J. Foote, and S. Renals, “WSJCAM0: A british english speech corpus for large vocabulary continuous speech recognition,” Proc. ICASSP. 81-84 (1995). 22.J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” J. Acoust. Soc. Am. 65, 943-950 (1979). 23.S. Bradley, H. Sato, and M. Picard, “On the impor-유호건, 김도희, 송민환, 박형민 한국음향학회지 제 40 권 제 5 호 (2021) 514 tance of early reflecꠓtions for speech in rooms,” J. Acoust. Soc. Am. 113, 3233-3244 (2003). 24.T. Nishiura, Y. Hirano, Y. Denda, and M. Nakayama, “Investigations into early and late reflections on dis- tant-talking speech recognition toward suitable rever- beration criteria,” Proc. Interspeech, 1082-1085 (2007). 저자 약력 ▸유 호 건 (Ho‑Gun Yu) 2018월 2월 : 서강대학교 전자공학과 학사 2020월 9월 ~ 현재 :서강대학교 전자공학 과 석사과정 ▸김 도 희 (Do‑Hui Kim) 2021월 2월 : 서강대학교 전자공학과 학사 2021월 3월 ~ 현재 :서강대학교 전자공학 과 석사과정 ▸송 민 환 (Min‑Hwan Song) 2003년 2월 :건국대학교 정보통신공학과 학사 2005년 8월 : 건국대학교 정보통신공학과 석사 2005년 11월 ~ 현재 : 한국전자기술연구 원 자율지능IoT연구센터 책임연구원 ▸박 형 민 (Hyung‑Min Park) 1997년 2월 : KAIST 전기 및 전자공학과 학사 1999년 2월 : KAIST 전기 및 전자공학과 석사 2003년 8월 : KAIST 전자전산학과 박사 2003년 9월 ~ 2005년 2월 : KAIST 바이오 시스템학과 박사 후 연수 과정 2005년 3월 ~ 2007년 1월 : Carnegie Mellon University, Language Technologies Institute 박사 후 연수 과정 2007년 3월 ~ 2011년 2월 : 서강대학교 전 자공학과 조교수 2011년 3월 ~ 2016년 2월 : 서강대학교 전 자공학과 부교수 2016년 3월 ~ 현재 : 서강대학교 전자공학 과 교수I. 서 론 음성감정인식은 주어진 사람의 음성으로부터 화 자의 감정 상태를 추정하는 기술로, 고객 응대, 인공 지능 비서, 헬스케어 등 다양한 분야에서 유용하게 사용될 수 있다. 그러나 음성인식, 화자인식 등 다른 음성신호기반 기술들이 심층신경망의 발전과 함께 비약적인 발전을 이룬 것에 비해 음성감정인식에는 여전히 어려운 문제가 많이 남아 있는데, 훈련을 위 한 감정 레이블링된 음성 데이터의 부족이 주요 원 인으로 여겨진다. 음성인식을 위한 텍스트 레이블이 나 화자인식을 위한 화자 레이블과 달리 감정 레이 블은 평가자의 주관적 기준에 따라 큰 차이가 발생 할 수 있어 전문가의 판단을 필요로 한다. 또한 자연 스러운 감정 음성은 개인적인 내용을 담고 있는 경 우가 많아 공개가 어렵고, 전문 성우의 연기를 통해 음성감정인식 성능 향상을 위한 트랜스포머 기반 전이학습 및 다중작업학습 Transformer-based transfer learning and multi-task learning for improving the performance of speech emotion recognition 박순찬, 1 김형순 1† (Sunchan Park 1 and Hyung Soon Kim 1† ) 1 부산대학교 전자공학과 (Received July 16, 2021; accepted August 25, 2021) 초 록: 음성감정인식을 위한 훈련 데이터는 감정 레이블링의 어려움으로 인해 충분히 확보하기 어렵다. 본 논문에서 는 음성감정인식의 성능 개선을 위해 트랜스포머 기반 모델에 대규모 음성인식용 훈련 데이터를 통한 전이학습을 적용 한다. 또한 음성인식과의 다중작업학습을 통해 별도의 디코딩 없이 문맥 정보를 활용하는 방법을 제안한다. IEMOCAP 데이터 셋을 이용한 음성감정인식 실험을 통해, 가중정확도 70.6 % 및 비가중정확도 71.6 %를 달성하여, 제안된 방법이 음성감정인식 성능 향상에 효과가 있음을 보여준다. 핵심용어: 음성감정인식, 트랜스포머, 전이학습, 다중작업학습 ABSTRACT: It is hard to prepare sufficient training data for speech emotion recognition due to the difficulty of emotion labeling. In this paper, we apply transfer learning with large-scale training data for speech recognition on a transformer-based model to improve the performance of speech emotion recognition. In addition, we propose a method to utilize context information without decoding by multi-task learning with speech recognition. According to the speech emotion recognition experiments using the IEMOCAP dataset, our model achieves a weighted accuracy of 70.6 % and an unweighted accuracy of 71.6 %, which shows that the proposed method is effective in improving the performance of speech emotion recognition. Keywords: Speech emotion recognition, Transformer, Transfer learning, Multi-task learning PACS numbers: 43.72.Bs, 43.72.Ne 한국음향학회지 제40권 제5호 pp. 515~522 (2021) The Journal of the Acoustical Society of Korea Vol.40, No.5 (2021) https://doi.org/10.7776/ASK.2021.40.5.515 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Hyung Soon Kim (kimhs@pusan.ac.kr) Department of Electronics Engineering, Pusan National University, 2, Busandaehak-ro 63beon-gil, Geumjeong-gu, Busan 46241, Republic of Korea (Tel: 82-51-510-2452, Fax: 82-51-515-5190) Copyrightⓒ2021 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 515Next >