< Previous김선만 한국음향학회지 제 44 권 제 5 호 (2025) 544 은 Short-Time Objective Intelligibility(STOI)와 같은 음 성 명료도 지표에서도 0.95에 근접하는 등, 객관적 지표상으로 높은 수준의 성능을 보인다. 한편, Microsoft가 주최하는 DNS Challenge와 같은 국제 대회에서는 실제 환경에서 녹음된 잡음 데이 터를 활용하여 주관적 음질 평가 MOS를 수행한다. 2022년 ICASSP DNS Challenge 결과에 따르면, 화자 정보 없이 범용적으로 동작하는 실시간 잡음 제거 부문에서는 Multi-scale Temporal Frequency Convolu- tional Network with Axial Attention 모델 [13] 이 1위를 차 지했으며, DNSMOS P.835 전체 음질 평가 기준 3.5 이 상을 기록하였다. [14,15] 3.2 한국어 음성 디노이징 연구의 한계 이처럼 영어 데이터셋을 기반으로는 활발한 연구 와 성능 경쟁이 이루어지고 있으나, 한국어와 같은 다른 언어 환경에서는 몇 가지 중요한 한계에 직면 한다. 지금까지의 연구 및 성능 평가는 대부분 영어 음성 데이터를 중심으로 이루어졌다. 그러나 한국 어는 음절 구조, 종성 발음 등 측면에서 영어와 음운 구조가 다르고, 방언이나 말의 속도 등에서 차이가 있어 영어 데이터로 학습된 모델을 그대로 적용할 경우 최적의 성능을 기대하기 어렵다. Table 3은 본 연구에서 활용된 주요 데이터셋의 핵 심 특징과 한계를 요약한 것이다. Table 3에서 볼 수 있듯이, 한국어 환경에서는 활용 가능한 대규모 병 렬 데이터셋이 부재하고 데이터 간 품질이 불일치 하는 문제가 핵심적인 한계로 작용한다. AI Hub 등 을 통해 대규모의 깨끗한 한국어 음성 데이터와 다 양한 소음 데이터가 공개되어 있는 것은 사실이다. 하지만 SOTA 모델 훈련에 사용되는 글로벌 데이터 셋은 단순히 두 데이터를 합치는 것을 넘어, 수만 개 이상의 개별 잡음 클립과 수천 개의 공간 음향 특성 (Room Impulse Response, RIR)을 체계적으로 조합하 여 현실 세계의 다양한 소리 환경을 정교하게 재현 한다. 이러한 고품질의 대규모 병렬 데이터셋을 구 축하는 과정은 상당한 공학적 자원과 시간이 요구 되는 작업이며, 아직 한국어에 대해서는 이와 같은 수준의 데이터셋이 공개되지 않은 실정이다. 더욱이, 공개된 한국어 음성 데이터 중 KsponSpeech 등 일부를 제외하면 깨끗한 음성으로 분류된 데이 터에도 미세한 배경 잡음이 포함되거나, 48 kHz환경 을 표준으로 하는 최신 연구들과 달리 16 kHz로 녹음 된 경우가 많다. 이러한 데이터를 단순히 업샘플링 하여 고품질 데이터와 혼합해 학습할 경우, 모델이 제한된 주파수 대역을 깨끗한 상태로 오인하여 오 히려 성능이 저하되는 현상이 발생할 수 있다. 이러 한 데이터셋의 한계는, 본 논문에서 진행하는 것과 같이 기존의 검증된 모델을 기반으로 한국어 데이 터를 적용하고 그 성능 변화를 분석하는 연구의 필 요성을 제기한다. IV. 한국어 데이터 적용 및 모델 검증 4.1 Baseline 모델 선정 본 연구에서는 한국어 데이터 적용을 위한 기반 모델로 DeepFilterNet2를 선정했다. 이 모델은 효율적 인 경량화 구조를 가지며, 공개된 소스 코드를 통해 구현이 용이하다는 장점이 있다. [9] 특히 48 kHz 전대 역 음성에 대해 CPU 환경에서도 실시간 처리가 가 능하며, VoiceBank + DEMAND 벤치마크에서 SOTA 수준의 성능이 보고되어 기술적 위험이 낮으면서도 높은 성능을 확보할 수 있다고 판단하였다. 기준 모 델은 원 논문의 설정을 따르며, 프레임 크기 20 ms와 프레임 시프트 10 ms를 사용했고, 총 파라미터 수는 약 1.36 M이다. [9] Table 3. Comparison of key characteristics of major speech and noise datasets. DatasetLang.FsKey features and limits VoiceBank + DEMAND English48 kHz – Paired clean and noisy – Many works use 16 kHz after downsample – Single channel synthetic mix – Limited scale and scene diversity DNS challenge Multi (mainly English) 48 kHz – Large real noise and RIR – Broad conditions – Korean coverage limited Kspon speech Korean16 kHz – Large spontaneous dialog – Quiet indoor recording – No paired clean and noisy – Not suited for 48 kHz studies딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 545 4.2 실험 모델 구조 본 실험에서는 기반 모델의 구조를 그대로 사용하 되, 실시간 처리 조건과 성능의 균형을 검증하기 위 해 Fig. 2에서 보이는 바와 같이 세 가지 인과성 설정 으로 나누어 학습 및 평가를 진행했다. 첫째, 완전 인과적 모델은 현재 프레임 처리 시 미 래 신호를 전혀 참조하지 않는 구조(lookahead = 0)로, 알고리즘으로 인한 추가 지연이 발생하지 않아 지 연 최소화가 최우선인 통신이나 보청기 환경에 적 합하다. 둘째, 부분 인과적 모델은 2개 프레임의 미래 신 호를 참조(lookahead = 2)하도록 설계했다. 즉, 현재 프레임 를 처리할 때, 과 시점의 미래 신 호 정보를 함께 사용한다. 이는 2 × hop size(10 ms) = 20 ms의 추가적인 알고리즘 지연을 발생시키는 대 신, 폭발음이나 성조 변화 등을 미리 참고하여 잡음 제거의 정확도를 높이는 것을 목표로 한다. 약간의 지연을 대가로 성능 개선을 꾀하는 절충적인 설정 이다. [12] 셋째, 비인과적 모델은 양방향 GRU를 활용하여 전체 입력 시퀀스의 과거와 미래 정보를 모두 반영 한다. 즉, 프레임 의 출력을 계산할 때 전체 입력 시 퀀스의 과거와 미래를 모두 사용한다. 고정된 lookahead 값이 없으며, 각 에 대해 남은 전 구간이 미래 문맥이 된다. 오프라인 처리 특성상 출력은 시 퀀스 종료 이후에 산출된다. 이 모델은 실시간 적용 은 어렵지만, 미래 정보 부재로 인한 성능 손실이 어 느 정도인지 파악하고 이론적인 성능 상한치를 가 늠하기 위한 비교 목적으로 설계되었다. 4.3 손실 함수 딥러닝 모델의 훈련은 예측 결과와 실제 정답 간 의 오차를 최소화하는 방향으로 진행되며, 이 오차 를 측정하는 기준이 바로 손실 함수이다. 본 연구에 서는 다중 해상도(Multi-Resolution, MR) STFT 손실을 사용하였다. 이는 서로 다른 STFT 파라미터(FFT 크 기, 윈도우 크기 등)를 갖는 여러 개의 STFT 손실을 조합한 것으로, 시간 및 주파수 영역에서 다양한 관 점의 오차를 동시에 줄여 음질을 효과적으로 개선 할 수 있다. MR-STFT 손실 은 스펙트럼 수 렴 손실 와 로그 STFT 크기 손실 의 합으로 구성되며, 각 손실은 다음과 같이 정의된다. ∥ ∥ ,(1) log log ,(2) 여기서 와 는 각각 깨끗한 음성과 예측된 음성 의 스펙트로그램, ∙ 는 크기 스펙트럼, ∥∙∥ 와 ∥∙∥ 은 각각 Frobenius norm과 L1 norm을 의미한 다. 최종적으로 는 개의 다른 해상도에 대한 손실들의 평균으로 계산된다. .(3) 본 연구에서는 48 kHz 샘플링 레이트 오디오에 대 해 세가지 해상도를 사용하였으며, 각 해상도의 FFT 크기는 {2048, 1024, 512}, 윈도우 크기는 {40 ms, 20 ms, 10 ms}로 설정하였다. 4.4 성능 평가 본 연구의 훈련 및 평가에 사용된 데이터셋의 구 성은 다음과 같다. 훈련 데이터셋은 두 종류로, 첫째 Fig. 2. Comparison of causality settings for the three models used in the experiment.김선만 한국음향학회지 제 44 권 제 5 호 (2025) 546 ‘Eng’ 훈련셋은 DNS Challenge 데이터와 Valentini 데 이터셋(28 spk, 56 spk 버전 포함)을 통합하여 구성하 였다. 둘째, ‘Eng + Kor’ 훈련셋은 여기에 대규모 한 국어 데이터인 KsponSpeech 코퍼스 [16] 를 추가했다. KsponSpeech는 전체 데이터의 85 %를 학습용, 15 % 를 검증용으로 분리하여 사용하였다. 학습 데이터 생성 시, SNR은 –10 dB부터 40 dB까지(–10 dB, –7 dB, –5 dB, 0 dB, 3 dB, 5 dB, 7 dB, 10 dB, 15 dB, 20 dB, 40 dB) 의 넓은 범위에서 다양하게 설정하여 모델이 여러 잡음 환경에 강인하게 학습되도록 하였다. 모델 학 습은 8개의 NVIDIA A40 GPU가 장착된 서버에서 수 행되었다. 평가 데이터셋 또한 두 종류로 구성되었다. ‘Eng’ 평 가셋으로는 표준 벤치마크인 VoiceBank + DEMAND 테스트셋을 사용하였다. ‘Kor’ 평가셋은 본 연구에 서 직접 구축한 것으로, KsponSpeech의 공식 평가용 데이터(eval_clean)에 잡음을 합성하여 제작하였다. 이때, 모델의 일반화 성능을 공정하게 측정하기 위 해 VoiceBank + DEMAND 테스트셋과 동일하게 학습 시 사용되지 않은 SNR 조건(2.5 dB, 7.5 dB, 12.5 dB, 17.5 dB)을 적용하였다. 평가지표로는 음질 PESQ와 음성 명료도 STOI를 사용했다. 평가 결과는 Table 4에 요약되어 있다. 비인과적 모델은 전체 시퀀스를 활용하여 세 모델 중 가장 높 은 성능 상한선을 보였고, 완전 인과적 모델은 지연 이 없지만 성능은 가장 낮았다. 주목할 만한 점은 한 국어 데이터를 추가 학습했음에도 불구하고 한국어 테스트셋에서의 성능이 기대만큼 향상되지 않았다 는 것이다. 영어로만 학습된 Baseline Lookahead 모델 은 한국어 테스트셋에서 PESQ 2.36을 기록했으나, 한 국어 데이터를 추가 학습한 Lookahead 모델은 PESQ 2.38로 개선 폭이 미미했다. Causal 모델의 경우, 오히 려 성능이 PESQ 2.30으로 소폭 하락하는 예상 밖의 결과를 보였다. 이러한 예상 밖의 결과는 학습 데이터 간의 품질 불일치 문제, 특히 샘플링 레이트 차이에서 비롯된 것으로 분석된다. 본 연구에 사용된 영어 데이터셋 (DNS, Valentini)은 48 kHz의 고품질 광대역 음성인 반면, 한국어 데이터셋(KsponSpeech)은 16 kHz로 녹 음된 협대역 음성을 48 kHz로 업샘플링하여 사용했 다. 업샘플링은 파일의 샘플링 레이트를 맞출 수는 있지만, 실제로는 8 kHz 이상의 고주파수 대역에 유 의미한 정보를 생성하지 못한다. 따라서 모델은 학 습 과정에서 깨끗한 영어 음성은 풍부한 고주파수 성분을 가지지만, 깨끗한 한국어 음성은 고주파수 성분이 없다는 상충되는 정보를 학습하게 된다. 결과적으로, 혼합 데이터로 학습된 모델은 잡음 이 섞인 한국어 음성을 처리할 때, 잡음뿐만 아니라 유의미한 고주파수 성분까지 함께 제거하여 훈련 시 학습했던 고주파수 정보가 없는 한국어 데이터 와 유사하게 만들려는 경향을 보인 것으로 추정된 다. 이러한 고주파수 정보의 손실은 PESQ와 같은 객 관적 음질 평가 지표에서 큰 감점 요인으로 작용하 여, 한국어 데이터 추가 학습의 효과가 기대에 미치 지 못하는 결과를 낳은 것이다. V. 결론 및 고찰 본 논문은 딥러닝 기반 음성 디노이징 기술 동향 을 살펴보고, SOTA 모델을 한국어 환경에 적용하는 실험을 진행했다. 이를 위해 영어 중심 데이터로 학 습된 기준 모델과, 16 kHz 한국어 데이터를 업샘플링 하여 추가 학습한 모델의 성능을 비교 분석하였다. 실험 결과, 한국어 데이터를 추가 학습한 모델이 영 Table 4. Performance comparison of the proposed DeepFilterNet2-based models and baselines on English and Korean test sets. For details on the dataset composition for ‘Eng’ and ‘Kor’, please refer to Section 4.4. Model (latency) Train DBTest DBPESQSTOI Unprocessed- Eng 1.970.920 Kor1.690.877 Baseline lookahead = 2 (40 ms) Eng Eng3.110.943 Kor2.360.909 Causal (20 ms) Eng + Kor Eng3.000.940 Kor2.300.890 Lookahead = 2 (40 ms) Eng + Kor Eng3.080.942 Kor2.380.899 Non-causalEng + Kor Eng3.290.96 Kor2.660.93딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 547 어로만 학습한 모델보다 오히려 한국어 테스트셋에 서 성능이 저하되거나 개선 폭이 미미한 현상을 관 찰했다. 이는 학습 데이터셋 간 샘플링 레이트 불일 치로 모델이 깨끗한 한국어 음성의 특징을 잘못 학 습했기 때문으로 분석된다. 즉, 모델이 잡음과 함께 유의미한 고주파수 성분까지 제거하며 대역폭이 제 한된 학습 데이터의 특징을 모방하려 한 것이다. 이 는 다국어 데이터셋 활용 시 데이터의 양보다 품질, 샘플링 레이트 등 물리적 특성의 동질성 확보가 모 델 성능에 결정적임을 실증한다. 향후 과제로는 본 연구에서 확인된 문제를 해결하기 위해, 주파수 대 역 확장기술이나 도메인 적응기법을 모델 구조에 통합하는 연구를 탐색할 계획이다. 또한, 데이터 품 질 불일치의 영향을 명확히 규명하기 위해 한국어 데이터셋만으로 학습한 모델과의 비교 분석 연구가 필수적이다. 감사의 글 본 논문은 한신대학교 학술연구비 지원에 의하여 연구되었음. References 1.P. C. Loizou, Speech Enhancement: Theory and Practice (CRC Press, Boca Raton, 2013), pp. 1-10. 2.Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator,” IEEE Trans. Acoust. Speech, Signal Process. 32, 1109-1121 (1984). 3.Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process. 23, 7-19 (2015). 4.K. Tan and D. Wang, “A convolutional recurrent neural network for real-time speech enhancement,” Proc. Interspeech, 3229-3233 (2018). 5.C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, “Investigating RNN-based speech enhan- cement methods for noise-robust text-to-speech,” Proc. SSW9, 145-150 (2016). 6.Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, “DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement,” Proc. Interspeech, 2472-2476 (2020). 7.S. Pascual, A. Bonafonte, and J. Serra, “SEGAN: Speech enhancement generative adversarial network,” Proc. Interspeech, 3642-3646 (2017). 8.Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process. 27, 1256-1266 (2019). 9.H. Schröter, A. N. Gomez, and T. Gerkmann, “Deep- FilterNet2: Towards real-time speech enhancement on embedded devices for full-band audio,” arXiv: 2205.05474 (2022). 10.W. Tai, Y. Lei, F. Zhou, G. Trajcevski, and T. Zhong, “DOSE: Diffusion dropout with adaptive prior for speech enhancement,” Proc. NeurIPS, 1-22 (2023). 11.J.-M. Valin, “A hybrid DSP/deep learning approach to real-time full-band speech enhancement,” Proc. MMSP, 1-5 (2018). 12.A. Li, C. Zheng, L. Zhang, and X. Li, “Glance and gaze: A collaborative learning framework for single- channel speech enhancement,” Appl. Acoust. 187, 108535 (2022). 13.G. Zhang, L. Yu, C. Wang, and J. Wei, “Multi-scale temporal frequency convolutional network with axial attention for speech enhancement,” Proc. ICASSP, 9122-9126 (2022). 14.H. Dubey, V. Gopal, R. Cutler, A. Aazami, S. Matusevych, S. Braun, S. E. Eskimez, M. Thakker, T. Yoshioka, H. Gamper, and R. Aichner, “ICASSP 2022 deep noise suppression challenge,” Proc. ICASSP, 9271-9275 (2022). 15.C. K. A. Reddy, V. Gopal, and R. Cutler, “Dnsmos P.835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors,” Proc. ICASSP, 721-725 (2022). 16.J. Ha, S. Kwak, and S. Jung, “KsponSpeech: Korean spontaneous speech corpus for automatic speech recognition,” Appl. Sci. 10, 6936 (2020). 저자 약력 ▸김 선 만 (Seon Man Kim) 2013년 2월 : GIST 정보기전공학부 공학 박사 2015년 10월 : ISVR 박사후 연구원 2017년 5월 : GIST 연구교수 2018년 11월 : LG디스플레이 CTO 책임연 구원 2024년 8월 : 한국광기술원 책임연구원 2024년9월 ~ 현재 : 한신대학교 조교수한국음향학회지 제44권 제5호 pp. 548~555 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.548 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Ha-Jin Yu (hjyu@uos.ac.kr) School of Cmputer Science, College of Engineering, University of Seoul, 163 Siripdae-ro, Dongdaemun-gu, Seoul 02504, Republic of Korea (Tel: 82-2-6490-5697, Fax: 82-2-6490-2444) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 잡음 환경에 강인한 다중 특징 교사 학생 학습 기반 화자 인증 시스템 A teacher student model based integrated feature speaker verification system robust to noisy environments 구교원, 1 허정우, 1 신현서, 1 임찬영, 1 김승빈, 1 손지수, 1 김경화, 2 유하진 1† (Kyo-won Koo, 1 Jungwoo Heo, 1 Hyun-seo Shin, 1 Chan-yeong Lim, 1 Seung-bin Kim, 1 Jisoo Son, 1 Kyung-Wha Kim, 2 and Ha-Jin Yu 1 † ) 1 서울시립대학교, 2 대검찰청 (Received August 8, 2025; accepted September 9, 2025) 초 록: 기존의 화자 인증 시스템은 깨끗한 발화 환경에서는 우수한 성능을 보이지만, 잡음이 혼입된 경우에는 성능이 저하되는 현상을 보인다. 이를 개선하기 위해 교사 학생 학습을 활용하여 화자 인증 시스템의 잡음 강인성을 향상시키는 연구가 진행되었지만, 단일 입력에 의존한다는 구조적 한계를 갖는다. 실제 음성 환경에서는 정상(stationary) 잡음이나 돌발성 잡음 등 다양한 잡음 유형이 존재할 수 있으며, 이러한 잡음은 표현 방식에 따라 상이하게 나타날 수 있다. 본 연구 에서는 이러한 여러 가지 유형의 잡음을 각각 잘 표현해 주는 특징들을 통합하여 활용하는 통합 특징 시스템을 제안한다. 제안한 시스템은 원시 파형을 입력받는 교사 학생 학습 기반 Pre-trained Large Model(PLM) 분기에 병렬적으로 컨볼 루션 기반 추출기를 통해 스펙트로그램을 가공하는 분기를 도입하였다. 그 후 특징 융합 모듈을 통해 두 분기 특징을 적 응적으로 통합하여, 각 입력 특징의 장점을 상호보완적으로 활용하도록 설계하였다. 실험 결과, 기존 PLM 기반 단일 입력 시스템 대비 동일 오류율(Equal Error Rate, EER)이 도메인 내 잡음 환경에서 약 18 %, 도메인 외 잡음 환경에서 약 49 % 상대적으로 개선되었다. 또한 다양한 실제 환경 데이터셋에서도 경쟁력 있는 성능을 보여, 제안한 시스템이 잡음 환경에서 우수함을 입증하였다. 핵심용어: 화자 인증, 잡음 강인성, 통합 특징, 사전 학습된 거대 모델 ABSTRACT: While existing speaker verification systems exhibit excellent performance in clean environments, they suffer from performance degradation when contaminated with noise. Although recent research has employed teacher-student learning to enhance the noise robustness of speaker verification systems, these approaches are limited by their reliance on single input modalities. In real-world acoustic environments, various types of noise exist such as stationary and impulsive, and their characteristics manifest differently across different modalities. We propose an integrated feature system that leverages various features that each can represent different noise types differently. This system incorperates a CNN Extractor that processes spectrograms in parallel with the teacher-student learning-based Pre-trained Large Model(PLM) branch that processes raw waveforms. Features extracted from both branches are adaptively integrated through a feature fusion module, designed to exploit the complementary advantages of each input representation. The experimental results showed that the Equal Error Rate (EER) was improved by approximately 18 % in the domain noise environment and approximately 49 % in the out-of-domain noise environment compared to the existing PLM-based single input system. Furthermore, consistent performance improvements were observed across various real-world datasets validating the competitive performance of the proposed system in noisy environments. Keywords: Speaker verification, Noise robustness, Integrated feature, Self Supervised Pre-trained Large Model (Self Supervised PLM) PACS numbers: 43.72.Fx, 43.72.Dv 548잡음 환경에 강인한 다중 특징 교사 학생 학습 기반 화자 인증 시스템 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 549 I. 서 론 화자 인증이란 입력된 음성의 화자가 시스템에 등 록된 화자와 일치하는 지 여부를 판단하는 과제로 금융 서비스, 보안 인증 등 다양한 분야에서 활용되 고 있다. 최근 화자 인증 분야에서는 딥러닝 기반 화 자 인증 시스템이 우수한 성능을 보이고 있다. 그러 나 이러한 시스템은 깨끗한 발화 환경에서는 우수 한 성능을 보이나, 잡음이 섞인 발화에 대해서는 성 능이 저하되는 현상을 보인다. [1] 잡음 환경에서 화자 인증 시스템의 일반화 성능을 개선하기 위해, 교사 학생 학습을 활용한 연구가 수 행되었다. [2,3] 교사 학생 학습이란 잡음이 섞인 발화 를 입력 받은 학생 모델의 출력이 깨끗한 발성을 입 력 받은 교사 모델의 출력과 유사하도록 학습을 진 행하는 학습 방식이다. 선행 연구들에서는 화자 인 증 시스템을 학생 모델로 채택하여 화자 인증 시스 템의 잡음 강인성을 향상시켜 잡음 환경에서 우수 한 성능을 달성하였다. 그러나 대부분의 선행 연구들은 시간 축 상의 원 시 파형 또는 주파수 축 상의 스펙트로그램 정보 중 하나에만 의존하는 구조적 한계를 갖는다. 실제 음 성 환경에서는 다양한 잡음 유형이 존재하며, 이들 은 표현 방식에 따라 서로 다르게 나타날 수 있다. Fig. 1의 왼쪽은 특정 발화에 짧고 강한 충격음이 혼 입된 경우를 시각화한 그래프 및 히트맵이며, 오른 쪽은 일정한 세기의 사이렌 소리가 혼입된 경우의 시각화이다. 짧고 강한 충격음이 혼입된 경우, 시간 축 상에서는 불규칙한 패턴이 뚜렷하게 나타나는 반면, 주파수 기반 스펙트로그램 상에서는 그 패턴 이 불명확하게 표현된다. 반면, 일정한 세기의 사이 렌 소리가 혼입된 경우, 스펙트로그램 상에서는 선 명하게 구분되지만 시간 축 상에서는 식별이 어렵 다. 이러한 사례는 화자 정보와 잡음이 표현 방식에 따라 상이하게 드러난다는 점을 시사하며 두 표현 방식이 상호보완적인 정보를 제공할 수 있음을 암 시한다. 한편, 최근 음성 딥페이크 탐지 분야에서는 원시 파형과 스펙트로그램 입력 특징을 동시에 활용하는 다중 관점 학습 기반 시스템이 제안 되었다. [4] 다중 관점 학습은 서로 다른 표현 공간의 정보를 통합하 여 더 풍부하고 강인한 특징을 활용하는 기법으로, 원시 파형과 스펙트로그램과 같이 상호보완적인 입 력 특징을 통해 시스템의 강인성을 향상시킬 수 있 음을 입증하였다. 이러한 가능성에 기반하여, 본 논문에서는 다양 한 잡음에서의 화자 인증 시스템의 일반화 성능 개 선을 위해 다중 입력 특징을 활용하는 교사 학생 학 습 기반 화자 인증 시스템을 구축하였다. 구체적으 로, 교사 학생 학습을 적용한 사전 학습된 거대 모델 (Pre-trained Large Model, PLM) 기반 시스템에 2개의 1D 컨볼루션 블록으로 구성된 컨볼루션 기반 추출 기를 통해 스펙트로그램을 가공하는 분기를 병렬 적으로 설계하여 다중 특징을 활용하도록 하였다. 또한, 특정 잡음에 적합한 입력 특징이 다를 수 있 음을 반영하기 위해, 특징 융합 모듈을 구축해 각 분기에서 추출된 특징의 정보를 선택적으로 활용 할 수 있도록 하였다. 제안한 시스템은 12개 트랜스포머 인코더 계층으 로 이루어진 WavLM base+ 를 교사 및 학생 모델로 사 용하여 VoxCeleb2 데이터셋에서 학습을 진행하였 고, 화자 인증 백엔드 모델로 ECAPA-TDNN을 결합 하였다. 실험은 VoxCeleb1 trial-O 평가 파티션에 도 메인 내 잡음 환경으로 MUSAN 데이터셋을, 도매인 외 잡음 환경으로 Nonspeech 100 데이터셋을 SNR 0 dB, 5 dB, 10 dB, 15 dB, 20 dB로 합성하여 평가하였다. 그 결과, WavLM base+ 모델에 ECAPA-TDNN을 결합 한 시스템(Baseline)이 도메인 내 잡음환경에서 평균 동일 오류율(Equal Error Rate, EER) 2.65 %를, 도메인 외 잡음 환경에서 3.87 %를 기록한 반면, 제안한 시 스템은 도메인 내 잡음 환경에서 2.16 % , 도메인 외 Fig. 1. (Color available online) Illustration of transient and stationary noise distortions in waveform and spectrogram domains.구교원, 허정우, 신현서, 임찬영, 김승빈, 손지수, 김경화, 유하진 한국음향학회지 제 44 권 제 5 호 (2025) 550 잡음 환경에서 1.99 % 달성해 기준 시스템 대비 최대 약 56 %의 상대 개선율 향상을 보이며, 제안한 시스 템의 우수성을 입증하였다. 본 논문은 다음과 같이 구성된다. II장에서는 관련 연구를 검토하고, III장에서는 본 논문에서 제안하 는 잡음 환경을 위한 다중 입력 특징 기반 화자 인증 시스템의 구성 요소를 설명한다. IV장에서는 제안 한 시스템에 대한 잡음 환경 화자 인증 실험의 설계 및 실험 결과의 분석을 다루며, 마지막으로 V장에서 는 결론 및 향후 연구 계획을 제시한다. II. 관련 연구 잡음 환경에서의 화자 인증 시스템의 일반화 성능 을 개선하기 위해 교사 학생 학습을 활용하는 연구 들이 진행되었다. MohammadAmini et al. [2] 은 스펙트 로그램을 입력으로 사용하는 ResNet 기반 화자 인증 시스템에 교사 학생 학습을 적용한 프레임워크를 구축하였다. 이러한 프레임워크는 잡음이 포함된 음 성과 깨끗한 음성의 x-벡터 간 거리를 최소화하여 잡 음 환경에서도 일관된 화자 표현을 추출할 수 있도 록 하였다. Lim et al. [3] 은 원시 파형을 입력으로 사용 하는 자가 지도 학습 기반 사전 학습된 모델의 잡음 강인성을 향상시키기 위해 Noise Adaptive Warm-up training for Speaker Verification(NAW-SV) 프레임워크 를 제안하였다. 이들은 추가적인 학습 단계를 제안 하였으며, 이러한 단계에서 교사 학생 학습을 적용 하여 화자 정보를 효과적으로 보존하면서 깨끗한 원시 파형에서 추출된 특징과 유사한 품질의 특징 을 추출할 수 있도록 하였다. 그러나 이러한 선행 연 구들은 잡음 환경에서의 화자 인증 시스템의 일반 화 성능을 개선하였지만, 단일 입력 특징을 활용한 다는 구조적 한계점이 존재한다. 한편, 최근 음성 딥페이크 탐지 분야에서는 원시 파형과 스펙트로그램 입력 특징을 동시에 활용하는 다중 관점 학습 기반 시스템이 제안되었다. Zhang et al. [4] 은 음성 딥페이크 탐지를 위해 시간 도메인과 주 파수 도메인의 특징을 결합하는 다중 관점 협업 학 습 네트워크를 제안하였다. 이들은 서로 다른 도메 인의 특징이 상호보완적 정보를 제공함을 실험적으 로 입증하였으며, 특히 시간 축에서 포착하기 어려 운 미세한 변조 패턴을 주파수 도메인에서 효과적 으로 탐지할 수 있음을 보였다. 이러한 가능성을 기반으로, 본 연구는 다중 입력 을 활용하는 교사 학생 학습 기반 화자 인증 시스템 을 구축하는 연구를 수행하였다. III. 제안하는 기법 본 장에서는 다양한 잡음에서의 화자 인증 성능을 개선하기 위한 다중 입력 특징을 활용하는 교사 학 생 학습 기반 화자 인증 시스템의 전반적인 동작 과 정과 각 구성요소에 대해 상세히 기술한다. Fig. 2 (a)-(c)는 제안하는 시스템의 각 분기 및 모듈을 도식 Fig. 2. (Color available online) Each component of the proposed system.잡음 환경에 강인한 다중 특징 교사 학생 학습 기반 화자 인증 시스템 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 551 화 하였다. 기존 교사 학생 학습 기반 프레임워크는 잡음이 섞인 발화를 입력 받은 학생 모델의 출력과 깨끗한 발화를 입력받은 교사 모델의 출력이 유사해지도록 학습을 진행한다. 그러나 선행 연구들은 시간 축 상 의 원시 파형 또는 주파수 축 상의 스펙트로그램 중 하나만을 활용하는 구조적인 한계점이 존재한다. 실제 환경에서는 다양한 잡음 유형이 존재하며, 이 러한 잡음이 혼입되는 경우, 화자 정보와 잡음은 입 력 특징에 따라 상이한 패턴을 보일 수 있다. 이러한 한계를 극복하기 위해, 본 연구에서는 시 간 축 상의 원시 파형을 활용하는 PLM 기반 교사 학 생 학습 기반 시스템에 주파수 축 상의 스펙트로그 램을 활용하는 분기를 병렬적으로 구성하여, 두 가 지 상호보완적인 특징을 동시에 활용하도록 구축하 였다. 이를 통해 각 표현 방식의 장점을 최대한 활용 하면서 단일 입력의 한계를 보완하고자 한다. 3.1 PLM 분기 PLM 분기에서는 교사 학생 학습 전략을 활용하여 시간 축 상의 원시 파형에서 잡음에 강인한 특징을 추출하는 것을 목표로 한다. Fig. 2(a)는 PLM 분기의 구체적인 동작 과정의 도식화를 나타낸다. 먼저, 교 사 모델은 사전 학습된 PLM의 파라미터를 고정한 상태로 깨끗한 원시 파형을 입력 받아 참조 특징 ∈ × 를 출력한다. 이와 동시에, 학생 모델은 교사 모델과 동일한 구조를 가지되, 잡음이 포함된 음성을 입력받아 ∈ × 를 출력하며, 생성된 는 특징 융합 모듈로 전달된다. 학습 과정에서 각 트랜스포머 계층의 출력에 대해 평균 제곱 오차 손실(Mean Square Error, MSE)을 적용 하여, 학생 모델이 다양한 추상화 수준에서 잡음에 불변인 표현을 학습하도록 유도한다. 이를 통해, 학 생 모델은 잡음이 섞인 원시 파형으로부터도 깨끗 한 원시 파형에서 출력된 특징과 유사한 품질의 특 징을 추출할 수 있다는 장점을 갖는다. ,(1) 여기서 은 계층의 인덱스를, 은 PLM 의 전체 계층 수를 나타내며, 과 은 각각 교사 모델과 학생 모델의 번째 계층의 출력을 의미한다. 3.2 스펙트로그램 분기 PLM 분기와 병렬적으로, 스펙트로그램 분기는 Fig. 2(b)와 같이 주파수 영역의 정보를 활용하여 PLM 분기를 보완할 수 있는 특징을 추출하는 것을 목표로 한다. 원본 스펙트로그램과 PLM 분기의 출 력의 차원을 일치시켜 합연산을 쉽게 하기 위해, 2개 의 1D 합성곱 계층으로 구성된 컨볼루션 기반 추출 기를 구축하였다. 먼저, 잡음이 섞인 발화를 푸리에 변환을 통해 스펙트로그램으로 변환한다. 컨볼루션 기반 추출기가 스펙트로그램으로부터 ∈ × 을 생성하여 특징 융합 모듈로 전달한다. 이를 통해 입력 발화의 주파수 기반 특징을 효과적으로 추출 하여 원시 파형 기반 특징과 상호보완적으로 활용 할 수 있다. 3.3 특징 융합 모듈 특징 융합 모듈은 두 분기에서 추출된 특징 과 을 적응적으로 통합하여 임베딩 추출기에 전달한다. 발화에 혼입되는 다양한 잡음들은 표현 방식에 따라 상이한 패턴을 나타낼 수 있기에 모델 이 직접 필요한 특징을 취합할 수 있도록 각 특징에 Attention을 부여하고 통합하도록 설계하였다. 먼저, Fig. 2(c)와 같이 PLM 분기의 학생 모델의 특징을 ∈ ××을 가중합을 통해 ∈ ×으로 집 계한다. 이때, ∈ 은 학습 가능한 가중치 벡터를 의미한다. dim ,(2) dim ,(3) 그 후, 각 분기의 특징인 , 에 Attention 연 산을 삽입하여 시간축으로 중요한 정보를 부각한다. 그 후, 학습 가능한 파라미터 와 를 사용하여 최종 적으로 가중합된 특징 ∈ × 을 생성한다. 구교원, 허정우, 신현서, 임찬영, 김승빈, 손지수, 김경화, 유하진 한국음향학회지 제 44 권 제 5 호 (2025) 552 ⋅ ⋅ .(4) 생성된 특징 은 화자 인증 임베딩 추출기에 전달되며, 화자 인증 손실 함수를 통해 학습된다. IV. 실험 설계 및 결과 4.1 데이터셋 본 연구에서는 제안한 시스템의 학습을 위해 VoxCeleb2 [5] 개발 데이터 세트를 활용하였다. 해당 데이터 세트는 YouTube에 업로드된 5,994명의 유명 인사의 인터뷰 등의 동영상에서 추출된 음성으로 구성된다. 또한 잡음 증강을 위해 MUSAN [6] 데이터 세트를 훈련과 평가 데이터 셋으로 분할하여 사용 하였으며, 학습 데이터 셋에 0 dB ~ 20 dB 신호대잡음 비(Signal to Noise Ratio, SNR) 범위에서 무작위로 잡 음을 주입하여 활용하였다. 학습된 모델은 도메인 내 잡음 및 도메인 외 잡음 데이터 세트에서 평가 되었다. 도메인 내 잡음 강인 성을 평가하기 위해 VoxCeleb1 trial-O 평가 데이터 세트와 MUSAN 평가 데이터 세트를 0 dB, 5 dB, 10 dB, 15 dB, 20 dB SNR로 합성하여 평가하였다. 또한, 도메인 외 잡음 강인성을 평가하기 위해 VoxCeleb1 trial-O 평가 데이터 세트와 Nonspeech 100 [7] 평가 데 이터를 0 dB, 5 dB, 10 dB, 15 dB, 20 dB SNR로 합성하여 평가하였다. 마지막으로 제안한 기법의 범용성을 확 인하기 위해 VoxSRC 2023, [8] VCMix, [9] VOiCES [10] 평 가 데이터 세트를 사용하여 평가하였다. 4.2 구현 세부사항 본 연구에서는 사전 학습 거대 모델로는 WavLM base+ [11] 를 사용했으며, 해당 모델의 은닉 차원( )은 768차원으로 설정되어 있다. 스펙트로그램 특징으 로는 80 차원 Log Mel Spectrogram을 활용하였다. 임 베딩 추출기로는 512 채널의 ECAPA-TDNN [12] 모델 을 사용했다. 출력된 화자 임베딩은 AAM-Softmax를 통해 학습되며, 마진 값은 0.2, 스케일 값은 30으로 설 정하였으며, 평가 지표로는 동일 오류율(Equal Error Rate, EER)을 사용했다. 제안한 시스템의 우수성을 평가하기 위한 baseline 시스템으로는 사전 학습된 거대 모델인 WavLM 또 는 HuBERT와 임베딩 추출기인 ECAPA-TDNN을 결 합한 시스템을 제안하는 시스템과 동일한 환경에서 학습을 진행한 모델을 활용하였다. 4.3 도메인 내 잡음 환경 평가 결과 Table 1은 학습 환경에서 마주칠 수 있는 잡음에 대한 강인성을 평가하기 위해, 도메인 내 잡음 환경 에서 각 SNR 별 시스템에 따른 화자 인증 성능을 비 교한 결과이다. 이 때, 분석의 용이성을 위해 잡음 환 경의 경우 평균 동일 오류율을 추가로 표기하였다. 기준 시스템으로 활용된 단일 입력을 활용하는 미 세조정 시스템의 경우, 깨끗한 환경에서 동일 오류 율 0.94 %를 기록하였으며, 잡음 환경의 경우 평균 동일 오류율 2.65 %를 기록하였다. 단일 입력을 활용한 교사 학생 학습을 적용한 시 스템인 NAW-SV [3] 의 경우, 깨끗한 환경에서 동일 오 류율 0.85 %를 기록하여 기준 시스템 대비 약 9 % 의 상대 개선율을 달성하였고, 잡음 환경의 경우 평균 동일 오류율 2.31 %를 기록하여 12 %의 상대 개선율 을 달성하였다. 이는 선행 연구 흐름에서 알려진 바 와 같이 기존 교사 학생 학습이 잡음 환경에서의 화 Table 1. EER of the each systems in In-domain (MUSAN) noise environment. In-domain noise environment (MUSAN) MethodInput feature EER (%) Clean NoiseMusicSpeech Noise Avg 051015200510152005101520 BaselineWaveform0.94 4.982.841.941.461.265.182.641.851.331.227.872.981.781.321.192.65 NAW-SVWaveform0.854.392.461.841.351.254.522.541.701.321.166.232.831.841.451.182.31 Proposed Waveform + Spectrogram 0.76 2.951.821.221.030.915.322.031.371.020.909.042.411.401.070.872.16잡음 환경에 강인한 다중 특징 교사 학생 학습 기반 화자 인증 시스템 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 553 자 인증 시스템의 일반화 성능 개선에 효과적임을 시사한다. 다중 입력을 활용하는 제안한 시스템의 경우, 깨 끗한 환경에서 동일 오류율 0.76 %를 기록하여 기준 시스템 대비 약 19 %의 상대 개선율을, NAW-SV 시 스템 대비 약 10 %의 상대 개선율을 달성하였다. 또 한 잡음 환경에서는 기준 시스템 대비 평균 동일 오 류율 18 %을, NAW-SV 시스템 대비 약 6 %의 상대 개 선율을 달성하였다. 특히, SNR 조건별 성능을 분석 한 결과, Speech 및 Music 잡음 환경에서 SNR 0 dB을 제외한 모든 SNR 조건에서 제안한 다중 입력 시스 템이 가장 우수한 성능을 보였다. 이는 다중 입력 기 반의 특성이 다양한 잡음에 대해 강인한 특징을 추 출할 수 있음을 의미한다. 반면, SNR 0 dB 조건에서 는 제안한 시스템의 동일 오류율이 다소 증가하는 경향을 보였는데, 이는 음성 신호와 잡음 신호의 크 기가 동일하여 잡음 속에 발화 신호가 부분적으로 섞여 있는 경우가 많기 때문으로 해석된다. 이러한 상황에서는 모델이 발화와 잡음을 명확히 구분하기 어려워 성능 저하가 발생할 수 있다. 그럼에도 불구 하고, 전반적으로 제안한 시스템은 다양한 잡음 조 건에서도 기존 시스템 대비 일관된 성능 향상을 달 성하였다. 4.4 도메인 외 잡음 및 다양한 잡음 환경 평가 결과 Table 2 는 미지의 잡음에 대한 강인성을 평가하기 위해, 도메인 외 잡음 환경에서 각 SNR 별 시스템에 따른 화자 인증 성능을 비교한 결과이다. 단일 입력 을 활용하는 기준 시스템의 경우, 도메인 외 잡음 환 경에서 평균 동일 오류율 3.87 %을 기록하였으며, 선행 연구인 NAW-SV시스템은 평균 동일 오류율 3.29 %를 기록하였다. 다중 입력을 활용하는 제안한 시스템의 경우, 도 메인 외 잡음 환경에서 평균 동일 오류율 1.99 %를 달 성하였다. 이러한 결과는 기준 시스템 대비 약 49 % 의 상대 개선율을, NAW-SV 시스템 대비 약 40 %의 상대 개선율을 달성한 결과이며, 특히 모든 SNR 조 건에서 큰 폭으로 개선되는 것을 확인할 수 있다. Table 3은 다양한 환경에서의 제안한 시스템의 강 인성을 평가하기 위해, VoxSRC 2023, VOiCES, VCMix 챌린지 데이터 셋에서 기준 시스템 및 NAW-SV, 제 안한 시스템을 평가한 결과이다. 제안한 시스템은 VoxSRC 2023과 VCMix 데이터셋에 대해 성능 향상 을 나타냈으며, 기준 시스템 대비 최대 6 %, NAW-SV 시스템 대비 최대 4.4 %의 상대 개선율을 기록하였 다. 이러한 결과는 제안한 다중 입력 기반 시스템이 미지의 잡음 환경뿐만 아니라 실제 환경에서도 높 은 일반화 성능과 강인성을 보임을 나타낸다. 이는 서로 다른 입력 특징 간의 상호보완적 정보를 효과 적으로 통합함으로써, 시스템이 다양한 잡음 유형 에 대해 적응적으로 대응할 수 있음을 시사한다. 그러나 VOiCES 데이터셋에 대한 실험 결과에서 는 기존 연구인 NAW-SV 시스템이 제안한 시스템 대 비 우수한 성능을 보여준다. 이는 NAW-SV에서 제 안된 잡음 환경에 적합한 학습 전략 및 손실함수로 인한 결과로 분석된다. 따라서, 향후 연구에서 본 연 구의 다중 특징 구조와 이러한 학습 전략을 결합하 Table 2. EER of the baseline and proposed system in out-of-domain (Nonspeech 100) noise enviroment. Out-of-domain noise environment (Nonspeech 100) PLMMethod EER (%, Noise Avg) 05101520Avg wavLM base+ Baseline7.394.183.132.522.173.87 NAW-SV6.193.652.652.081.883.29 Proposed4.312.201.431.130.941.99 HuBERT base Baseline9.963.306.074.453.475.39 NAW-SV8.074.743.462.922.544.35 Proposed5.082.581.751.411.202.4 Table 3. EER of the baseline and proposed system in various datasets. DatasetMethodEER (%) VoxSRC 2023 Baseline5.66 NAW-SV5.55 Proposed5.31 VCMix Baseline2.87 NAW-SV2.86 Proposed2.77 VOiCES Baseline8.13 NAW-SV6.65 Proposed8.02Next >