< Previous이웅재, 정수환 한국음향학회지 제 44 권 제 5 호 (2025) 534 특히, 음성 변조는 기존의 환경 노이즈와 달리 음성 의 신호 스펙트럼과 시간적 특성을 동시에 변화시 키면서도 청취자에게는 자연스러운 음성처럼 인식 될 수 있는 점이 특징이다. 예를 들어 피치 시프트, 타 임 스트레치, 오토튠과 같은 변형은 음성 신호를 인 위적으로 왜곡하지만 명료도가 유지되면서 정상 음 성으로 받아들여질 수 있다. 이런 음성 변조는 음성 처리 모델의 혼동을 더욱 가중시켜, 전통적인 환경 노이즈보다 더 심각한 성능 저하를 유발하는 것으 로 나타났다. 이와 같은 문제를 극복하기 위해, 본 연구는 음성 변조를 포함한 다양한 노이즈 유형이 음성 처리 모 델의 성능에 미치는 영향을 체계적으로 분석한다. 이러한 복합적 노이즈 환경에서도 모델의 강건성을 실직적으로 향상시킬 수 잇는 노이즈 분류 전략을 제안하고, 그 필요성을 강조한다. II. 선행 연구 선행 연구에서는 합성 노이즈가 음성 향상과 같은 음성 처리 작업에 미치는 영향을 다양하게 분석하 였다. [2] 특히 노이즈 강건성을 향상시키기 위한 데이 터 증강 기법들이 활발히 연구되어 왔으며, [3] 주파수 마스킹, 시간 왜곡 등 다양한 증강 방법과 Attention 메커니즘, CNN 기반 모델의 결합을 통해 소음 환경 에서의 음성 감정 분류 성능을 향상시키는 사례도 연구되었다. [4] 자동 음성 인식(ASR) 분야에서는 스펙트럼 기반 의 endpoint detection 기법을 활용하여 노이즈가 포함 된 환경에서도 정확한 음성 분할을 수행하려는 시 도가 이루어졌다. [5] 더불어, 다양한 노이즈 유형에 강건한 분류 성능을 확보하기 위해 다중 임베딩 기 법이 제안되었으며, 이는 서로 다른 음향 특징들의 융합을 통해 분류 정확도를 크게 향상시키는 것으 로 나타났다. [6] 그러나 이러한 기존 연구들은 주로 배경 소음 및 합성 노이즈에 집중한 반면, 음성 변조를 독립적인 노이즈 유형으로 인지하고 분류하려는 시도는 이루 어지지 않았다. 음성 변조는 신호의 스펙트럼과 시 간적 특성을 동시에 변화시키면서도 자연스러운 청 취감을 유지한다는 점에서, 전통적인 환경 노이즈 와 구분되는 별도의 연구 접근이 필요하다. 따라서 본 연구는 음성 변조를 포함한 다양한 노이즈 유형 을 효과적으로 분류할 수 있는 새로운 노이즈 분류 모델 설계 및 평가를 통해 이 연구 격차를 해소하는 것을 목표로 한다. III. 노이즈 데이터셋 구축 음성 처리 모델의 노이즈 강건성을 평가하고, 노 이즈 분류 모델을 훈련시키기 위해, 본 연구에서는 다 양한 노이즈 데이터셋을 구축하였다. LibriSpeech, [7] Voice Cloning ToolKit(VCTK), [8] DSD-Corpus [9] 그리고 TIMIT [10] 을 음성 데이터 소스로 활용하였다. 4가지 데이터셋 모두 다양한 화자를 포함하며, 특히 DSD- Corpus는 Artificial Intelligence(AI) 기반 합성 음성도 포함함으로써, 실제 음성과 합성 음성 모두에서의 노이즈 효과를 포괄적으로 분석할 수 있게 한다. 구축한 데이터셋의 노이즈 샘플은 실제 환경을 반 영하고자 배경 소음, 합성 노이즈, 음성 변조의 세 가 Table 1. Methods for generating noise and speech manipulation data. Clean : Original, unaltered speech samples from LibriSpeech, VCTK, TIMIT, DSD-Corpus Add Background Music : Augmented using the MUSAN [11] dataset with an SNR range of 10 dB ~ 20 dB Add Background Noise : Augmented with environmental and natural noise from the ESC-50[12] dataset within an SNR range of –6 dB to 3 dB Overlapping Speech : Augmented with speech from other speakers in the MUSAN dataset at an SNR range of 10 dB - 20 dB White Noise : Mixed with random noise sampled from a Gaussian distribution (mean = 0, variance = 1) at an SNR range of –10 dB to 10 dB Pink Noise : Mixed with FFT-based spectrally scaled pink noise at an SNR range of –10 dB to 10 dB Pitch Shift : Adjusted by ±2 to ±5 semitones using the librosa.effects.pitch_shift() function Time Stretch : Adjusted to 0.7x/1.7x speed using the librosa.effects.time_stretch() function Auto Tune : Pitch was corrected to the nearest note in a predefined musical scale using an open-source implementation [13] Reverberation : Apply realistic reverberation using the fftconvolve function with the RIR [14] dataset음성 변형 추적 : 강건한 음성 처리를 위한 노이즈 분류 접근법 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 535 지 주요 유형으로 구분하였다. 각 노이즈 유형은 실 제 상황을 모사함과 동시에 언어 정보의 보존을 최 대한 고려하여 설계되었으며, Table 1에 명시된 총 10개의 클래스를 포함하여 다양한 노이즈 환경을 포 괄한다. 배경 소음의 경우, 선행 연구 [15] 를 참고하여 신호 대 잡음비(Signal to Noise Ratio, SNR)를 –6 dB에서 3 dB 범위로 설정하여 실제 환경을 시뮬레이션하였 다. 합성 노이즈는 백색 노이즈와 핑크 노이즈로 구 성하였으며, 디지털 신호 처리 기법을 활용해 SNR [– 10, 10] 사이의 범위로 합성하였다. 음성 변조 유형으 로는 피치 시프트, 타임 스트레치, 오토튠이 포함되 며, 특히 피치 시프트는 ±5 반음 이내로 조절하여 인 위적인 왜곡(Chipmunk effect) [16] 을 방지하였다. 변조 강도는 언어 정보가 최대한 유지될 수 있도록 세밀 하게 조정되었다. 데이터셋은 학습 및 개발용으로 LibriSpeech, VCTK, DSD-Corpus를 사용하였고, 평가용 데이터셋은 TIMIT 을 별도로 배정하여 노이즈 분류 모델의 일반화 성능 을 검증하였다. 총 538,000개의 오디오 샘플 중 270,269 개는 학습용, 115,831개는 개발용, 152,900개는 평가 용으로 분할되었으며, 모든 데이터셋은 화자 단위 로 중복 없이 구성되었다. 특히 TIMIT 기반 평가 데 이터는 학습 및 개발 데이터와 전혀 다른 문장 구조 와 발화 스타일을 포함하도록 설계되어, 모델이 음 성 내용이나 문장 스타일의 영향을 배제하고 오직 노이즈 특성 자체만을 정확히 분류하는지를 객관적 으로 평가할 수 있도록 하였다. IV. 노이즈 유형별 음성 처리 모델 성능 영향 평가 본 섹션에서는, 다양한 노이즈 유형이 자동 화자 검증 모델과 오디오 딥페이크 탐지 모델의 성능에 미치는 영향을 분석하기 위해 LibriSpeech와 VCTK 를 기반으로 한 데이터셋을 활용하였다. ASV 모델 평가는 LibriSpeech와 VCTK의 음성 데이터를 통합 하여 진행하였으며, ADD 모델의 경우에는 학습이 VCTK 기반의 ASVSpoof19 데이터셋 [17] 으로 구성됨 을 고려하여 In-Domain(VCTK) 및 Out-of-Domain(Libri- Speech)으로 구분하여 실험을 설계하였다. 이처럼 도메인 기반 구분은, 모델이 훈련에 사용된 데이터 와 동일한 환경에서는 상대적으로 높은 성능을 보 일 수 있으나, 이전에 경험하지 못한 새로운 도메인 에서는 일반화 성능이 급격히 저하될 수 있다는 점 을 정량적으로 검증하기 위해서이다. 따라서, 각 도 메인 조건에서의 노이즈 민감도 및 성능 편차를 체 계적으로 분석하고자 하였다. 실험에 사용된 ASV 모델은 ECAPA-TDNN, [18] NeXt- TDNN, [19] ECAPA2 [20] 로 구성하였으며, ADD 모델은 AASIST, [21] AASIST-SSL, [22] Conformer-TCM [23] 을 활 용하였다. ASV 모델의 성능 평가는 Equal Error Rate (EER)을 기준으로 산출하였다. EER은 거짓 수락률 (False Acceptance Rate, FAR)과 거짓 거부율(False Re- jection Rate, FRR)이 동일해지는 시점의 오류율로, 바 이오인식 분야에서 널리 사용되는 대표적인 평가지 표이다. 한편, ADD 모델은 본 연구의 초점이 다양한 노이즈 조건에서 bonafide 음성 탐지의 신뢰성을 평 가하는 데 있으므로, spoof 음성을 제외한 bonafide 음 성에 대한 탐지 정확도를 성능지표로 채택하였다. 이와 같은 평가 지표의 선택은 실제 환경에서 발 생할 수 있는 다양한 노이즈에 노출된 음성에 대해 시스템이 얼마나 견고하게 화자를 판별하고 신뢰할 수 있는 음성임을 판정할 수 있는지를 정밀하게 측 정하기 위함이다. Table 2의 결과에 따르면 ADD 모델들은 전반적으 로 깨끗한 환경에서는 높은 정확도를 보였으나, 노 이즈 유형에 따라 성능 편차가 뚜렷하게 나타났다. 특히 In-Domain 환경(VCTK)에서도 일부 노이즈 조 건에 서는 정확도가 급격히 하락하는 양상이 관찰 되었으며, Out-of-Domain 환경(LibriSpeech)에서는 이 러한 성능 저하가 더욱 심화되었다. 실 생활에서 흔히 접할 수 있는 노이즈(주변 소음, 음악, 다중 화자의 발화 등)는 대부분의 모델에서 탐 지 성능 저하를 유발했다. 그 중에서도 백색 잡음과 같이 전 주파수 대역에 걸쳐 에너지가 고르게 분포 된 노이즈는 음성 주요 특징을 마스킹하여 탐지 정 확도를 크게 저하시키는 경향을 보였다. 음성 변조 유형에 대해서는 모델간 성능 편차가 특히 두드러 지게 나타났다. 피치 시프트, 타임 스트레치, 오토튠이웅재, 정수환 한국음향학회지 제 44 권 제 5 호 (2025) 536 과 같은 조작은 음성의 주파수 및 시간 구조를 동시 에 변형하며, 단순한 환경 노이즈보다도 더 심각한 성능 저하를 유발하였다. 특히 타임 스트레치나 오 토튠의 경우, 일부 모델은 탐지를 거의 수행하지 못 하는 수준의 결과를 보이며, 구조적으로 해당 변조 유형에 취약함을 보여주었다. Table 3의 결과를 보면 ASV 모델은 전반적으로 깨 끗한 환경에서는 매우 낮은 오류율을 보이며 안정 적인 성능을 나타냈으나, 노이즈 유형에 따라 뚜렷 한 성능 편차가 나타났다. 특히 피치 시프트 조건에 서는 모든 모델에서 가장 심각한 오류율 상승이 관 찰되었다. 이는 피치 시프트가 화자의 고유한 주파 수 패턴과 음성 특징을 변형하여 화자 인식을 위한 필수 정보를 손상시키기 때문으로 분석된다. 반면, pink noise나 배경 음악과 같은 조건에서는 상대적으 로 낮은 오류율을 유지하여, 이러한 환경에서는 모 델이 상대적으로 강건함을 보여주었다. 이러한 실험 결과는 실제 환경에서 흔히 접할 수 있는 다양한 노이즈와 음성 변조가 기존 음성 처리 모델의 성능 저하를 유발하며, 특히 모델이 학습된 도메인에서 벗어난 환경에서는 그 영향이 더욱 심 화될 수 있음을 시사한다. 따라서 본 연구에서 제안 하는 바와 같이, 입력 음성에 포함된 노이즈 유형을 사전에 분류하여 각 노이즈 환경에 적합한 전처리 및 후처리 기법을 적응적으로 적용할 수 있는 시스 템의 필요성이 강조된다. V. 적응형 전처리를 위한 노이즈 분류 모델 설계 본 연구에서는 다양한 노이즈 유형을 효과적으로 분류하기 위해 여러 신경망 구조와 입력 특징 조합 을 적용한 노이즈 분류 모델을 설계하고, 이들의 성 능을 비교 평가하였다. 제안된 노이즈 분류 모델은 단순히 정확도 향상에 그치지 않고, 실제 음성 처리 시스템의 전처리 단계에 적용 가능한 실용성과 다 양한 환경에서의 일반화 성능 확보에 중점을 두고 설계되었다. 모델 구성은 다음과 같다: Table 2. Accuracy of ADD models under Various Noise Conditions in In-Domain (VCTK) and Out-of-Domain (LibriSpeech) Scenarios. VCTK (In-Domin)LibrSpeech (Out-of-Domain) Accuracy (%)AASISTSSL-AASISTConformerTCMAASISTSSL-AASISTConformerTCM Clean99.7897.8599.5285.9077.7974.64 Background noise13.4664.2958.346.4637.824.72 Background music93.3493.7793.0567.3268.4258.97 Overlapping Speech94.6273.0661.2662.3148.3931.11 White noise13.8549.8879.763.1318.6334.83 Pink noise72.4495.8796.9451.8463.0163.45 Pitch Shift23.904.0710.8215.193.024.87 Time Stretch21.613.288.2513.330.331.73 Auto Tune98.1315.8636.9370.113.66.69 Reverberation22.4634.2971.1433.2515.5319.55 Table 3. EER of ASV models under various noise conditions. EER (%)ECAPAECAPA2NeXt-TDNN Clean0.481.091.33 Background noise4.853.765.58 Background music1.000.821.73 Overlapping Speech3.031.704.48 White noise7.396.798.97 Pink noise1.091.092.55 Pitch Shift42.6726.9144.73 Time Stretch2.623.496.04 Auto Tune0.731.211.94 Reverberation2.672.913.64 Pooled EER6.635.908.13음성 변형 추적 : 강건한 음성 처리를 위한 노이즈 분류 접근법 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 537 - Wav2Vec 2.0 + linear : Wav2Vec 2.0 [24] 는 대규모 음 성 데이터를 대상으로 비지도 학습이 된 모델로, 원시 파형에서 강력한 임베딩 표현을 추출한다. 이러한 특성은 다양한 노이즈 환경에서도 견고 한 특성 표현력을 제공할 것으로 기대되어 선택 하였다. - SSAST [25] : 트랜스포머 기반의 self-attention 메커 니즘을 활용하여 긴 시계열 정보와 복잡한 스펙 트럼 구조를 효율적으로 모델링한다. Wav2Vec 2.0 모델과는 상호 보완적으로, 원시 파형에서 포착하기 어려운 미세한 세부적인 스펙트럼 특 성에 집중하여 보다 정밀한 노이즈 분류가 가능 하다. - CNN + LSTM [26] : CNN을 통해 음성 신호 내의 지 역적인 패턴을 추출하고, LSTM으로 시간적 변 화 및 연속성을 반영하는 하이브리드 구조이다. 특히, 시간-주파수 영역에서 변동성이 큰 노이즈 유형에 대해 효과적으로 대응할 수 있도록 설계 되었다. - Multi-feature fusion : 노이즈 유형별로 민감하게 반 응하는 음향 특징이 다를 수 있다는 점에 착안하 여 Fig. 1과 같이 설계되었다. Spectrogram, MFCC, F0의 서로 다른 특성을 지닌 세 가지 음향 특징을 각각 CNN + LSTM 구조로 처리하여 시간적 연속 성과 주파수적 변동성을 동시에 반영하였다. 세 브랜치 모두 동일한 구조적 효과를 지니며, 각 브 랜치 별로 1024차원의 임베딩을 산출한다. 이렇 게 얻어진 세 가지 임베딩은 벡터 연결 방식을 통 해 융합되며, 이후 분류기는 두 개의 Linear 계층 으로 구성된다. 첫 번째 계층에서는 고차원의 정 보를 압축하고, 두 번째 계층은 최종 클래스 유형 으로 매핑한다. Dropout이 중간에 삽입되어 과적 합을 방지하고 일반화 성능을 높였다. 모든 모델은 앞에서 구축한 노이즈 데이터셋을 활 용하여 훈련되었으며, 평가에는 훈련 단계에 포함 되지 않은 TIMIT 데이터셋과 DSD-Corpus를 사용하 여, 문맥적 및 화자 영향을 최소화함과 동시에 노이 즈 유형별 분류 성능을 객관적으로 비교하였다. Table 4에서는 각 노이즈 분류 모델의 성능 평가 결 과를 확인할 수 있다. 전반적으로 모든 모델이 우수 한 성능을 보였으나, 모델 구조와 입력 특징에 따라 차이가 존재하였다. 특히 SSAST 모델의 경우 주파 수 특성을 효과적으로 학습함으로써 가장 뛰어난 노이즈 분류 성능을 보였다. 경량화된 SSAST-small 모델 역시 높은 정확도를 유지하여, 제한된 자원을 갖춘 시스템 환경에서도 활용 가능함을 확인하였 다. 또한, Multi-feature fusion 모델은 다양한 음향 특 Fig. 1. (Color available online) Architecture of the proposed multi-feature fusion model. Table 4. Evaluation results of noise classification models. FeatureParameterEvaluation Wav2Vec2 + Linear Represented vector 319.6 M91 % SSAST - baseSpectrogram87 M98.5 % SSAST - smallSpectrogram22.6 M97.5 % CNN + LSTMMFCC0.3 M80 % Multfi feature fusion Spectrogram + MFCC + F0 7.2 M95 %이웅재, 정수환 한국음향학회지 제 44 권 제 5 호 (2025) 538 징을 융합하여 단일 특징을 사용하는 CNN + LSTM 모델보다 크게 향상된 성능을 보였다. 이는 노이즈 유형마다 서로 다른 음향적 특성에 민감하게 대응 할 수 있는 다중 특징 융합 전략이 노이즈 분류에 매 우 효과적임을 시사한다. 반면 Wav2Vec 2.0 + Linear 모델은 원시 파형에서 추출한 representation vector를 활용하여 비교적 우수한 성능을 보였지만, 대규모의 파라미터 수와 waveform의 입력 의존성으로 인해 특 정 복잡한 노이즈 조건에서는 한계가 관찰되었다. 종합적으로 실시간 음성 처리 시스템의 전처리 단 계에서 노이즈 유형을 정확하게 식별하고 적절히 대응하기 위해서는 모델이 높은 정확도와 적은 파 라미터 수를 동시에 만족해야 한다. 본 연구 결과에 따르면 Multi-Feature Fusion 모델이 이러한 요구사항 을 균형있게 충족함으로써 실제 응용에 가장 적합 한 모델임을 확인할 수 있었다. VI. 결 론 본 연구에서는 음성 처리 시스템의 강건성을 향상 시키기 위한 전처리 단계에서의 노이즈 분류 모델 의 필요성을 제안하고, 이를 다양한 실험을 통해 검 증하였다. 이를 위해 실제 환경을 반영한 다중 노이 즈 유형의 대규모 데이터셋을 구축하였으며, 맥락 적 요소에 의존하지 않는 노이즈 분류 성능을 체계 적으로 평가하였다. 실험 결과 기존 음성 처리 모델 들은 실제 환경에서 흔히 발생하는 다양한 노이즈 및 음성 변조 조건에서 심각한 성능 저하를 겪었으 며, 이러한 문제를 해결하기 위해 노이즈 유형별 분 류 및 이에 기반한 적응적 전처리 기법이 필수적임 을 확인하였다. 특히, Multi-Feature Fusion 노이즈 분 류 모델은 적은 파라미터 수 대비 탁월한 분류 성능 을 보여 실시간 음성 처리 시스템의 전처리 단계에 적용할 경우 높은 실용성과 강건성을 동시에 제공 할 수 있을 것으로 기대된다. VII. 향후 연구 방향 향후 연구에서는 본 연구에서 검증한 노이즈 분류 기반 전처리 모델을 실제 음성 처리 시스템과 통합 하는 다양한 방안을 모색할 계획이다. 첫째, Low-Rank Adaptation(LoRA) 기반 어댑터를 활용하여 각 노이즈 타입에 특화된 LoRA 모듈을 사 전에 학습해 두고, 입력 신호의 노이즈 유형에 따라 해당 LoRA를 백엔드 모델에 동적으로 라우팅하는 방식을 고려한다. 이 접근법은 노이즈별로 백엔드 전체 모델을 새롭게 파인튜닝할 필요 없이, 경량화 된 어댑터만 적용함으로써 자원 효율성과 환경 적 응성을 동시에 확보할 수 있다는 장점이 있다. 이를 통해 실시간 환경에서도 노이즈별 최적화된 탐지 및 처리가 가능할 것으로 기대된다. 둘째, 노이즈 유형별로 특화된 음성 향상 기법을 적용하는 자가적응 보상 방식을 도입하여, 다양한 실제 환경에서 모델의 강건성과 적응력을 한층 강 화할 수 있을 것으로 기대된다. 감사의 글 이 논문은 정부(과학기술정보통신부)의 재원으 로 정보통신기획평가원-대학ICT연구센터(ITRC)의 지원(IITP-2025-RS-2020-II201602, 50 %)과 과학기술 정보통신부 및 정보통신기획평가원의 융합보안핵심 인재양성사업의 연구 결과로 수행되었음 (IITP-2025- RS-2024-00426853, 50 %). References 1.S. Katkov, A. Liotta, and A. Vietti, “Evaluating the robustness of ASR systems in adverse acoustic conditions,” Proc. 5th IDSTA, 76-80 (2024). 2.V. K. Singh, K. Sharma, and S. N. Sur, “A survey on preprocessing and classification techniques for acoustic scene,” Expert Syst. Appl. 229, 120520 (2023). 3.T. Ko, V. Peddinti, D. Povey, and S. Khudanpur, “Audio augmentation for speech recognition,” Proc. Interspeech, 3586-3590 (2015). 4.L. Wijayasingha and J. A. Stankovic, “Robustness to noise for speech emotion classification using CNNs and attention mechanisms,” Smart Health, 19, 100165 (2021). 5.S. E. Bou-Ghazale and K. Assaleh, “A robust endpoint detection of speech for noisy environments with application to automatic speech recognition,” Proc. IEEE ICASSP, IV-3808 (2002).음성 변형 추적 : 강건한 음성 처리를 위한 노이즈 분류 접근법 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 539 6.M. N. Ali, A. Brutti, and D. Falavigna, “Enhancing embeddings for speech classification in noisy conditions,” Proc. Interspeech, 2933-2937 (2022). 7.V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “LibriSpeech: an ASR corpus based on public domain audio books,” Proc. IEEE ICASSP, 5206- 5210 (2015). 8.C. Veaux, J. Yamagishi, and K. MacDonald, “CSTR VCTK corpus: English multi-speaker corpus for CSTR voice cloning toolkit,” The Centre for Speech Technology Research (CSTR), University of Edinburgh, Tech. Rep., 2017. 9.T.-P. Doan, H. Dinh-Xuan, T. Ryu, I. Kim, W. Lee, K. Hong, and S. Jung, “Trident of poseidon: A generalized approach for detecting deepfake voices,” Proc. CCS, 2222-2235 (2024). 10.J. S. Garofolo, L. F. Lamel, W. M. Fisher, D. S. Pallett, N. L. Dahlgren, V. Zue, and J. G. Fiscus, “TIMIT acoustic-phonetic continuous speech corpus,” National Institute of Standards and Technology (NIST), Tech. Rep., 1993. 11.D. Snyder, G. Chen, and D. Povey, “MUSAN: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484 (2015). 12.K. J. Piczak, “ESC: Dataset for environmental sound classification,” Proc. 23rd ACM Int. Conf. Multi- media, 1015-1018 (2015). 13.Simple Auto-Tune in Python, https://github.com/Jan Wilczek/python-auto-tune, (Last viewed October 10, 2024). 14.T. Ko, V. Peddinti, D. Povey, M. L. Seltzer, and S. Khudanpur, “A study on data augmentation of rever- berant speech for robust speech recognition,” Proc. IEEE ICASSP, 5220-5224 (2017). 15.J. B. Awotunde, R. O. Ogundokun, F. E. Ayo, and O. E. Matiluko, “Speech segregation in background noise based on deep learning,” IEEE Access 8, 169568- 169575 (2020). 16.S. Rosenzweig, S. Schwär, J. Driedger, and M. Müller, “Adaptive pitch-shifting with applications to intonation adjustment in a cappella recordings,” Proc. 24th DAFx, 121-128 (2021). 17.X. Wang, J. Yamagishi, M. Todisco, H. Delgado, A. Nautsch, N. Evans, and Z. H. Ling, “ASVspoof 2019: A large-scale public database of synthesized, con- verted and replayed speech,” Comput. Speech Lang. 64, 101114 (2020). 18.B. Desplanques, J. Thienpondt, and K. D. Ecapa- tdnn, “Emphasized channel attention, propagation and aggregation in tdnn based speaker verification,” arXiv: 2005.07143 (2020). 19.H. J. Heo, U. H. Shin, R. Lee, Y. Cheon, and H. M. Park, “NeXt-TDNN: Modernizing multi-scale tem- poral convolution backbone for speaker verification,” Proc. IEEE ICASSP, 11186-11190 (2024). 20.J. Thienpondt and K. Demuynck, “Ecapa2: A hybrid neural network architecture and training strategy for robust speaker embeddings,” Proc. IEEE ASRU, 1-8 (2023). 21.J. W. Jung, H. S. Heo, H. Tak, H. J. Shim, J. S. Chung, B. J. Lee, and N. Evans, “Aasist: Audio anti- spoofing using integrated spectro-temporal graph attention networks,” Proc. IEEE ICASSP, 6367-6371 (2022). 22.H. Tak, M. Todisco, X. Wang, J. W. Jung, J. Yamagishi, and N. Evans, “Automatic speaker veri- fication spoofing and deepfake detection using wav2vec 2.0 and data augmentation,” arXiv:2202. 12233 (2022). 23.D. T. Truong, R. Tao, T. Nguyen, H. T. Luong, K. A. Lee, and E. S. Chng, “Temporal-channel modeling in multi-head self-attention for synthetic speech detec- tion,” arXiv:2406.17376 (2024). 24.A. Baevski, Y. Zhou, A. Mohamed, and M. Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” Proc. NeurIPS, 12449-12460 (2020). 25.Y. Gong, C. I. Lai, Y. A. Chung, and J. Glass, “Ssast: Self-supervised audio spectrogram transformer,” Proc. AAAI Conf. Artif. Intell. 10699-10709 (2022). 26.R. Akter, M. R. Islam, S. K. Debnath, P. K. Sarker, and M. K. Uddin, “A hybrid CNN-LSTM model for environmental sound classification: Leveraging fea- ture engineering and transfer learning,” Digit. Signal Process. 163, 105234 (2025). 저자 약력 ▸이 웅 재 (Woongjae Lee) 2024년 2월 : 숭실대학교 전자정보공학부 졸업 2024년 9월 ~ 현재 : 숭실대학교 정보통신 공학과 석사과정 ▸정 수 환 (Souhwan Jung) 1985년 2월 : 서울대학교 전자공학과 졸업 1987년 8월 : 서울대학교 전자공학과 석사 1996년 6월 : 미국 Univ. of Washington 박사 1997년 ~ 현재 : 숭실대학교 전자정보공학 부 교수 2020년 ~ 현재 : 과학기술정보통신부 ICT 연구센터 AI보안연구센터장I. 서 론 잡음 환경에서의 음성 향상 기술은 통신 시스템의 음질 개선, 자동 음성인식의 성능 향상, 보청기 및 음 성 비서 서비스 등 다양한 분야에서 필수적인 역할 을 수행한다. [1] 특히 단일 채널 음성 신호에서 잡음 을 효과적으로 제거하거나 억제하여 청취 명료도와 주관적 품질을 높이기 위한 연구가 지난 수십 년간 활발히 진행되어 왔다. 초기 연구는 주로 디지털 신호처리에 기반한 통계 딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토 Analysis of trends in speech denoising using deep learning and a feasibility study for a Korean real time model 김선만 1† (Seon Man Kim 1 † ) 1 한신대학교 AI·SW대학 (Received August 24, 2025; accepted September 8, 2025) 초 록: 본 논문은 딥러닝 기반 음성 디노이징 기술의 발전 과정을 체계적으로 고찰하고, 이를 바탕으로 SOTA 실시간 모델을 한국어 환경에 적용하여 그 성능과 구현 가능성을 검토한다. 통계적 기법에서 딥러닝으로, 다시 스펙트럼의 크기 에서 위상까지 고려하는 복소수 도메인으로의 기술 패러다임 전환을 살펴본다. 이러한 분석을 바탕으로, 검증된 경량 실시간 모델인 DeepFilterNet2 아키텍처에 한국어 데이터를 적용하여 그 유효성을 검증했다. 실험 결과, 영어 데이터로 만 학습된 베이스라인 모델 대비, 16 kHz 기반의 한국어 데이터를 추가 학습한 모델의 성능 개선이 미미하거나 오히려 일부 저하되는 현상을 확인했다. 본 연구는 이 현상의 주된 원인이 학습 데이터셋 간의 샘플링 레이트 불일치에 있음을 분석하고, 이 데이터 품질 불일치 문제가 향후 성공적인 한국어 실시간 모델 개발을 위해 반드시 선결되어야 할 중요한 과제임을 제시한다. 핵심용어: 음성 디노이징, 음성 향상, 딥러닝, 실시간 처리, 딥필터넷 ABSTRACT: This paper systematically reviews the evolution of deep learning-based speech denoising technology and examines the feasibility of applying a state-of-the-art real-time model to the Korean language. We analyze the paradigm shift from statistical methods to deep learning, and from magnitude-only spectral processing to complex-domain approaches. Based on this analysis, we validate the effectiveness of the DeepFilterNet2 architecture, a proven lightweight real-time model, using Korean data. The experimental results showed that, compared to a baseline model trained only on English data, the model trained with additional 16 kHz-based Korean data exhibited minimal or even degraded performance. This study analyzes that the primary cause of this phenomenon is the sampling rate mismatch between the training DB. It concludes that this data quality mismatch is a critical challenge that must be addressed for the future development of successful Korean real-time models. Keywords: Speech denoising, Speech enhancement, Deep learning, Real-time processing, DeepFilterNet PACS numbers: 43.72.Dv, 43.72.Bs 한국음향학회지 제44권 제5호 pp. 540~547 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.540 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Seon Man Kim (smkim@hs.ac.kr) School of Computing and Artificial Intelligence, Hanshin University, Osan-si, Gyeonggi-do 18101 Republic of Korea (Tel: 82-31-379-0652) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 540딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 541 적 기법에 집중되었다. 대표적으로 잡음의 평균 스 펙터럼을 추정하여 음성 스펙트럼에서 차감하는 스 펙트럴 차감법이나, 신호 대 잡음비(Signal-to-Noise Ratio, SNR)에 따라 적응적으로 평균 가중치를 적용 하는 위너 필터 및 최소 평균 제곱 오차 추정 기반의 기법들이 널리 활용되었다. [2] 이러한 전통적 기법들 은 구현이 비교적 간단하고 낮은 지연 시간으로 실 시간 처리가 가능하다는 장점이 있으나, 비정상적 잡음 환경 변화에 대한 대응 능력이 부족하고 뮤지 컬 노이즈와 같은 왜곡이 발생하는 한계를 보였다. 이러한 한계를 극복하고자 2000년대 후반부터 기 계학습을 접목한 접근법이 등장했다. 그중 비음수 행렬 분해 기반의 방법은 잡음과 음성의 주파수 성 분을 각각의 기저 벡터 조합으로 표현하여 서로 분 리하는 방식으로 초기 음성 향상 연구에서 큰 가능 성을 보였다. 하지만 잡음과 음성의 부분 공간이 중 첩되는 경우 두 신호를 명확히 구분하기 어렵다는 근본적인 한계가 존재했다. 2010년대 중반 이후 심층 신경망(Deep Neural Net- work, DNN) 기술이 급격히 발전하면서 음성 향상 분 야에도 본격적으로 도입되었다. 초기 DNN 모델들 은 주로 잡음이 섞인 음성의 스펙트로그램을 입력 받아 깨끗한 목표 스펙트로그램을 출력하도록 매핑 하는 회귀 문제로 접근했다. Xu et al. [3] 은 DNN을 이용 하여 로그 스펙트럼 영역에서 잡음과 음성 간의 변환 을 학습시켜 기존의 최소 평균 제곱 오차 추정 필터 대 비 상당한 성능 향상을 보고했으며, 다양한 SNR 환경 에서 객관적 음질 평가지표인 Perceptual Evaluation of Speech Quality(PESQ) 점수를 평균 0.32만큼 개선했 다. 이후 순환 신경망(Recurrent Neural Network, RNN) 과 그 발전된 형태인 장단기 메모리(Long Short-Term Memory, LSTM) 및 Gated Recurrent Unit(GRU)을 활용 하여 시간적 문맥 정보를 모델링하거나, 합성곱 신 경망(Convolutional Neural Network, CNN)을 이용해 스펙트로그램의 시간-주파수 패턴을 학습하는 모델 들이 연이어 제안되었다. [4] 이러한 초기 모델들은 음 성 인식 성능 개선이나 음성 합성을 위한 데이터 정 제 등에도 성공적으로 활용되어 그 효용성을 입증 했다. [5] 그러나 이들 모델은 스펙트럼의 크기 정보만 을 복원하고 위상 정보는 원본 신호의 것을 그대로 사용하는 한계가 있었다. 이로 인해 예측된 크기와 원본 위상을 결합하는 과정에서 위상 불일치로 인 한 왜곡이 발생했으며, 이를 해결하기 위해 위상 정 보까지 통합적으로 처리하는 새로운 접근법의 필요 성이 대두되었다. 이러한 배경을 바탕으로, 본 논문은 두 가지 목표 를 가진다. 첫째, 최신 딥러닝 기반 음성 디노이징 기 술 동향을 체계적으로 고찰한다. 둘째, 이를 기반으 로 성능이 검증된 실시간 모델을 한국어 환경에 적 용하여 그 성능과 구현 가능성을 검토하는 타당성 연구를 수행한다. 이 과정에서, 단순히 모델을 적용 하는 것을 넘어 한국어 데이터의 특성이 모델 성능 에 미치는 영향을 분석하고, 실질적인 구현 과정에 서 발생하는 핵심 과제를 도출하는 데 본 연구의 의 의가 있다. 본 논문의 구성은 다음과 같다. 2장에서는 딥러닝 기반 음성 디노이징 기술의 주요 동향을 살펴보고, 3 장에서는 글로벌 성능 벤치마크와 한국어 데이터 환경의 한계를 짚어본다. 4장에서는 SOTA(State of the Art) 모델의 한국어 적용 실험 설계와 그 결과를 제시하며, 특히 이 과정에서 발견된 데이터 품질 불 일치 문제를 상세히 분석한다. 마지막으로 5장에서 는 연구 결과를 요약하고, 안정적인 한국어 모델 개 발을 위한 향후 과제를 논의한다. II. 딥러닝 기반 음성 디노이징 기술 동향 딥러닝 기술의 도입은 음성 디노이징 분야에 비약 적인 변화를 가져왔다. 초기 딥러닝 모델들이 통계 적 기법의 한계를 넘어서는 가능성을 보인 이후, 연 구는 더 높은 음질을 위한 핵심 과제들을 해결하는 방향으로 전개되었다. Table 1은 이러한 기술 발전의 전체적인 흐름을 요약한 것이다. 본 장에서는 이러한 기술 동향을 두 가지 주요 축 을 중심으로 살펴본다. 첫째는 초기 모델의 근본적 인 한계였던 위상 왜곡 문제를 해결하려는 기술적 접근법이다. 이는 스펙트럼의 크기만 다루던 방식 에서 벗어나 복소수 스펙트럼 전체나 시간 영역의 파형을 직접 모델링하는 방식으로 이어졌다(2.1절). 김선만 한국음향학회지 제 44 권 제 5 호 (2025) 542 둘째는 연구의 목적이 세분화 되면서 나타난 기술 의 분화 현상이다. 이는 최고의 음질을 추구하는 고 성능 오프라인 모델과, 통신 및 모바일 기기 등 실제 응용을 위한 저지연 실시간 모델로 연구 방향이 나 뉘는 결과로 나타났다(2.2절). 이러한 흐름 속에서 본 연구의 기반이 되는 경량 실시간 모델이 등장하 게 된 배경을 기술한다(2.3절). 2.1 위상 정보 처리를 위한 접근법 초기 딥러닝 모델들이 위상 정보를 간과했던 한계 를 극복하기 위해, 크기와 위상을 통합적으로 처리 하는 연구가 활발히 진행되었다. 대표적인 접근법 은 복소수 스펙트럼을 직접 입출력으로 사용하여 실수부와 허수부를 모두 예측하는 것이다. 더 나아 가 네트워크 내부의 가중치와 연산을 복소수 형태 로 구현하여 위상 정보를 보다 직접적으로 학습하려 는 시도도 이루어졌다. 이러한 위상 인지 접근의 대 표적인 사례인 Deep Complex Convolutional Recurrent Network(DCCRN)은 CNN과 RNN에 복소수 연산을 도입하여 위상까지 함께 처리함으로써, 주관적 평 가지표 Mean Opinion Score(MOS) 기준 최상위권의 잡음 제거 성능을 달성하며 그 효과를 입증했다. [6] 한편, 단기 푸리에 변환(Short-Time Fourier Trans- form, STFT) 과정을 생략하고 시간 영역의 파형을 직 접 입출력으로 사용하는 종단간 모델도 주목받았다. 이 방식은 위상 손실 문제를 원천적으로 방지하는 장점이 있다. 생성적 적대 신경망을 활용한 Speech Enhancement Generative Adversarial Network(SEGAN) 은 파형 기반 잡음 제거를 시도하여 다양한 잡음 환 경에서 종단간 모델의 초기 가능성을 보였으며, [7] 이 후 제안된 Conv-TasNet은 시간 영역에서 직접 음성 을 분리하는 모델로 이상적인 시간-주파수 마스크 의 성능을 뛰어넘으며 파형 기반 접근법의 잠재력 을 입증했다. [8] 그러나 이러한 모델들은 파형을 직접 처리하기 위해 긴 시간의 문맥을 학습해야 하므로 모델의 파라미터 수와 연산량이 증가하여 실시간 구현에 어려움이 따랐다. [9] 이처럼 모델의 성능과 계 산 복잡도 사이에는 트레이드 오프가 존재하며, 이 는 음성 향상 기술 발전의 중요한 화두가 되고 있다. 2.2 오프라인 및 실시간 처리를 위한 모델 딥러닝 기반 음성 향상 기술은 응용 분야의 요구 사항에 따라 고성능 오프라인 기술과 저지연 실시 간 기술로 분화하며 발전하고 있다. 오프라인 환경에서는 실시간 제약이 없으므로, 대규모 연산을 통해 최고의 음질을 달성하는 것을 목표로 한다. U-Net, 대규모 RNN, Transformer와 같은 복잡한 구조를 도입하여 장기 의존성을 학습하고, 이중 경로 구조로 지역적 및 전역적 패턴을 동시에 모델링하여 성능을 극대화한다. [8] 최근에는 DOSE [10] 와 같은 확산 모델이 도입되어 기존의 예측 기반 모 델보다 월등히 자연스럽고 왜곡이 적은 음성을 생 성하며 최고 성능을 경신하고 있다. 하지만 이는 높 은 계산 비용과 느린 추론 속도로 인해, 오프라인 환 경에 적합한 기술이라 할 수 있다. 반면, 실시간 환경에서는 통신, 스트리밍, 보청기 등에서 요구하는 낮은 지연 시간과 제한된 연산 자 원을 만족시키는 것이 핵심이다. 이를 위해 모델 경 량화와 인과적 처리에 초점을 맞춘 연구가 주를 이 룬다. RNNoise는 DSP 필터와 소규모 RNN을 결합한 Table 1. A phased summary of the evolution of speech denoising technology. Era / ParadigmCore methodDomainRepresentative models Pros / Cons Up to early 2010s / Statistical Noise stats estimation Freq domain (magnitude) Spectral Subtraction, Wiener Filter, MMSE Simple, low cost / weak for nonstationary noise; musical noise Early to mid 2010s / Machine learning Spectral mapping Freq domain (magnitude) DNN, RNN, CNN Learns complex patterns; better quality / no phase, residual distortion Late 2010s / Phase-aware and end-to-end Complex spectra or waveform Freq domain (complex) or time domain DCCRN, SEGAN, Conv TasNet Phase modeling improves quality / larger models, more compute 2020s onward / Generative models Probabilistic or generative modeling Time domain (waveform) Diffusion Models, MetricGAN Very natural, high quality / heavy compute, slow inference딥러닝 기반 음성 디노이징 기술 동향 및 한국어 실시간 모델 구현 검토 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 543 하이브리드 접근으로 실시간 잡음 억제의 성공 사 례를 보여주었으며, [11] PercepNet, GaGNet 등은 인간 의 청각 특성을 모방하거나 멀티밴드 구조를 도입 하여 효율성을 높였다. [12] 특히 보청기와 같이 수 밀 리초(ms) 이하의 초저지연이 요구되는 분야에서는 딥 필터링 기법을 적용한 DeepFilterNet이 등장했다. 이 모델은 매우 짧은 프레임(5 ms 이하)을 사용하면 서도 저하되는 주파수 해상도 문제를 학습된 FIR 필 터로 보완하여 음질을 유지하는 새로운 가능성을 제시했다. [9] 2.3 경량 실시간 모델과 DeepFilterNet DeepFilterNet은 실시간 저복잡도 환경에 최적화 된 대표적인 프레임워크로, 높은 성능과 낮은 계산 복잡도를 동시에 달성했다. [9] 이 모델의 핵심은 Fig. 1에서 보여지는 바와 같이 2단계 처리 방식에 있다. 1단계에서는 인간의 청각 특성을 모사한 등가 구형 대역폭 스케일로 스펙트럼을 압축한 뒤, 각 대역의 증폭률을 예측하여 스펙트럼 포락선을 부드럽게 향 상시킨다. 2단계에서는 음성의 하모닉 성분이 밀집 된 저주파 대역에만 딥 필터링을 적용하여 잔여 잡 음을 제거하고 미세 구조를 복원한다. [9] 이러한 구조 는 연산량을 크게 줄이면서도 청각적으로 중요한 정 보를 효과적으로 처리한다. 또한, depthwise separable convolution과 같은 경량화 기법을 적용하여 1.3 M 수 준의 적은 파라미터로도 SOTA급 성능을 달성했으 며, 일반 CPU 환경에서 25배 이상 빠른 실시간 처리 지수 0.04를 기록하여 효율성을 입증했다 [9] . III. 글로벌 성능 벤치마크와 한국어 데이터 환경 3.1 공인 DB 기반 글로벌 성능 비교 음성 디노이징 알고리즘의 성능을 객관적으로 비 교하기 위해 국제적으로 통용되는 표준 데이터베이스 와 평가지표가 사용된다. 그중 가장 널리 쓰이는 것은 Valentini-Botinhao 등이 제안한 VoiceBank + DEMAND 데이터셋이다. 이 데이터셋은 모델 훈련을 위해 28 명 화자의 음성을 0 dB, 5 dB, 10 dB, 15 dB의 SNR로 합 성하여 구성되며, 평가에는 학습에 사용되지 않은 별도의 2명 화자 음성을 2.5 dB, 7.5 dB, 12.5 dB, 17.5 dB의 다른 SNR 조건으로 합성한 데이터를 사용하여 모델의 일반화 성능을 측정한다. [5] Table 2는 이 데이 터셋을 기준으로 주요 모델들의 객관적 성능을 각 원논문 등에서 인용하여 비교한 것이다. [6,9,11,12] 이 결 과들을 살펴보면, 처리되지 않은 원본 음성의 PESQ 점수가 1.97에 머무는 반면, DCCRN(2020)과 같은 복 소수 RNN 기반 모델은 2.54점으로 성능을 개선했 다. 특히 2022년에 발표된 FullSubNet+, GaGNet과 같 은 최신 모델들은 각각 2.88, 2.94점을 기록하며 3.0 점에 근접하는 높은 성능을 보였다. DeepFilterNet2 는 3.08점을 달성하여 이 비교군에서는 유일하게 3.0 점을 넘었으며, 가장 적은 파라미터 수(~1.36 M)로 높은 효율성을 입증했다. 이처럼 딥러닝 기반 기법들 Fig. 1. Two-stage processing structure of the Deep- FilterNet model. Table 2. Performance comparison of major models on the VoiceBank + DEMAND dataset. Results are cited from the respective original papers. Model (Year) ApproachDomain PESQ (WB) STOI Param (M) Unprocessed--1.970.921- RNNoise (2018) RNNFreq.2.330.922- NSNet2DNN maskFreq.2.470.903- DCCRN (2020) Complex- valued RNN Freq.2.540.938~3.7 FullSubNet+ (2022) Multi-band Fusion Freq.2.880.940~5.1 GaGNet (2022) Two-stage Attention Freq.2.94-~2.6 DeepFilterNet2 (2022) Deep Filtering Freq.3.080.943~1.36Next >