< Previous한국음향학회지 제44권 제5호 pp. 525~532 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.525 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Wooil Kim (wikim@inu.ac.kr) Department of Computer Science and Engineering, Incheon National University, 119 Academy-ro, Yeonsu-gu, Incheon 22012, Republic of Korea (Tel: 82-32-835-8459, Fax: 82-32-835-0780) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 임베딩 변별력 향상을 위한 대조 중심 손실 함수 기반 종단 간 화자 분할 개선 연구 Improving end-to-end speaker diarization with a contrastive center loss for discriminative embedding space 김동희, 1 김우일 2† (Donghee Kim 1 and Wooil Kim 2 † ) 1 인천대학교 대학원 인공지능학과, 2 인천대학교 컴퓨터공학부, 인간중심 인공지능 연구센터 (Received August 5, 2025; accepted September 4, 2025) 초 록: 화자 분할은 음성 기반 시스템에서 다중 발화 환경을 처리하는 기술로, 콜센터 상담 분석, 회의록 자동 생성, 방송 콘텐츠 처리 등 다양한 응용 분야에서 중요한 역할을 수행한다. 화자 분할 성능은 앞선 예시와 같은 시스템의 전반 적인 품질에 큰 영향을 미치며, 성능을 향상시키는 것은 이 분야의 주요 연구 주제 중 하나로 자리 잡고 있다. 본 논문에서 는 화자 분할 성능 향상을 위한 방법으로 종단 간 구조의 단일 라벨 분류로 정의된 화자 분할 모델인 Single-Label Self-Attentive End-to-End Neural Diarization(SL-SA-EEND)에 대조 중심 손실 함수를 적용한 기법을 제안한다. 제 안된 방법은 임베딩 공간에서 동일 클래스 간 거리는 가깝게, 서로 다른 클래스 간 거리는 멀게 유지하도록 하여, 각 클래 스의 변별력을 강화한다. 이를 통해 각 클래스가 변별력 있는 특징을 학습할 수 있도록 하며 분류 작업에서 성능 향상을 도모한다. 실험 결과, 제안된 방법은 베이스라인 시스템인 SL-SA-EEND의 Diarization Error Rate(DER) 대비 Simulated 데이터베이스에서 25.53 % 향상된 성과를 보였으며, CallHome 데이터베이스에서는 11.88 % 향상된 결과 를 나타낸다. 마지막으로, 임베딩 공간에서 대조 중심 손실 함수를 적용한 경우와 그렇지 않은 경우의 결과를 시각화하 여, 분류 작업으로 정의된 화자 분할 시스템에서 대조 중심 손실 함수의 효과를 나타낸다. 핵심용어: 화자 분할, Self-Attentive End-to-End Neural Diarization (SL-SA-EEND), Single-Label-SA-EEND, 대조 중 심 손실 함수 ABSTRACT: Speaker Diarization, a technology for precessing multi-speaker speech environments in speech-based systems, plays a crucial role in various applications such as call center conversation analysis, automatic meeting transcription, and broadcast content processing. The performance of speaker diarization significantly impacts the overall quality of such systems, making performance enhancement a key research topic in this filed. We propose an approach to improve speaker diarization performance by applying a Contrastive center loss function to Single-Label Self-Attentive End-to-End Neural Diarization (SL-SA-EEND). The proposed method strengthens the discriminative power of each class by maintaining close distances between intra-class embeddings and maximizing distances between inter-class embeddings in the embedding space. This enables each class to learn discriminative features, thereby promoting performance improvement in classification tasks. Experimental results show that the proposed method achieved a 25.53 % improvement in Diarization Error Rate (DER) on a Simulated dataset compared to the baseline SL-SA-EEND system, and an 11.88 % improvement on the CALLHOME dataset. Finally, we visualize the results of applying the Contrastive center loss function versus not applying it in the embedding speace, demonstrating its effectiveness in speaker diarization systems defined as classification task. Keywords: Speaker Diarization, Self-Attentive End-to-End Neural Diarization (SA-EEND), Single-Label-SA- EEND, Contrastive center loss PACS numbers: 43.10.Vx, 43.50.Ed 525김동희, 김우일 한국음향학회지 제 44 권 제 5 호 (2025) 526 I. 서 론 화자 분할은 다중 발화 환경에서 “누가 언제 발화 했는가”를 추론하는 작업으로, 회의록 작성, 콜센터 분석, 미디어 처리 등 다양한 음성 기반 응용 프로그 램에서 중요한 역할을 수행한다. 예를 들어, 자동 회 의록 작성에서 화자 분할은 화자별 발화를 분리하 여 더 체계적이고 직관적인 회의록을 만들 수 있으 며, 콜센터 분석에서는 상담원과 고객 간의 대화 패 턴을 분리하여 상호작용 패턴을 이해하는 데 사용 될 수 있다. 또한, 최근 멀티미디어 콘텐츠의 증가와 함께 대규모 음성 데이터를 효율적으로 처리하기 위한 화자 분할 기술의 필요성이 점차 증가하고 있 으며, 이에 따라 사용자 경험을 개선하고자 하는 요 구 또한 증가하고 있다. 이러한 배경에서 화자 분할 성능 향상은 주요 연구 주제 중 하나로, 정확한 시스 템 품질을 위해 성능 향상이 요구된다. 전통적인 화자 분할 시스템은 주로 클러스터링 기 반으로 작동하며, 음성 활동 감지 및 화자 임베딩 추 출기와 같은 여러 모듈로 구성된다. 이러한 시스템 은 먼저 음성 활동 감지를 통해 묵음 구간을 제거하 고 x-vector 및 d-vector와 같은 화자 특징을 추출한 다. [1-3] 최종적으로 화자 라벨을 얻기 위해 계층적 클 러스터링(Agglomerative Hierarchical Clustering, AHC) 또는 spectral clustering을 사용하여 화자 분할을 진행 한다. [4-7] 하지만 위와 같은 화자 분할 방식은 여러 화 자가 발화한 중첩 구간에 대해 예측하기 어렵다는 단점과 여러 모듈을 한 번에 최적화할 수 없다는 단 점이 존재한다. 이러한 문제를 해결하기 위해 심층 신경망 기반 의 종단 간 화자 분할 시스템이 제안되었다. [8-10] 종단 간 화자 분할 시스템은 원시 오디오 데이터를 입력 으로 받아 화자별 발화 구간을 직접 예측한다. 종단 간 화자 분할 모델 중 Self-Attentive End-to-End Neural Diarization(SA-EEND) [10] 은 트랜스포머 인코더 구조 를 통해 효과적인 화자 분할 성능 향상을 달성한 대 표적인 화자 분할 모델 중 하나이다. SA-EEND 모델 을 기반으로 여러 후속 연구들이 개선을 모색하고 있으며, [11-13] 그 중 SA-EEND의 임계값 의존성 문제를 해결하며 성능 향상을 도모하는 Single-Label(SL)-SA- EEND [13] 연구가 진행되었다. SL-SA-EEND는 단일 라 벨 분류 메커니즘을 통해 SA-EEND의 임계값 의존성 을 완화하면서 향상된 화자 분할 성능을 보였다. 본 논문에서는 화자 분할 성능을 더욱 향상시키기 위해 대조 중심 손실 함수 [14] 를 SL-SA-EEND 모델에 적용하는 방법을 제안한다. 대조 중심 손실 함수는 동일 클래스 간 거리를 최소화하고 다른 클래스 간 거리를 최대화하여 변별력 있는 임베딩 공간을 유 도할 수 있게 설계된 손실 함수이다. 따라서 대조 중 심 손실 함수를 SL-SA-EEND에 적용하여 더 변별력 있는 임베딩 공간을 구축하고, 모델이 견고한 표현 을 학습할 수 있도록 하는 것을 목표로 한다. 학습 초 기 단계에서 손실 함수를 적용하면 과적합에 의한 성능 저하가 발생할 수 있음을 발견하여, 가중치를 점진적으로 증가시키는 방법을 적용하였다. 본 연구는 다중 발화 환경에서 클래스 간의 특징 을 더욱 명확하게 구별하는 접근 방식을 제안하며, SA-EEND 및 SL-SA-EEND와 같은 기존 화자 분할 시 스템보다 향상된 성능을 보여준다. 또한, 본 연구의 방법은 Domain-adaptation을 통해 다른 데이터셋에 서도 성능 향상을 보여 다양한 다중 발화 음성 데이 터로의 일반화 가능성을 나타낸다. II. 베이스라인 시스템 본 연구에서는 SL-SA-EEND [13] 를 베이스라인 시 스템으로 설정하였다. SL-SA-EEND는 다중 라벨 분 류 방식의 SA-EEND [10] 모델을 단일 라벨 분류 방식 으로 개선한 화자 분할 시스템이다. SA-EEND는 Eq. (1)에서 정의된 바와 같이 화자 분할을 수행한다. 은 번째 프레임에서 번째 화자 발화에 대한 확률 값으로 ≥ 조건을 만족하면 1, 그렇지 않으면 0 으로 두어 발화 여부를 표기한다. if ≥ .(1) 하지만 이러한 다중 라벨 기반 시스템은 화자 분 할 성능이 임계값( )에 의존한다는 한계를 가진다. 이 문제를 해결하기 위해 SL-SA-EEND가 제안되었임베딩 변별력 향상을 위한 대조 중심 손실 함수 기반 종단 간 화자 분할 개선 연구 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 527 으며 모델 구조는 Fig. 1과 같다. SL-SA-EEND는 시간 영역의 다중 발화 데이터를 입력으로 받아 로그-멜 스펙트럼을 통해 시간-주파 수 영역의 ∈ ×로 변환한다. 와 는 각각 시간 축과 주파수 축에 대한 차원을 의미한다. 시간-주파수 영역으로 변환된 스펙트럼 은 다음의 수식과 같이 변환되며 각 수식에 대한 설 명은 Fig .1에 표기된 값과 동일하다. ⊤ ∈ × ,(2) ∈ × .(3) Eq. (2)는 의 선형 변환을 나타내고, Eq. (3)은 번째 인코더 블록을 통한 인코딩 과정 설명하며, 여기서 는 1부터 까지의 범위를 가진다. 수식에서 는 모델의 은닉 차원을 의미하며 최종 인코더 출력은 화자 분할 추론을 위해 아래와 같이 변환된다. ∈ ×,(4) ⊤ ∈ × .(5) Eq. (4)의 는 Eq. (3)의 마지막 인코더 블록의 최종 출력 에 LayerNorm을 적용하여 얻는다. 이어서 를 × 차원 공간으로 변환한다. 은 총 화자 수를 나타내며, 최종적으로 softmax 함수를 적용하 여 단일 라벨 추론을 수행한다. SL-SA-EEND의 출력은 단일 라벨 형식이며, 정답 (Ground-truth)도 단일 라벨 형식이어야 한다. 하지만 SL-SA-EEND의 출력 형식과 달리 Ground-truth는 다 중 라벨 형식이기에, 선행연구 [13] 에서는 이러한 라 벨 형식을 맞추기 위해 아래와 같은 과정을 거친다. .(6) ∅ .(7) Eqs. (6)과 (7)에서 는 화자 집합을 나타내고, 는 의 멱집합을 나타낸다. Eq. (7)에서 ∅ 은 침묵을 나타내고, 는 동시 발화를 나타낸다. 위와 같은 멱집합 과정을 통해 다중 라벨 형태를 단 일 라벨 형태로 변환할 수 있다. 이 과정은 Fig. 1에 표 시된 Single-to-Multi 및 Multi-to-Single 단계를 통해 계 산된다. SL-SA-EEND의 출력인 에 Single-to-Multi를 적용하고 Ground-truth와 비교하여 를 계산한다. 는 Permutation Invariant Training(PIT) [8] 을 의미하 며 화자들의 모든 순열에 대해 손실 함수가 최소가 되는 올바른 순열을 제공한다. 이때 PIT를 통해 얻 은 라벨에 Multi-to-Single을 적용하여 단일 라벨 형태 로 변환하고, SL-SA-EEND가 예측한 과 (Cross Entropy Loss) 연산을 수행하여 단일 라벨 형태에서 의 손실을 계산한다. 최종적으로 SL-SA-EEND 모델 에서의 전체 손실 함수는 Eq. (8)과 같이 계산되었으 며 이 과정에 대한 자세한 내용은 선행연구 [13] 에 제 공되어 있다. .(8) III. 대조 중심 손실 기반 화자 분할 본 논문에서는 화자 분할 성능 향상을 위해 대조 중심 손실 함수 [14] 와 결합된 SL-SA-EEND 모델을 제 Fig. 1. Architecture of SL-SA-EEND model.김동희, 김우일 한국음향학회지 제 44 권 제 5 호 (2025) 528 안한다. SL-SA-EEND 모델은 최적의 결정 경계를 찾 아 화자 분할을 수행하며, 각 프레임에 대해 Eq. (7)의 라벨 중 하나를 예측한다. 정확한 결정 경계를 찾는 과정도 중요하지만, 모델이 변별력 있는 임베딩 표 현을 학습하는 것 또한 중요하다. 이를 위해 대조 중 심 손실 함수를 SL-SA-EEND 모델에 적용하여 각 클 래스에 대해 더 변별력 있는 표현을 학습할 수 있도 록 한다. 실험 결과를 통해 제안된 방법이 화자 분할 에서 기존 모델보다 향상된 성능이 나타남을 관찰 할 수 있었다. 3.1 대조 중심 손실 함수 대조 중심 손실 함수는 데이터 군집화를 강화하고 클래스 간의 변별력을 높이는 역할을 수행한다. 이 손실 함수는 동일 클래스 내 응집성을 촉진하고 서 로 다른 클래스 간 분리성을 증가시켜 더 변별력 있 는 임베딩 공간을 형성한다. 대조 중심 손실 함수 ( )는 다음과 같이 정의한다. ≠ ,(9) Eq. (9)에서 는 프레임 인덱스를 나타낸다. 분자의 수식에서 는 Eq. (4)의 번째 프레 임의 값을, 는 번째 프레임에 해당하는 라벨 의 중심 값을 의미한다. 두 명의 화자가 존재하는 다중 발화 데이터에 대해 는 Eq. (7)의 값 중 하나를 가지 며, 이때 는 Eq. (10)으로부터 에 대응되는 중심 값으로 정의된다. ∅ ∈ × ,(10) 는 와 동일한 벡터 차원을 가지며 분자에서 두 값의 차이에 대한 L2 Norm을 계산한다. 분모의 경 우, 는 클래스의 개수를 의미하며 ≠ 조건을 통 해 는 를 기준으로 서로 다른 클래스의 중심 값 을 가지게 된다. 따라서 Eq. (9)의 분자는 동일한 클래 스 간 거리, 분모는 서로 다른 클래스 간 거리 계산을 수행한다. 손실 함수가 분수 형태로 정의되는 경우, 그 값이 감소하기 위해서는 분자의 값은 감소하고 분모의 값은 증가해야 한다. 이를 통해 Eq. (9)의 손실 함수는 동일한 임베딩에 대응되는 클래스의 중심으 로 당겨 클래스 내 응집성을 촉진하는 동시에, 임베 딩을 서로 다른 클래스 중심으로부터 밀어내어 클 래스 간 분리성을 학습하게 한다. 3.2 SL-SA-EEND with 본 논문에서 제안하는 방법의 구조는 Fig. 2와 같 다. 기존 SL-SA-EEND 구조의 LayerNorm과 Linear + Softmax 사이 단계에 Eq. (10)의 클래스 별 중심 값을 두고 LayerNorm에서 출력된 와 대조 중심 손실 함수를 계산한다. 에 대조 중심 손실 함수를 적 용하여 분류 단계에서 사용할 임베딩을 직접적으로 개선한다. 손실 함수는 훈련 과정에서 감소하는 방 향으로 학습을 진행한다. 대조 중심 손실 함수에서 분자는 동일한 클래스의 중심 값과 L2 Norm을 계산 하며, 분모는 서로 다른 클래스의 중심 값과 L2 Norm 을 계산한다. 따라서 모델은 대조 중심 손실 함수를 통해 각 클래스에 대한 변별력 있는 표현을 효과적 으로 학습할 수 있게 되며 Fig. 3의 와 같은 임베 딩 공간을 유도할 수 있다. 의 경우 MNIST 데이터셋을 사용한 실험에서 훈련 초기 단계부터 사용하는 것이 효과적이라고 알려져 있다. [14] 그러나 화자 분할에서 는 학습 Fig. 2. (Color available online) SL-SA-EEND with . The definition of class centers in Fig. 2 is as in Eq. (10).임베딩 변별력 향상을 위한 대조 중심 손실 함수 기반 종단 간 화자 분할 개선 연구 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 529 초기에 불안정한 학습을 초래할 수 있다. 0-9까지의 숫자가 안정적인 패턴을 가지는 MNIST와 같이 잘 정의되고 일관된 클래스 특징을 가진 데이터셋과 달리, 화자 분할은 더 가변적이고 일관적이지 않은 특징을 포함한다. 예를 들어, 화자별 특징(성별, 억 양, 발음)은 동일한 클래스(화자1, 화자2)라도 샘플 에 따라 크게 달라지는 경우가 존재한다. 이러한 가 변성은 불안정한 임베딩 분포로 이어지며, 이는 훈 련 초기에 의 효과적인 적용을 방해하는 요인이 된다. 이 문제를 해결하기 위해, 불안정한 분류 성능의 초기 단계에서 의 가중치를 낮게 설정했다. 학습 이 진행됨에 따라 분류 성능이 안정화되면서 가중 치를 점진적으로 증가시켰고, 이 접근 방식을 통해 초기 불안정한 학습 문제를 해결하였고, 안정적으 로 모델에 를 적용하였다. 이 문제를 반영하여 제안된 방법의 손실 함수는 아래와 같다. ,(11) .(12) 훈련이 진행됨에 따라 Eq. (11)의 값은 현재 에포 크와 총 에포크의 비율로 정의되며, 점진적으로 증 가한다. 제안된 방법은 Eq. (11)의 를 Eq. (12)의 와 곱한다. 여기서 의 가중치는 분류 성능이 불 안정한 초기 단계에서는 낮게 설정하고, 학습이 진 행됨에 따라 분류 성능이 안정화되면서 점진적으로 증가시킨다. 이를 통해 화자 분할에서 발생하는 일 관적이지 않은 특징 문제와 과적합 문제를 완화하 여 효과적인 훈련을 가능하게 한다. IV. 실험 및 결과 4.1 데이터베이스 2명의 화자가 존재하는 다중 발화 데이터 생성을 위해 Librispeech 데이터베이스 [15] 를 사용하였으며, 잡 음 환경 구성을 위해 MUSAN [16] 데이터베이스를 사 용하였다. Room Impulse Responses(RIR)은 선행연구 [17] 에서 사용된 Simulated Room Impulse Responses 데이 터베이스의 10,000개 필터로 구성된다. 잡음 환경의 Signal-to-Noise Ratio(SNR) 값은 5 dB, 10 dB, 15 dB, 20 dB에서 무작위로 샘플링되었고, RIR 필터는 생성된 잡음 데이터에서 50 % 확률로 무작위로 선택되어 적 용되었다. 위와 같이 두 명의 다중 발화 환경을 인위 적으로 제작한 데이터베이스를 Simulated 데이터라 고 부르며, 이러한 방식은 SA-EEND가 제안한 알고 리즘 [10] 을 통해 생성되었다. 각 화자 별 발화 개수는 최소 5개에서 최대 10까지 선택 될 수 있게 선택하였 으며, 발화 중첩 구간 비율이 34 %가 되도록 설정하 여 생성하였다. Simulated 데이터셋은 훈련 데이터가 100,000개, 검증 및 테스트 데이터셋은 각각 500개가 되도록 생성하였다. Simulated 환경뿐만 아니라, 실제 다중 발화 환경 에서 화자 분할 성능 평가를 수행하기 위해 CALL- HOME 데이터셋 [18] 을 사용하였다. CALLHOME은 약 13 %의 발화 중첩 비율을 가진다. CALLHOME Part 1 의 155개 샘플 중 총 116개가 훈련에 사용되었고, 39 개 샘플이 검증에 사용되었으며, CALLHOME Part 2 의 148개의 샘플이 테스트에 사용되었다. 4.2 실험 설정 및 성능 평가 지표 Simulated 데이터셋과 CALLHOME 데이터셋 모두 8 kHz로 설정하였으며, 입력 특징으로는 25 ms 프레 임 길이와 10 ms 프레임 이동 간격으로 추출한 23차 원 로그-멜 필터 뱅크(log-Mel filter bank)를 사용하였 다. 각 특징은 이전 7 프레임과 이후 7 프레임의 특징 과 결합되었다. 결합된 특징은 신경망이 긴 오디오 Fig. 3. (Color available online) Embedding space of through proposed method. The is reduced to 3-dimensions for each time step using t-SNE.김동희, 김우일 한국음향학회지 제 44 권 제 5 호 (2025) 530 시퀀스를 처리할 수 있도록 10배 간격으로 다운샘플 링(subsampling) 하였다. 본 실험 설정에서 사용된 SA-EEND 기반 모델은 4 개의 인코더 블록( )을 사용하며, 각 블록은 256 개의 어텐션 유닛과 4개의 헤드로 구성된다. feed- forward 네트워크는 1,024개의 유닛으로 구성되었으 며, optimizer는 25,000 warmup steps에 의해 학습률이 조정되는 Adam을 사용하였다. 배치 크기는 16으로, 학습 에포크 수는 100으로 설정하였다. 학습 종료 후 마지막 10개의 에포크에서 생성된 모델 파라미터를 평균 내어 최종 모델을 구성하였다. Domain-adaptation을 위해, Simulated로 학습된 모 델은 CALLHOME 데이터셋을 사용해 재학습을 진 행하였다. Adam optimizer의 학습률은 10 –5 으로 설정 되었으며, 이 외의 훈련 설정은 Simulated와 동일하 다. 또한, 실험을 위해 중심점 값은 Simulated 데 이터에서 학습된 중심점을 사용하여 초기화를 진행 하였다. 화자 분할 평가 지표로 Diarization Error Rate(DER) [19] 를 사용하였다. DER은 Miss(MI), False Alarm(FA), Confusion Error(CF)로 구성된다. MI는 실제 음성 구 간이 비음성으로 잘못 예측될 때 발생하고, FA는 비 음성 구간이 음성 구간으로 잘못 예측할 때 발생하 며, CF는 화자가 잘못 할당될 때 발생한다. 이 실험에 서 DER 평가를 위한 칼라 허용 오차는 0.25 s로 설정 하였으며, 중앙값 필터는 적용하지 않았다. 4.3 실험 결과 기존 SA-EEND 모델을 활용하여 다중 라벨 분류 문제로 화자 분할을 수행하고, 임계값에 따른 성능 변화를 관찰하기 위해 Tables 1, 2와 같은 실험을 진 행하였다. 각 Table의 는 Eq. (1)의 에 해당한다. 에 따라 Simulated 데이터셋에서 최대 1.46 % 포인트, CALLHOME 데이터셋에서 최대 3.26 % 포인트의 성 능 변화가 관찰되었다. 이러한 결과는 에 따른 성 능 변화를 보여주며 에서 최적의 성능이 달성 됨을 확인할 수 있다. Tables 3과 4에서는 본 논문에서 제안하는 방법 (SL-SA-EEND with )의 성능 평가 결과를 다른 모 델과 비교하여 나타낸다. SA-EEND는 위에서 설명 한 다중 라벨 분류 문제에 기반하여 화자 분할을 수 행하는 모델로, 표는 에서 최적 성능을 기준 으로 작성하였다. SL-SA-EEND는 단일 라벨 분류 기 법을 적용한 화자 분할 모델로, 본 논문의 베이스라 인 모델로 사용된 모델이다. Table 4의 pyannote [20,21] 는 오픈 소스 화자 분할 시스템을, v3.1은 모델 버전 을 나타낸다. SL-SA-EEND with 는 본 논문에서 제안하는 방법을 나타낸다. Table 3의 Simulated 데이터셋 실험 결과에 따르면, Table 1. The DER (%) performance of SA-EEND model on the Simulated dataset across various threshold. Threshold MIFACFDER 0.32.935.750.539.21 0.43.743.610.738.08 0.54.672.230.847.75 0.65.931.440.768.12 0.77.360.920.638.91 Table 2. The DER (%) performance of SA-EEND model on the CALLHOME dataset across various threshold. Threshold MIFACFDER 0.34.9311.322.2118.45 0.46.356.923.0016.28 0.58.154.063.4915.70 0.611.042.593.2116.84 0.714.681.672.6218.96 Table 3. Evaluation results based on DER (%) for the Simulated Dataset. ModelMIFACFDER SA-EEND ( ) 4.672.230.847.75 SL-SA-EEND2.811.790.965.56 SL-SA-EEND with 1.821.241.084.14 Table 4. Evaluation results based on DER (%) for the CALLHOME Dataset. ModelMIFACFDER pyannote (v3.1)10.922.475.2118.60 SA-EEND ( ) 8.154.063.4915.70 SL-SA-EEND5.973.054.4313.46 SL-SA-EEND with 5.882.833.1511.86임베딩 변별력 향상을 위한 대조 중심 손실 함수 기반 종단 간 화자 분할 개선 연구 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 531 제안된 방법의 DER은 4.14 %인 반면, SA-EEND 및 SL-SA-EEND 모델의 DER은 각각 7.75 % 및 5.56 %로 나타났다. 이는 제안된 방법이 기존 화자 분할 방법 보다 성능이 향상되었음을 확인할 수 있으며 SL- SA-EEND 대비 25.53 %의 상대적인 개선을 보였다. CF의 경우 오류율이 소폭 향상된 것을 확인할 수 있 으나 이는 MI, FA의 감소를 위한 트레이드 오프로 볼 수 있다. 또한, Table 4의 CALLHOME 데이터셋 실험 결과에 따르면, 제안된 방법의 DER은 11.86 %로 다 른 화자 분할 모델들보다 DER 성능이 향상된 것을 확인할 수 있다. CALLHOME 데이터셋 결과의 경우 제안하는 방법이 SL-SA-EEND 대비 11.88 %의 상대 적 개선을 보였다. 4.4 임베딩 공간 시각화 적용 효과를 분석하기 위해 Fig. 4과 같이 임 베딩 공간을 시각화했다. 시각화를 위해 사용된 모 델은 4.2절의 설정과 동일하다. 시각화 공간은 Eq. (4)의 이며, 각 번째 프레임의 256차원 임베딩 은 t-SNE를 사용하여 2차원으로 축소되었다. Fig. 4 에서 회색은 침묵을, 파란색은 화자1, 초록색은 화자 2, 빨간색은 중첩 발화를 나타낸다. 각 색상의 “X” 표 시는 에 의해 학습된 각 클래스의 중심 값을 나 타내며 SL-SA-EEND는 를 적용하지 않았음으로 “X” 표시가 나타나지 않는다. Fig. 4에서 를 적용한 임베딩 공간이 그렇지 않 은 경우보다 클래스 간 변별력이 향상되었음을 관 찰할 수 있다. Simulated 데이터셋에서 를 적용함 으로써 임베딩이 각 화자 중심 주위에 클러스터링 되어 클래스 간의 명확한 분리를 확인할 수 있다. CALLHOME 데이터셋에서도 유사한 경향이 관찰되 었으며, 제안된 방법을 적용했을 때 클래스 사이에 더 명확하게 분리되는 것이 관찰되었다. V. 결 론 본 논문에서는 SL-SA-EEND 모델에 대조 중심 손 실함수( )를 적용하여 향상된 화자 분할 성능 시 스템을 제안하였다. 는 모델이 훈련 과정에서 각 클래스에 대해 더 변별력 있는 표현을 학습할 수 있 도록 하였다. 결과적으로, 제안된 방법은 베이스라인 대비 Simulated 데이터셋에서 25.53 %, CALLHOME 데이터셋에서 11.88 %로 화자 분할 성능을 개선하였 다. 향후 연구에서는 더 넓은 범위의 다중 발화 시나 리오를 처리하기 위해 제안된 방법을 3명 이상의 화 자를 포함하는 다중 발화 환경으로 확장하는 방안 에 관해 연구하고자 한다. 감사의 글 이 논문은 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF- 2021R1F1A1063347). References 1.N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, “Front-end factor analysis for speaker Fig. 4. (Color available online) Visualization of em- bedding spaces with and without . (a) and (b) show the results on simulated dataset, (c) and (d) show the results on CALLHOME. Gray, blue, green, and red plots represent silence, speaker 1, speaker 2, and overlapping speech respectively. The “X” symbols of each color represent the center values learned by .김동희, 김우일 한국음향학회지 제 44 권 제 5 호 (2025) 532 verification,” IEEE Trans. Audio Speech Lang. Process. 19, 788-798 (2011). 2.E. Variani, X. Lei, E. McDermott, I. L. Moreno, and J. Gonzalez-Dominguez, “Deep neural networks for small footprint text-dependent speaker verification,” Proc. ICASSP, 4052-4056 (2014). 3.D. Snyder, D. Garcia-Romero, D. Povey, and S. Khudanpur, “Deep neural network embeddings for text-independent speaker verification,” Proc. Inter- speech, 999-1003 (2017). 4.D. Garcia-Romero, D. Snyder, G. Sell, D. Povey, and A. McCree, “Speaker diarization using deep neural net- work embeddings,” Proc ICASSP, 4930-4934 (2017). 5.G. Sell and D. Garcia-Romero, “Diarization reseg- mentation in the factor analysis subspace,” Proc. ICASSP, 4794-4798 (2015). 6.Q. Wang, C. Downey, L. Wan, P. A. Mansfield, and I. L. Moreno, “Speaker diarization with LSTM,” Proc. ICASSP, 5239-5243 (2018). 7.M. Diez, L. Burget, S. Wang, J. Rohdin, and J. Černocký, “Bayesian HMM based x-vector clustering for speaker diarization,” Proc. Interspeech, 346-350 (2019). 8.Y. Fujita, N. Kanda, S. Horiguchi, K. Nagamatsu, and S. Watanabe, “End-to-end neural speaker diarization with permutation-free objectives,” Proc. Interspeech, 4300-4304 (2019). 9.Y. C. Liu, E. Han, C. Lee, and A. Stolcke, “End-to- end neural diarization: from transformer to conformer,” Proc. Interspeech, 3081-3085 (2021). 10.Y. Fujita, N. Kanda, S. Horiguchi, Y. Xue, K. Nagamatsu, and S. Watanabe, “End-to-end neural speaker diarization with self-attention,” Proc. ASRU, 296-303 (2019). 11.S. Horiguchi, Y. Fujita, S. Watanabe, Y. Xue, and P. García, “Encoder-decoder based attractors for end-to- end neural diarization,” in IEEE/ACM Trans. Audio Speech Lang. Process. 30, 1493-1507 (2022). 12.Y. Yu, D. Park, and H. Kook Kim, “Auxiliary loss of transformer with residual connection for end-to-end speaker diarization,” Proc. ICASSP, 8377-8381 (2022). 13.J. Jung and W. Kim, “A study on end-to-end speaker diarization system using single-label classification” (in Korean), J. Acoust. Soc. Kr. 42, 536-543 (2023). 14.C. Qi and F. Su, “Contrastive-center loss for deep neural networks,” Proc. ICIP, 2851-2855 (2017). 15.V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public do- main audio books,” Proc. ICASSP, 5206-5210 (2015). 16.D. Snyder, G. Chen, and D. Povey, “Musan: A music, speech, and noise corpus,” arXiv preprint arXiv:1510. 08484 (2015). 17.T. Ko, V. Peddinti, D. Povey, M. L. Seltzer, and S. Khudanpur, “A study on data augmentation of rever- berant speech for robust speech recognition,” Proc. ICASSP, 5220-5224 (2017). 18.2000 Nist Speaker Recognition Evaluation, https:// catalog.ldc.upenn.edu/LDC2001S97, (Last viewed September, 23, 2025). 19.The 2009 (rt-09) Rich Transcription Meeting Recog- nition Evaluation Plan, https://web.archive.org/web/ 20100606092041if_/http://www.itl.nist.gov/iad/mig/ tests/rt/2009/docs/rt09-meeting-eval-plan-v2.pdf, (Last viewed September, 23, 2025). 20.A. Plaquet and H. Bredin, “Powerset multi-class cross entropy loss for neural speaker diarization,” Proc. Interspeech, 3222-3226 (2023). 21.H. Bredin, “Pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe,” Proc. Interspeech, 1983-1987 (2023). 저자 약력 ▸김 동 희 (Donghee Kim) 2023년 3월 ~ 2025년 8월 : 인천대학교 컴 퓨터공학부 공학사 2025년 9월 ~ 현재 : 인천대학교 대학원 인 공지능학과 석사과정 ▸김 우 일 (Wooil Kim) 1996년 2월, 1998년 8월, 2003년 8월 : 고려 대학교 전자공학과 학/석/박사 2004년 8월 ~ 2005년 8월 : Carnegie Mellon University 박사후연구원 2005년 8월 ~ 2012년 8월 : University of Texas at Dallas 연구원, 연구교수 2012년 8월 ~ 현재 : 인천대학교 컴퓨터공 학부 조교수, 부교수, 교수I. 서 론 최근 음성 처리 기술의 발전, 특히 자동 음성 인식 (Automatic Speech Recognition, ASR), 자동 화자 검증 (Automatic Speaker Verification, ASV), 오디오 딥페이 크 탐지(Audio Deepfake Detection, ADD) 모델의 성능 향상은 인증 및 검증 시스템의 신뢰도를 크게 높여 왔다. 그러나 이러한 모델들은 주로 깨끗한 환경에 서 개발 및 평가되기 때문에, 실제 환경에서 마주치 는 다양한 노이즈 요인에 취약하다는 한계가 있다. [1] 음성 변형 추적 : 강건한 음성 처리를 위한 노이즈 분류 접근법 Speech distortion tracing : A noise classification approach for robust speech processing 이웅재, 1 정수환 1† (Woongjae Lee 1 and Souhwan Jung 1 † ) 1 숭실대학교 정보통신공학과 (Received August 1, 2025; revised August 28, 2025; accepted September 1, 2025) 초 록: 다양한 노이즈 유형을 이해하고 분류하는 것은 음성 처리 모델의 강건성을 향상시키는 데 있어 매우 중요하다. 기존 연구들은 주로 백색 잡음이나 배경 소음과 같은 환경 노이즈에 초점을 맞추었으나, 피치 시프트, 타임 스트레치와 같은 음성 변조의 영향은 상대적으로 덜 탐구되어 왔다. 본 연구는 이러한 한계를 극복하기 위해 음성 변형을 포함한 다 양한 노이즈 유형을 효과적으로 구분할 수 있는 노이즈 분류 모델을 제안한다. LibriSpeech, Voice Cloning ToolKit (VCTK), DSD-Corpus, TIMIT 데이터셋을 활용하여 538,000개의 노이즈 데이터셋을 구축하였으며, Spectrogram, MFCC, F0를 융합한 Multi-Feature Fusion 모델을 설계하였다. 제안된 모델은 95 %의 정확도를 달성하였으며, 7.2 M 파라미터로 실시간 전처리에 적합한 경량성을 확보하였다. 이는 노이즈 분류 기반 적응형 전처리가 다양한 노이즈 환경에서의 음성 처리 모델 강건성 향상에 기여할 수 있음을 시사한다. 핵심용어: 노이즈 분류, 음성 변조, 음성 처리, 오디오 딥페이크 탐지, 자동 화자 검증 ABSTRACT: Understanding and classifying various types of noise is crucial for improving the robustness of speech processing models. While previous studies have primarily focused on environmental noise such as white noise and background noise, the effects of speech manipulation including pitch shift and time stretch have been relatively less explored. This study proposes a noise classification model that can effectively distinguish various types of noise including speech manipulation to overcome these limitations. We constructed a noise dataset of 538,000 samples using LibriSpeech, Voice Cloning ToolKit (VCTK), DSD-Corpus, and TIMIT datasets, and designed a Multi-Feature Fusion model that integrates spectrogram, MFCC, and F0 features. The proposed model achieved 95 % accuracy with 7.2 M parameters, demonstrating suitable lightweight characteristics for real-time preprocessing. This suggests that noise classification-based adaptive preprocessing can effectively contribute to enhancing the robustness of speech processing models in various noise environments. Keywords: Noise classification, Speech manipulation, Speech processing, Audio deepfake detection, Automatic speaker verification PACS numbers: 43.60.Bf, 43.60.Mn, 43.60.Lq 한국음향학회지 제44권 제5호 pp. 533~539 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.533 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Souhwan Jung (souhwanj@ssu.ac.kr) Department of Electronic Engineering, Soongsil University,46, Sadang-ro, Dongjak-gu, Seoul 06978, Republic of Korea (Tel: 82-2-826-9197) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 533Next >