< PreviousI. 서 론 음성 합성 기술은 최근 몇 년간 광범위하게 연구 되어 상당한 성능 향상을 이루었다. 특히 트랜스포 머 기반 아키텍처는 음성 시퀀스 전반에 걸친 장거 리 의존성을 모델링하는 데 우수한 품질을 보여주 었다. [1-3] 감정적 음성 합성은 이러한 발전을 표현력 있는 음성으로 확장하여 모델이 정서적 상태를 전 양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 Emotion-intensity controllable speech synthesis using bidirectional state space models with emotion-guided cross attention 함인성, 1 오경석, 1 송락빈, 1 구본화, 1 고한석 1† (Insung Ham, 1 Kyungseok Oh, 1 Rakbeen Song, 1 Bonhwa Ku, 1 and Hanseok Ko 1 † ) 1 고려대학교 전기전자공학과 (Received June 17, 2025; accepted August 11, 2025) 초 록: 최근 감정 강도를 제어할 수 있는 음성 합성 모델이 개발되었다. 하지만 감정 강도 제어 시스템들은 종종 음성 품질 저하와 부자연스러운 감정 표현으로 인해 인간과 같은 자연스러움과 합성 음성 사이에 중요한 격차가 존재한다. 이러한 문제를 해결하기 위해 우리는 기존의 트랜스포머 아키텍처를 활용한 감정 강도 제어 모델에 양방향 상태 공간 모델로 대체하는 새로운 프레임워크를 제안한다. 우리의 접근 방식은 양방향 상태 공간 모델과 감정 유도 교차 주의 메 커니즘을 함께 적용하여 감정적 특성과 음향적 특성 간의 상호작용을 효과적으로 모델링하여 세밀한 감정 강도 제어와 음성의 품질, 자연스러움을 향상시킨다. 실험 결과는 우리의 접근법이 음성의 자연스러움 측면에서 기존 시스템과 비교 하여 동등하거나 더 나은 성능을 달성함을 보여준다. 핵심용어: 감정 강도 제어, 감정 강도 표현, 교차 주의, 상태 공간 모델, 양방향 상태 공간 모델, 음성 합성 ABSTRACT: Recent advances have led to the development of emotion-intensity controllable speech synthesis models. However, these systems often suffer from degraded speech quality and unnatural emotional expressions, creating a critical gap between human-like expressiveness and synthetic speech. To address these challenges, we propose a novel framework that replaces traditional Transformer architectures with Bidirectional State Space Models for emotion-intensity controllable speech synthesis. Our approach incorporates an Emotion-Guided Cross Attention mechanism to effectively model interactions between emotional and acoustic characteristics, enhancing fine-grained intensity control, speech quality, and naturalness. Experimental results demonstrate that this approach achieves comparable or better performance than existing systems in terms of speech naturalness. Keywords: Emotion intensity control, Emotion intensity representation, Cross attention, State space model, Bidirectional state space model, Speech synthesis PACS numbers: 43.72.Bs, 43.72.Ja 한국음향학회지 제44권 제5호 pp. 496~507 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.496 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Hanseok Ko (hsko@korea.ac.kr) Department of Electrical Engineering, Engineering Building Room 419, Korea University Anam Campus, 145 Anam-ro, Seongbuk-gu, Seoul 02841, Republic of Korea (Tel: 82-2-2390-4556, Fax: 82-3291-2450) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 496양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 497 달할 수 있게 한다. 음성 합성 시스템 파이프라인에 감정 임베딩을 연결 하거나 더하는 연산은 감정 카 테고리 조절을 가능하게 하지만, 감정 강도 제어에 는 한계가 있다. [4] 감정 강도는 의사소통에서 매우 중요한 요소이다. 인간의 감정은 단순한 범주를 넘 어 다양한 강도 수준으로 나타난다. 예를 들어, ‘기 쁨’은 만족에서 즐거움, 황홀감까지 다양하게 표현 될 수 있으며, ‘분노’는 짜증에서 불만, 격노까지 다 양한 스펙트럼을 가진다. [5,6] 감정 강도 제어에 관한 최근 연구는 트랜스포머 모 델을 기반으로 한다. 연속적인 감정 공간, 순위 기반 강도 학습, 혼합 감정 블렌딩 등은 각각 제어 가능성 을 향상 시키지만, 여전히 O(n 2 ) 복잡도를 가진 자기 주의 메커니즘에 의존하고 있으며 자연스러움과 확 장성에 어려움을 겪는다. [7-9] 이에 반해 Mamba [10-13] 와 같은 상태 공간 모델 State Space Models(SSMs)은 선 형 복잡도 O(n)와 강력한 컨텍스트 이해 능력을 달성 한 새로운 딥러닝 프레임 워크이다. 특히 양방향 Mamba [14,15] 는 시퀀스 모델링에서 효율성과 정확성 모두에서 추가적인 이점을 보여주었다. [16] 하지만 이들의 방법으로 아직 감정적 음성 합성, 특히 강도 제어에 대한 적용은 아직 탐구되지 않았다. 주목할 만한 점은, Mamba와 관련 SSM 연구 [17] 가 긴 시퀀스에서의 이점을 강조하는 반면, 트랜스포 머가 여전히 짧은 시퀀스에서 더 나은 성능을 보이 는 경향이 있다는 것이다. [18] 이러한 연구들은 최대 시퀀스 길이가 약 4 s에 불과한 ESD [19] 와 같은 음성 데이터셋을 명시적으로 연구하지 않았지만, 짧은 입력에 대한 성능 격차를 시사한다. 이러한 단점을 해결하기 위해, 우리는 감정적 음성 합성을 위해 트 랜스포머 아키텍처를 양방향 Mamba 상태 공간 모델 로 대체하는 최초의 프레임워크를 제안한다. 이 프 레임워크는 우리가 제안하는 감정 유도 교차 주의 메커니즘을 활용하여 선형 시간 복잡도로 세밀한 감정 강도 제어를 달성한다. 우리의 주요 기여는 다 음과 같다: 1. SSM 기반 감정적 음성 합성: 양방향 Mamba를 감 정 강도 제어 음성 합성에 최초로 적용하여 강도 조절의 효과를 입증한다. 2. 감정 유도 교차 주의(Emotion-Guided Cross Attention, EGCA): 감정 임베딩과 음향 특성 간의 풍부한 컨 텍스트 인식 상호작용을 가능하게 하는 EGCA를 도입하여 단순한 연결이나 덧셈 전략을 뛰어넘는 다. II. 관련 연구 2.1 감정 강도 제어 음성 합성 감정 강도 제어에 관한 최근 연구는 트랜스포머 기반 모델을 기반으로 발전해왔다. EmoSpeech [20] 는 FastSpeech2를 기반으로 한 감정 음성 합성 모델로, extended Geneva Minimalistic Acoustic Parameter Set (eGeMAPS) 특성을 활용하여 운율 표현을 극대화했 다. [1,5] 이 모델은 음향학적 특성을 효과적으로 활용 하여 감정 표현의 자연스러움을 향상시켰으나, 감 정 카테고리 제어는 가능하지만 감정 강도의 세밀 한 제어가 어렵다는 한계가 있다. Inter-Intra 모델 [21] 은 FastSpeech2 기반으로 혼합 기법 [22-24] 과 순위 모델 을 통해 감정 강도 제어를 시도했다. 이 방법은 감정 간과 감정 내 거리를 모두 고려하는 순위 기반 학습 을 제안하여 강도 차이 인식 문제를 해결하고자 했 으나, 음성 품질 저하와 낮은 감정 표현력이라는 심 각한 문제점을 보였다. EmoSphere-TTS [25] 는 구형 감 정 벡터를 활용하여 감정 스타일과 강도를 동시에 제어하는 혁신적인 접근법을 제안했다. 각성, 발렌 스, 지배의 감정 차원을 구면 좌표계로 변환하여 복 잡한 감정을 모델링했으나, 극단적인 감정 강도에 서는 여전히 품질 저하와 자연스러움 문제가 남아있 다. Zhou et al. [26] 의 연구는 혼합 감정 생성을 통해 감 정 강도를 제어하는 새로운 접근법을 제시했다. 상 대적 속성 개념을 활용하여 감정 쌍 간의 상대적 차 이를 측정하는 방식을 도입했으나, RNN 모델의 자 기회귀적 학습 특성으로 인해 학습 시간 증가와 음 성 품질 저하 문제가 발생했다. 2.2 Mamba 기반 음성 처리 연구 Speech Slytherin [27] 연구는 맘바 아키텍처가 음성 처리 분야에서 트랜스포머의 대안이 될 수 있는지 를 다각도로 검증했다. 음성 분리, 음성 인식, 음성 합 성 작업에서 맘바 모델은 Sepformer, [28] Conformer, [29] 함인성, 오경석, 송락빈, 구본화, 고한석 한국음향학회지 제 44 권 제 5 호 (2025) 498 VALL-E [30] 와 같은 트랜스포머 기반 모델과 비교하 여 동등하거나 더 나은 성능을 보였다. 특히 메모리 사용량과 처리 속도 측면에서 효율성이 높았으나, 짧은 시퀀스에서는 트랜스포머 대비 효율성 이점이 크게 감소하며, 복잡한 주의 메커니즘이 필요한 작 업에서는 성능이 제한적이라는 한계가 있다. 이러 한 문제들을 해결하기 위해 본 연구에서는 양방향 상태 공간 모델과 함께 감정 유도 교차 주의(EGCA) 메커니즘을 활용하는 접근법을 제안한다. EGCA는 감정적 특성과 음향적 특성 간의 상호작용을 효과 적으로 모델링하여, 맘바의 계산 효율성을 유지하 면서도 감정 표현의 세밀한 강도 제어를 가능하게 한다. 이를 통해 기존 모델들의 한계였던 음성 품질 저하와 부자연스러운 감정 표현 문제를 개선하고, 특히 짧은 시퀀스에서도 효과적으로 작동하는 감정 강도 제어 음성 합성 시스템을 구현하고자 한다. III. 제안 방법 3.1 예비 지식(Preliminaries) 3.1.1 상태 공간 모델(State-Space-Models, SSMs) 상태 공간 모델 (SSMs)은 연속적이고 시간 의존적 인 입력 ∈ 를 은닉 상태 ∈ 을 통해 출 력 ∈ 로 매핑하는 선형 시불변 시스템이다 : (1) 여기서 ∈ ×, ∈ ×, ∈ ×이다. A와 B를 이산화 하여 변환하면 다음과 같이 표현된다 : (2) 이는 L 단계 시퀀스에 대해 O(L) 시간 복잡도로 인 과적 스캔 또는 합성곱으로 구현할 수 있다. 3.1.2 맘바 상태 공간 모델(Mamba SSM) Mamba는 기본 SSM을 업그레이드 하여 시간 가변 적 매개변수를 사용한다. 먼저, 인과적 1차원 합성 곱 [31] (커널크기 K, 확장 d)이 세 가지 매개변수 스트 림을 생성한다. 그다음 게이트 순환과 출력 투영을 형성한다. ∆ ′ ′ ′ ′ ∆ ∙ (3) Eq. (3)과 같이 인과적 1차원 합성곱을 사용하여 ∆ , ′ , ′ 를 생성함으로써, Mamba는 인과적이고 선형 시간 업데이트를 유지하면서 시간 단계별로 전이 역학을 동적으로 조정한다. 이 설계는 O(L) 복잡도 를 유지하면서도 각 단계의 업데이트가 크기 K의 지 역적 수용 영역에 의존할 수 있게 하여, SSM을 통한 장거리 순환과 1차원 합성곱 게이팅을 통한 세밀한 지역적 컨텍스트를 모두 포착할 수 있게 한다. 3.1.3 단방향 및 양방향 맘바 인과적(단방향) 설정에서 맘바 블록은 자기회귀 생 성에 필요한 엄격한 좌에서 우로의 의존성을 유지한 다. 즉 각 시간 단계의 업데이트와 출력은 과거 입력에 만 의존한다. 구체적으로, 게이트된 SSM 매개변수는 인과적 1차원 합성곱에 의해 생성되고 SILU 활성화 함수, [32] 레이어 정규화 [33] 및 잔차 연결로 래핑되어 미 래 시점의 정보가 현재 시점 예측에 사용되는 것을 방 지한다. 비인과적 처리(전체 시퀀스 인코딩)의 경우, 양방향 Mamba는 두 개의 SSM 파이프라인으로 구성 된다. 하나는 순방향으로 읽고 다른 하나는 역방향으 로 읽은 후, 시간 단계별 은닉 상태를 융합한다: → ← .(4) 이 이중 스트림 설계는 Vision Mamba와 관련 변형 이 시각적 도메인에서 다방향, 공간적으로 인식 가 능한 특징 추출을 가능하게 하는 방식을 반영한다. 즉 양방향의 컨텍스트를 결합함으로써, 트랜스포머 자기 주의의 전역 컨텍스트 집계를 선형 비용으로 연산한다.양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 499 3.1.4 양방향 맘바 레이어 Conformer [29] 는 지역 특징을 활용하기 위해 각 트 랜스포머 인코더 블록에 컨볼루션 모듈을 추가할 것을 제안하였다. 이와 여러 연구에서 영감을 받아, 우리의 BiMamba 인코더 및 디코더 레이어는 양방향 Mamba를 피드포워드 및 컨볼루션 모듈로 보강한다 (Fig. 1 Right): (5) 우리의 양방향 Mamba 레이어는 순차적 구조를 따 른다. 먼저 피드포워드 네트워크를 적용하고, 이어 서 양방향 Mamba 처리를 수행한 후, 마지막으로 컨 볼루션을 적용한다. Fig. 1 Left에서 볼 수 있듯이 양 방향 Mamba 부분에서 두 개의 병렬 스트림(순방향/ 역방향) 이 각각 인과적 1차원 컨볼루션을 사용하여 동적 SSM 매개변수를 생성하고[Eq. (3)과 같이] SiLU 함수로 활성화된 투영으로 은닉 상태를 업데 이트한다. 우리는 이들을 Eq. (4)를 통해 융합하고 레 이어 정규화와 피드포워드 블록을 잔차 연결과 함 께 적용한다. 이렇게 컨볼루션 지역성, Mamba의 장 거리 순환, 그리고 부드러운 SiLU 비선형성을 통합 함으로써, 이 레이어는 Conformer 스타일 인코더에 서 자기주의의 대체로 통합된다[Eq. (5)]. 3.2 순위 모델(rank model) 감정 강도를 정밀하게 제어하고 표현하기 위해 설 계된 순위 모델은 감정 간 차이와 동일 감정 내의 강 도 차이를 학습하여 감정 강도의 연속적 표현을 가 능하게 한다. 본 모델은 혼합 손실과 순위 손실을 활 용하여 감정 강도를 효과적으로 모델링 하는 것을 목표로 한다. 입력 데이터 X는 Inter-Intra 모델의 구성 과정을 따 라 멜 스펙트로그램, 음조, 세기를 연결하여 구성된 음향적 특징으로 이루어지며, 중립 음성( ) 특징 과 감정 음성( )특징으로 나뉜다. 이 두 데이터를 선형적으로 조합하여 혼합 데이터를 생성하며 혼합 데이터는 다음과 같이 정의된다. ,(6) Fig. 1. (Color available online) Left: bidirectional mamba block, right: bidirectional mamba encoder, decoder layer.함인성, 오경석, 송락빈, 구본화, 고한석 한국음향학회지 제 44 권 제 5 호 (2025) 500 여기서 는 범위에서 Beta 분포를 통해 샘플링 되며, 값이 높을수록 감정 음성의 비중이 더 크고 강도가 강하게 반영된다. 혼합 데이터 는 강도 추출기에 입력되어 나온 음향 특징과 감정 라벨을 입력으로 받아 처리된 감 정 임베딩을 더하여 감정 강도 표현( )을 생성한 다. 감정 임베딩은 각 감정 레이블에 따라 룩업 테이 블로 임베딩되며, 이를 강도 표현에 잘 스며들도록 한다. 감정 강도 추출기는 6개의 순방향 트랜스포머 레이어로 구성되어 있다. 생성된 강도 표현은 평균 화 과정을 거쳐 라는 숨은 특징으로 변환된다. 은 감정 강도를 학습하기 위한 혼합 손실과 순 위 손실의 기반이 된다. Fig. 2에서 볼 수 있듯이, 평 균화된 는 투영기를 통해 스칼라값 으로 변 환된다. 는 모델이 학습한 강도 점수를 나타내 며, 감정 강도의 상대적 순위를 학습하는 데 활용된 다. 순위 모델의 학습은 혼합 손실과 순위 손실의 결 합을 통해 이루어진다. 혼합 손실은 감정 간(inter- class) 차이를 학습하며, 다음과 같이 정의된다[Eqs. (7) ~ (9)]. ∙ ∙ (7) ∙ ∙ (8) (9) 여기서 과 은 각각 중립 음성과 감정 음성의 레이블을 나타내며, CE는 교차 엔트로피 손실 함수 이다. 순위 손실은 동일 감정 내 강도 차이를 학습하 기 위해 사용된다. 투영기에서 추출된 과 의 점 수 차이는 시그모이드(Sigmoid) 함수로 정규화 되어 확률 값으로 정의된다[Eq. (10)]. 또한 순위 손실은 다 음과 같이 정의된다[Eq. (11)]. (10) ∙ ∙ (11) 여기서 는 의 정규화된 값으로, 두 샘플 간 강도 차이를 나타낸다. 예를들어 인 경 우, 에 높은 점수를 부여하도록 모델을 학습시키 며 반대로 인 경우, 에 낮은 점수가 부여 되도록 모델을 학습시킨다. 즉, 베타 분포를 통해 샘 플링한 값에 따라 감정 강도가 높은 샘플에는 높 은 점수를, 낮은 샘플에는 낮은 점수를 부여하도록 모델을 학습시킨다는 것이다. 최종적으로, 순위 모 델의 전체 손실 함수는 혼합 손실과 순위 손실의 가 중합으로 정의된다. 여기서 와 는 각 손실 항목의 가중치를 나타낸다[Eq. (12)]. (12) 3.3 감정 유도 교차 주의 순위 모델 학습에 사용되는 기존 강도 추출기는 음향적 특징을 트랜스포머 인코더로 처리한 후, 감 정 임베딩을 단순한 덧셈 연산을 통해 결합하여 감 정 강도 표현을 생성하였다. 이 방식은 감정 강도의 구분에는 효과적이지만, 강도 값이 최소(minimum), 중앙(median), 또는 최대(maximum)인 모든 경우에서 감정 표현력이 부족하여 합성된 음성이 해당 감정 을 충분히 반영하지 못하는 문제가 있었다. 예를 들 어, “기쁨” 감정에서 강도가 높을수록 더 활기찬 음 색과 높은 주파수 성분이 강조되어야 하지만, 기존 방식에서는 이러한 변화를 적절히 반영하지 못하여 감정 표현이나 강도 표현이 청취자에게 명확히 전 달되지 않았다. 이는 감정 임베딩과 음향적 특징 간 Fig. 2. (Color available online) Rank model.양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 501 의 상호작용이 부족하기 때문이며, 결과적으로 강 도 변화에 따른 감정 표현이 자연스럽지 않은 문제 를 초래한다. 이러한 한계를 해결하기 위해 교차주의 메커니 즘 [34,35] 을 기반으로 한 감정 유도 교차주의(EGCA) 구조를 설계하였다. EGCA는 감정 임베딩과 음향적 특징 간의 상호작용을 강화하는 교차주의 기반의 구조로, 강도에 따른 음향적 변화가 자연스럽게 반 영되도록 한다. 교차주의는 다중 헤드 주의(multi- head attention)과 같은 처리 과정으로 쿼리(query)와 키(key) 간의 연관성을 계산하여 값(value)를 재조합 하며 이때 쿼리는 키, 값과 다른 도메인에서 가져온 다. Fig. 3에서 볼 수 있듯이 EGCA는 크게 음향적 특 징 추출기와 감정 강도 조정을 위한 다중 헤드 주의 블록으로 구성된다. 음향적 특징 추출기는 입력 데 이터(멜 스펙트로그램, 음조, 세기)를 트랜스포머 기 반으로 처리하여 음향 특징을 학습한다. 트랜스포 머 인코더에서 추출된 음향적 특징은 키와 값으로 활용되며, 감정 임베딩은 쿼리로 변환되어 다중 헤 드 주의에서 감정 임베딩과 음향적 특징 간의 연관 성을 학습한다. 이 과정은 다음과 같이 정의된다. 감 정 임베딩 E는 쿼리로 변환되고, 음향적 특징 X는 키 와 값으로 변환된다[Eq. (13)]. (13) 다중 헤드 주의(Multi-Head Attention, MHA)는 여러 개의 독립적인 주의 헤드를 사용하여 다양한 감정 강도 패턴을 학습하며, 각 헤드에서 얻어진 정보를 결합하여 최종 출력을 생성한다[Eqs. (9), (10)]. MHA(Q,K,V) = Concat(head , … , head )W .(14) = Softmax V,(15) 여기서 H는 음향 특징 추출기에서 추출된 숨은 음향 적 특징을 나타낸다. 숨은 음향 특징 H와 교차 주의 를 통과한 감정 음향적 특징 U 간의 요소별 곱셈 연 산을 통해 감정 음향적 특징과 음향적 특징간의 상 호작용을 학습한다. 마지막으로 mlp block을 통해 음 향적 특징의 특정 부분을 선택적으로 강조하여 감 정 강도를 더욱 정확하게 표현할 수 있도록 설계하 였다[Eq. (16)]. ∙ (16) 3.4 양방향 맘바 기반 음성합성 모델 음성합성 모델은 앞서 설명한 양방향 맘바 구조와 FastSpeech2 [3] 의 학습 전략을 활용하였다. FastSpeech2 는 멜 스펙트로그램을 생성하기 위해 트랜스포머 기반의 인코더(encoder)와 디코더(decoder)를 포함하 며, 분산 적응기를 활용하여 지속시간(duration), 세 기(energy), 음조(pitch)와 같은 음성의 운율적 특징을 조건으로 입력받아 생성한다. 본 연구에서는 기존 FastSpeech2에서 사용하는 트랜스포머 인코더 디코 더를 양방향 Mamba 인코더 디코더 구조로 변경하고 음성의 운율적 특징을 예측하는 분산 적응기를 활 용한다. 그리고 EGCA 기반 강도 추출기를 결합하여 감정 표현력과 자연스러움을 강화한 음성합성 모델 을 설계하였다(Fig. 4). 모델 학습은 두 단계로 진행된다. 첫 번째 단계에 서는 EGCA 기반 강도 추출기를 단독으로 사전 학습 시켜 감정 강도 표현을 정교하게 학습하도록 한다. EGCA 기반 강도 추출기의 입력은 멜 스펙트로그램, Fig. 3. (Color available online) EGCA based inten- sity extractor architecture.함인성, 오경석, 송락빈, 구본화, 고한석 한국음향학회지 제 44 권 제 5 호 (2025) 502 음조, 세기, 감정 레이블을 입력으로 받아 감정 강도 표현을 학습하며, 학습이 완료된 후에는 가중치를 고정(freeze)하여 이후 음성합성 모델에 결합하여 학 습 시 가중치가 변경되지 않도록 한다. 두 번째 단계 에서는 학습된 EGCA 기반 강도 추출기가 결합된 음 성합성 모델을 학습한다. 음성합성 모델의 입력은 음소이며 출력은 멜 스펙트로그램 이다. 사용되는 손실 함수는 Fastspeech2의 학습 전략을 따라 멜 스펙 트로그램. 음조, 세기, 지속시간을 예측하는 손실 함 수들로 구성된다. 음조, 세기, 지속시간의 경우 실제 값들과 예측된 값들의 평균 제곱 오차 손실(Mean Square Error Loss, MSE Loss)로 구성이 되며 멜 스펙 트로그램은 평균 절댓값 오차(Mean Absolute Error Loss, MAE Loss 또는 L1 Loss)로 구성된다. 음성합성 모델의 총 손실함수는 각각의 손실들의 합으로 정 의된다[Eq. (17)]. “” (17) 학습이 완료된 이후 추론(inference) 과정에서는 원 하는 텍스트, 감정 강도 라벨 그리고 감정 라벨을 입 력으로 한다. 감정 강도를 효과적으로 조절하기 위 해 Inter-Intra 모델의 방법을 근거로, 훈련 데이터에 서 추출된 감정 강도 점수 s를 활용하여 [0, 1] 범위로 정규화 하며 최소 최대 정규화 방법을 이용한다. 강 도 범위에 임계값 설정은 최소 : [0, 0.1], 중앙 : [0.5, 0.6], 최대 : [0.9, 1]로 설정하여 감정 강도와 감정 표 현력이 명확히 표현되도록 설정하였다. 실제 원하 는 감정 강도에 대해 합성을 하기 위해 설정된 강도 범위에 대한 감정 강도 표현들을 시간 축으로 평균 화를 하여 ∈ 을 미리 캐시에 저장하고 추론시 에 원하는 감정 강도 라벨을 저장된 캐시에서 꺼내 어 입력으로 사용한다. IV. 실험(Experiments) 4.1 데이터(Data) 본 연구에서는 Emotional Speech Dataset(ESD)를 사 용하였으며, 10명의 중국어 화자, 10명의 영어 화자 총 20명으로로 구성되어 있으며 본 연구에서는 10 명의 영어 화자만 이용한다. 이에 따라 총 10시간 분 량의 17,500개 음성 데이터로 구성된다. 감정 카테 고리는 중립, 화남, 기쁨, 슬픔, 행복 총 5가지 감정으 로 주석되어 있다. 데이터셋 분할은 훈련 데이터 15,400개, 검증 데이터 700개, 테스트 데이터 1,400개 로 분할하였으며 기존 16000 Hz로 샘플링된 데이터 를 24000 Hz로 업샘플링 하여 사용하였다. 학습에 사용된 음성 특징은 멜 스펙트로그램, 음조, 세기, 지속시간으로 구성된다. 멜 스펙트로그램 추출 을 위해 고속 푸리에 변환(Fast Fourier Transform, FFT) 길이 2048, 프레임(Frame) 길이 1200, 홉(hop) 길이 300 으로 설정 하였다. 4.2 실험 설정 4.2.1 학습 설정 모든 모델은 NVIDIA TITAN RTX GPU에서 Adam 최적화 방법을 사용하여 학습을 진행했다. 순위 모 델은 2000 에폭 동안 학습률 0.00005로 학습되었으 며, 손실 가중치는 γ = 0.1, β = 10으로 설정하였다.음 성합성 모델은 1000 에폭 동안 학습률 0.0001로 학습 을 진행하였다. Fig. 4. (Color available online) Speech synthesis model architecture.양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 503 4.2.2 비교 모델 설정 위 관련 연구 절에서 설명한 바와 같이, 본 연구는 Fastspeech2 모델 기반의 inter-intra 감정 강도 제어 모 델을 기준 모델으로 설정하였고 이를 포함하여 총 다섯 가지 모델을 비교 실험하였다. 첫 번째로 감정 레이블만을 조건으로 사용하는 Conformer-FastSpeech2(Conformer-FS2) [36] 감정 음성 합성 모델로 Fastpseech2 모델의 트랜스포머 백본을 conformer 구조로 대체한 모델이며 감정 강도 제어 기 능은 포함되어 있지 않다. 두 번째로 inter-intra 모델 은 위와 같이 트랜스포머 백본을 conformer 구조로 대 체 후 기존의 순위 모델과 강도 추출기를 통하여 감정 강도 제어가 가능한 모델이다. 세 번째로 Emosphere 모델은 구형 감정 벡터를 활용한 감정 강도 제어 모 델이며 저자가 배포한 공식 깃허브 코드를 사용하 였다. 네 번째로 두 번째 모델의 기존 강도 추출기를 EGCA 기반 강도 추출기로 대체한 모델이며 마지막 으로 방법론에서 설명하였던 양방향Mamba와 소개 한 EGCA 기반 강도 추출기를 합친 모델(BiMamba + EGCA)이다. 보코더로는 Parallel WaveGAN [37] 을 사용 하였다. Parallel WaveGAN은 비자기회귀적 구조를 통해 빠른 음성 생성이 가능한 신경망 보코더로, 적 대적 학습을 활용하여 고품질의 음성을 생성한다. 4.2.3 평가 지표 평가를 위해 주관적 평가지표로 NMOS와 SMOS 를 사용하였다. NMOS는 여러 평가자가 합성 음성 을 듣고 1점에서 5점까지 자연스러움을 직접 매긴 뒤 그 평균을 산출한 값으로, 실제 사람이 느끼는 음 성 품질을 반영한다. SMOS는 평가자가 합성 음성이 원본 화자와 얼마나 유사하게 들리는지를 1점에서 5점까지 평가한 평균 점수로, 화자 음색 재현 정도를 직관적으로 판단할 수 있다. 객관적 평가지표로는 UTMOS, [38] WER, CER, MCD, F0-RMSE, EER, SECS를 사용하였다. UTMOS는 사전 학습된 신경망이 합성 음성을 입력받아 사람이 매겼을 법한 MOS(score)를 예측한 값으로, 주관적 평가를 대신하여 빠르고 일 관되게 음질을 추정할 수 있다. WER와 CER은 사전 학습된 Whisper Large-v2 ASR 모델을 통해 합성 음성 을 텍스트로 변환한 뒤 실제 정답 텍스트와 비교하 여 각각 단어 단위 오차율과 문자 단위 오차율을 계 산한 값으로, 합성 발화의 발음 정확도를 수치화한 다. Mel Cepstral Distortion(MCD)는 합성 음성과 원본 음성의 멜 켑스트럴 계수를 추출하여 두 계수 벡터 간 거리를 평균한 값으로, 두 음성의 스펙트럼 특성 차이를 dB 단위로 정량화한다. F0-RMSE는 parsel- mouth [39] 라이브러리를 이용해 각 프레임별 기본 주 파수(F0)를 추출한 뒤 합성 음성과 원본 음성의 F0 차 이를 제곱평균근으로 계산한 값으로, 음조 패턴 재 현 정확도를 나타낸다. Equal Error Rate(EER)은 Re- semblyzer와 같은 화자 임베딩 모델로 합성 음성과 원본 화자의 임베딩을 얻어야 하며, 화자 검증 과정 에서 거짓 수용과 거짓 거부 비율이 같아지는 지점 의 오류율을 의미한다. 이는 합성 음성이 원본 화자와 얼마나 쉽게 혼동되는지 평가하는 지표이다. Speaker Embedding Cosine Similarity(SECS) 또한 Resemblyzer [40] 화자 인코더를 이용하여 합성 음성과 원본 화자 간 임베딩 벡터의 코사인 유사도를 직접 계산한 값으 로, 값이 높을수록 두 음성이 같은 화자로 인식될 가능성이 크다는 점에서 화자 일관성 평가에 활용 된다. 4.3 실험 결과 4.3.1 결과 분석 Table 1에서 볼 수 있는 주관적 평가 지표인 NMOS, SMOS 측면을 살펴보면, inter-intra 모델에 소개한 EGCA를 결합한 모델과 제안된 BiMamba + EGCA 모 델은 주관적인 음질과 화자 유사도 평가에서 기존 모델들을 크게 앞서는 모습을 보인다. 두 모델 모두 주관적 평가 지표 측면에서 전반적으로 가장 높은 수준을 보여주었다. Conformer-FS2 단독 모델이나 Inter-Intra, Emosphere 모델은 주관적 평가 점수가 상 대적으로 낮아, 자연스러움과 화자 일관성을 확보 하는 데 한계를 드러냈다. 객관적 평가 지표인 UTMOS, WER, CER, MCD, F0- RMSE, EER, SECS 측면을 살펴보면, Conformer-FS2 + EGCA와 BiMamba + EGCA는 기존 Conformer-FS2 대비 MCD와 F0-RMSE가 모두 개선되었다. 특히 BiMamba + EGCA는 스펙트럼 왜곡 정도가 더 작은 반면에 Conformer-FS2 + EGCA는 음조 재현에서 조금 더 안함인성, 오경석, 송락빈, 구본화, 고한석 한국음향학회지 제 44 권 제 5 호 (2025) 504 정적인 성능을 보였다. 반면 Inter-Intra와 Emosphere 는 스펙트럼 손실과 음조 오차가 비교적 큰 편으로 볼 수 있다. 이는 복잡한 감정 강도 제어 기법이 음질 저하를 일부 초래했음을 알 수 있다. 언어적 정확도를 나타내는 오차율 평가(WER, CER) 에서는 Conformer-FS2 + EGCA모델이 베이스라인과 비교 모델들보다 합성 음성의 인식 정확도를가장 잘 유지하였다. BiMamba + EGCA 또한 Conformer- FS2 + EGCA 모델에 못지않은 정확도를 보이며, 기존 Conformer-FS2 단독 모델이나 Inter-Intra, Emosphere보 다 오차율이 낮았다. Emosphere 모델은 감정 강도 표 현을 강화하는 과정에서 인식 정확도가 크게 떨어져, 감정 표현과 언어 정확도 간 균형 확보가 어려웠음을 시사한다. 화자 정체성 재현 측면에서도 Conformer- FS2 + EGCA와 BiMamba + EGCA는 기존 모델들에 비 해 화자 임베딩 유사도가 가장 높고, 화자 검증 오류율 은 가장 낮았다. Conformer-FS2 단독 모델은 중간 수준 의 화자 유지 성능을 보였으며, Inter-Intra와 Emosphere 는 화자 일관성이 크게 떨어져 합성 음성이 원본 화 자와 구별되기 쉬웠다. Table 1의 결과들은 모두 중 간(median) 수준 강도의 합성 샘플들을 사용하여 평 가하였다. 4.3.2 최대 강도에서의 자연스러움 분석 앞서 제시된 결과들은 중간 수준의 감정 강도에서 합성 음성이 원본에 가까운 자연스러움을 보였음을 확인하기 위한 것이었다. 그러나 서론과 관련 연구 에서 언급한 바와 같이, 감정 강도가 극단적으로 높 아질 때 음성합성 모델들이 음질과 자연스러움 면 에서 현저히 저하되는 경향이 있다. 이를 검증하기 위해 최대 강도 상황에서의 객관적 평가 지표를 별 도로 측정하였다(Table 2). Inter-Intra와 Emosphere는 최대 감정 강도 상황에서 발화가 과도하게 강조되며, EER과 SECS 저하가 동 시에 나타나어 자연스러움이 크게 떨어진다. 특히 Emosphere는 감정 표현을 극대화하다 보니 음색이 인 위적으로 변형되어 청취 시 감정의 표현력 자체는 높 아질 수 있으나 합성된 발화의 단어 뭉개짐을 WER과 CER을 통하여 확인할 수 있다. 반면에 Conformer-FS2 + EGCA와 BiMamba + EGCA는 동일한 조건에서도 낮은 오류율을 유지하며 화자 특성을 잘 보존하기 때문에, 강도가 극단적으로 높아져도 단어나 억양 이 흐트러지지 않고 비교적 자연스러운 발화를 보 여준다. V. 결 론 본 논문에서는 감정 강도의 제어와 자연스러운 감 정 표현을 위한 새로운 감정 음성 합성 방법을 제안 하였다. 짧은 시퀀스에서 성능이 제한적이라고 알 Table 1. Evaluation results with 95 % confidence intervals. ModelUTMOS (↑)NMOS (↑)SMOS (↑)WER (↓)CER (↓)MCD (↓)F0-RMSE (↓)EER (↓)SECS (↑) GT3.7235 4.32 ± 0.054.65 ± 0.07 ------ Vocoder3.3354 4.12 ± 0.054.25 ± 0.07 7.433.931.846527.200.000.9762 Conformer-FS23.3025 3.21 ± 0.113.45 ± 0.12 9.725,814.489434.891.780.8299 Inter-Intra3.0083 3.04 ± 0.113.08 ± 0.13 8.274.434.981638.355.060.7807 Emosphere3.1139 3.43 ± 0.093.48 ± 0.11 15.048.244.416836.659.240.7955 Conformer-FS2 + EGCA 3.4622 3.41 ± 0.093.52 ± 0.11 7.574.164.343733.701.530.8384 BiMamba + EGCA 3.4624 3.54 ± 0.093.58 ± 0.11 8.574.584.308034.081.780.8423 Table 2. Naturalness comparison at max intensity. ModelWER (↓)CER (↓)EER (↓)SECS (↑) Inter-Intra9.314.919.840.7492 Emosphere19.5010.9410.280.7765 Confermer-FS2 + EGCA 7.864.241.890.8334 BiMamba + EGCA 8.594.581.710.8383양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 505 려진 양방향 맘바 기반 모델에 감정 유도 교차 주의 (EGCA) 메커니즘을 결합하여, 감정 강도가 극단적 으로 높아지는 상황에서도 자연스러운 표현과 화자 일관성을 유지할 수 있음을 보였다. 이를 통해 기존 트랜스포머 기반 모델에서 종종 어색해지던 극단적 감정 강도 제어 문제를 효과적으로 해결하였으며, 음성 품질과 언어 정확도 측면에서도 일관되게 우 수한 결과를 확인했다. 실험 결과를 통해 각 모델의 특성을 분석할 수 있 었다. 트랜스포머 계열 모델들은 전체 시퀀스에 대 한 전역적 주의 메커니즘을 통해 안정적인 특징 반 영 능력을 보여주었다. 반면 단방향 맘바는 미래 정 보를 처리하지 못하는 구조적 한계가 있으나, 본 연 구에서 제안한 양방향 맘바는 순방향과 역방향 처 리를 통해 미래 시퀀스의 정보도 함께 활용할 수 있 어, 짧은 시퀀스 데이터인 ESD의 특성에도 불구하 고 기존 트랜스포머 기반 모델들보다 우수한 결과 를 달성했다. 그러나 EGCA를 활용한 감정 강도 제어에서도 여 전히 개선이 필요한 부분들이 존재한다. 극단적 감 정 강도를 재현하는 데 있어 EmoSphere-TTS와 같은 기존 모델들은 감정의 세기는 충분히 표현하지만 발음 명료도가 크게 저하되는 문제를 보였다. 반면 본 연구의 모델은 발음 명료도는 잘 유지하지만, 극 단적 감정 강도에서 감정 표현의 세기가 상대적으 로 부족한 한계가 있다. 이는 화자 정체성 유지와 감 정 표현력 사이의 균형 문제로, 발음이 명료하면서 도 확실한 감정 표현이 가능하도록 하는 추가적인 개선이 필요하다. 향후 연구에서는 한국어 데이터셋으로의 확장을 통해 언어적 특성에 따른 감정 표현 차이를 검증하 고, 다차원 감정 분석을 통한 정량적 검증 체계를 구 축할 필요가 있다. 또한 ESD 데이터셋이 상대적으 로 발화 길이가 짧다는 특성을 고려하여, 더 긴 발화 와 다양한 감정 카테고리를 포함한 다른 감정 데이 터셋에서의 적용 검증이 필요하다. 이를 통해 발음 명료도를 유지하면서도 극단적 감정 강도의 표현력 을 높일 수 있는 방법론 연구를 진행함으로써 감정 음성 합성 기술의 실용성과 완성도를 더욱 높일 수 있을 것으로 기대된다. References 1.Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, and T.-Y. Liu, “FastSpeech 2: Fast and high-quality end-to-end text to speech,” Proc. ICLR, 1-15 (2021). 2.X. Tan, J. Chen, H. Liu, J. Cong, C. Zhang, Y. Liu, X. Wang, Y. Leng, Y. Yi, L. He, F. Soong, T. Qin, S. Zhao, and T.-Y. Liu, “NaturalSpeech: End-to-end text-to-speech synthesis with human-level quality,” IEEE Trans. Pattern Anal. Mach. Intell. 46, 4234- 4245 (2024). 3.Y. A. Li, C. Han, V. S. Raghavan, G. Mischler, and N. Mesgarani, “StyleTTS 2: Towards human-level text- to-speech through style diffusion and adversarial training with large speech language models,” Adv. Neural Inf. Process. Syst. 36, 19594-19621 (2023). 4.Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor, Y. Xiao, Y. Jia, F. Ren, Y. Zhang, and R. A. Saurous, “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” Proc. ICML (PMLR 80), 5180-5189 (2018). 5.D. Diatlova and V. Shutov, “EmoSpeech: Guiding FastSpeech2 towards emotional text-to-speech,” Proc. 12th ISCA Speech Synthesis Workshop (SSW12), 106-111 (2023). 6.J. H. Turner, Human Emotions: A Sociological Theory (Routledge, London, 2007), pp. 1-256. 7.O. Kwon, C.-R. Kim, and G. Kim, “Factors affecting the intensity of emotional expressions in mobile com- munications,” Online Inf. Rev. 37, 114-131 (2013). 8.T. Li, S. Yang, L. Xue, and L. Xie, “Controllable emotion transfer for end-to-end speech synthesis,” Proc. ISCSLP, 1-5 (2021). 9.S. Wang, J. Guðnason, and D. Borth, “Fine-grained emotional control of text-to-speech: Learning to rank inter- and intra-class emotion intensities,” Proc. ICASSP, 1-5 (2023). 10.D.-H. Cho, H.-S. Oh, S.-B. Kim, S.-H. Lee, and S.-W. Lee, “EmoSphere-TTS: Emotional style and intensity modeling via spherical emotion vector for control- lable emotional text-to-speech,” Proc. Interspeech, 1810-1814 (2024). 11.K. Zhou, B. Sisman, R. Rana, B. W. Schuller, and H. Li, “Speech synthesis with mixed emotions,” IEEE Trans. Affective Comput. 14, 3120-3134 (2023). 12.X. Zhu, S. Yang, G. Yang, and L. Xie, “Controlling emotion strength with relative attribute for end-to- end speech synthesis,” Proc. IEEE ASRU, 192-199 (2019). 13.J. Park, J. Park, Z. Xiong, N. Lee, J. Cho, S. Oymak, K. Lee, and D. Papailiopoulos, “Can mamba learn how to learn? A comparative study on in-context Next >