< Previous함인성, 오경석, 송락빈, 구본화, 고한석 한국음향학회지 제 44 권 제 5 호 (2025) 506 learning tasks,” Proc. ICML (PMLR 235), 39793- 39812 (2024). 14.A. Gu and T. Dao, “Mamba: Linear-time sequence modeling with selective state spaces,” Proc. ICLR, 1-36 (2024). 15.L. Zhu, B. Liao, Q. Zhang, X. Wang, W. Liu, and X. Wang, “Vision mamba: Efficient visual representation learning with bidirectional state space model,” arXiv: 2401.09417 (2024). 16.Y. Liu, Y. Tian, Y. Zhao, H. Yu, L. Xie, Y. Wang, Q. Ye, J. Jiao, and Y. Liu, “VMamba: Visual state space model,” arXiv:2401.10166 (2024). 17.K. Miyazaki, Y. Masuyama, and M. Murata, “Exploring the capability of mamba in speech applications,” arXiv:2406.16808 (2024). 18.X. Jiang, Y. A. Li, A. N. Florea, C. Han, and S. Mesgarani, “Speech slytherin: Examining the perfor- mance and efficiency of mamba for speech sepa- ration, recognition, and synthesis,” arXiv:2407.09732 (2024). 19.X. Zhang, Q. Zhang, H. Liu, T. Xiao, X. Qian, B. Ahmed, E. Ambikairajah, H. Li, and J. Epps, “Mamba in speech: Towards an alternative to self-attention,” arXiv:2405.12609 (2024). 20.M. H. Erol, A. Senocak, J. Feng, and J. S. Chung, “Audio mamba: Bidirectional state space model for audio representation learning,” IEEE Signal Process. Lett. 31, 2975-2979 (2024). 21.D. Y. Fu, T. Dao, K. K. Saab, A. W. Thomas, A. Rudra, and C. Ré, “Hungry hungry hippos: Towards language modeling with state space models,” Proc. ICLR, 1-27 (2023). 22.A. Gu, K. Goel, and C. Ré, “Efficiently modeling long sequences with structured state spaces,” Proc. ICLR, 1-32 (2022). 23.K. Zhou, B. Sisman, R. Liu, and H. Li, “Emotional voice conversion: Theory, databases and ESD,” Speech Commun. 137, 1-18 (2022). 24.G. Kim, D. K. Han, and H. Ko, “SpecMix: A mixed sample data augmentation method for training with time-frequency domain features,” Proc. Interspeech, 546-550 (2021). 25.S. Mun, S. Park, D. K. Han, and H. Ko, “Generative adversarial network based acoustic scene training set augmentation and selection using SVM Hyper-Plane,” Proc. DCASE, 93-97 (2017). 26.H. Zhang, M. Cisse, Y. N. Dauphin, and D. Lopez- Paz, “mixup: Beyond empirical risk minimization,” Proc. ICLR, 1-13 (2018). 27.D. Parikh and K. Grauman, “Relative attributes,” Proc. ICCV, 503-510 (2011). 28.C. Subakan, M. Ravanelli, S. Cornell, M. Bronzi, and J. Zhong, “Attention is all you need in speech separation,” Proc. ICASSP, 21-25 (2021). 29.A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang, “Conformer: Convolution-augmented transformer for speech recognition,” Proc. Interspeech, 5036-5040 (2020). 30.C. Wang, S. Chen, Y. Wu, Z. Zhang, L. Zhou, S. Liu, Z. Chen, Y. Liu, H. Wang, J. Li, L. He, S. Zhao, and F. Wei, “Neural codec language models are zero-shot text-to-speech synthesizers,” arXiv:2301.02111 (2023). 31.A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “WaveNet: A generative model for raw audio,” Proc. 9th SSW, 125 (2016). 32.S. Elfwing, E. Uchibe, and K. Doya, “Sigmoid-weighted linear units for neural network function approxi- mation in reinforcement learning,” Neural Netw. 107, 3-11 (2018). 33.J. L. Ba, J. R. Kiros, and G. E. Hinton, “Layer normalization,” arXiv:1607.06450 (2016). 34.Y. Kim, K. Ko, J. Lee, and H. Ko, “CAS-TJ: Channel attention shuffle and temporal jigsaw for audio classification,” Appl. Acoust. 233, 110590 (2025). 35.S. Lee, D. K. Han, and H. Ko, “Multimodal emotion recognition fusion analysis adapting BERT with heterogeneous feature unification,” IEEE Access, 9, 94557-94572 (2021). 36.T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, S. Watanabe, T. Toda, K. Takeda, Y. Zhang, and X. Tan, “ESPnet-TTS: Unified, reproducible, and inte- gratable open source end-to-end text-to-speech tool- kit,” Proc. ICASSP, 7654-7658 (2020). 37.R. Yamamoto, E. Song, and J.-M. Kim, “Parallel WaveGAN: A fast waveform generation model based on generative adversarial networks with multi- resolution spectrogram,” Proc. ICASSP, 6199-6203 (2020). 38.T. Saeki, D. Xin, W. Nakata, T. Koriyama, S. Takamichi, and H. Saruwatari, “UTMOS: UTokyo- SaruLab system for VoiceMOS challenge 2022,” Proc. Interspeech, 4521-4525 (2022). 39.Resemblyzer, https://github.com/resemble-ai/Resem blyzer, (Last viewed September 17, 2025). 40.Parselmouth, https://github.com/YannickJadoul/Parse lmouth, (Last viewed September 17, 2025).양방향 상태 공간 모델과 감정 유도 교차 주의를 활용한 감정 강도 제어 음성 합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 507 저자 약력 ▸함 인 성 (Insung Ham) 2022년 8월 : 국가평생교육원 학점은행제 경영학사 2022년 8월 ~ 현재 : 고려대학교 전기전자 공학과 석사과정 ▸오 경 석 (Kyungseok Oh) 2022년 : 금오공과대학교 전자공학부 공 학사 2025년 2월 : 고려대학교 전기전자공학과 석사졸업 ▸송 락 빈 (Rakbeen Song) 2023년 2월 : 백석대학교 인공지능제어학 과 학사 2023년 3월 ~ 현재 : 고려대학교 전기전자 석사졸업 ▸구 본 화 (Bonhwa Ku) 2000년 : 광운대학교 제어계측공학과 공 학사 2002년 : 고려대학교 전자공학과 공학석사 2008년 : 고려대학교 영상정보처리학과 공학박사 2008년 ~ 현재 : 고려대학교 영상정보처리 학과 연구교수 ▸고 한 석 (Hanseok Ko) 1982년 : Carnegie-Mellon Univ. 전기공학 공학사 1988년 : Johns Hopkins Univ. 전자공학 공 학석사 1992년 : Catholic Univ. of America 전자공 학 공학박사 1995년 ~ 현재 : 고려대학교 전기전자공학 과 교수I. 서 론 일반적인 음성을 통한 의사 전달은 화자(speaker) 쪽에서 전달하고자 하는 음성을 발성하고 청취자 (listener) 가 이를 듣고 이해하는 방식으로 이루어진 다. 정상적인 음성 발성이 어렵거나 주변 소음 등으 로 원활한 음성 전달이 불가능한 경우 일반적인 음 성 전달 방식과는 다른 방법이 강구되어야 한다. 무 음성 대화 기술(Silent speech interface) [1] 은 음성을 이 용한 의사 전달이 불가능한 상황에서도 음성을 통 얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성 Ultrasonic Doppler-based speech synthesis reflecting the movement of the lower muscles of the face 이기승 1† (Ki-Seung Lee 1 † ) 1 건국대학교 전기전자공학부 (Received August 5, 2025; revised September 16, 2025; accepted September 16, 2025) 초 록: 비접촉, 저렴한 센서 사용, 원거리 취득 가능성 등을 특징으로 하는 초음파 도플러 기반 무 음성 인터페이스 기술은 고립어를 대상으로 한 연구에서 비교적 높은 음성 인식율을 보였다. 기존의 초음파 도플러 기반 무 음성 인터페 이스 기술에서는 입술의 전면 부위에 초음파를 방사하여 입 모양에 따른 초음파 변이를 검출하였는데 발성 음소와 큰 연관성을 갖는 혀의 움직임을 검출하는데는 한계가 있다. 본 논문에서는 이와 같은 단점을 부분적으로 극복하기 위해 혀의 움직임에 관여된 근육 부위에 초음파를 방사하여 초음파 변위를 취득, 이를 음성 합성에 사용하는 방법을 제안하였 다. 기존 전면 방사 –반사 방식과 비교하여 제안된 방법은 객관적 평가 척도에서 우수한 성능을 나타내었으며, Whisper 와 gText-To-Speech(gTTS) 이용하여 합성된 음성의 주관적 품질도 우수하게 나타났다. 핵심용어: 초음파 도플러, 음성 합성, 음성인식, 다중 퍼셉트론 ABSTRACT: The ultrasonic Doppler-based silent speech interface technology, characterized by non-contact sensing, low-cost sensors, and long-range acquisition capabilities, has shown relatively high speech recognition accuracy in previous studies focused on isolated words. In conventional ultrasonic Doppler-based silent speech interfaces, ultrasound was emitted toward the front of the lips to detect variations caused by lip shapes. However, this approach has limitations in detecting tongue movements, which are closely related to articulating phonemes. To partially overcome this limitation, this paper proposed a method that the emitted ultrasound toward the muscle area involved in tongue movement to acquire ultrasonic displacement signals, which were then used for speech synthesis. Compared to the conventional front radiation-reflection method, the proposed approach showed superior performance in objective evaluation metrics, and the synthesized speech using Whisper and gText- To-Speech (gTTS) also demonstrated excellent subjective quality. Keywords: Ultrasonic Doppler, Speech synthesis, Speech recognition, Multi-layer perceptron PACS numbers: 43.72.Ja, 43.72.Kb 한국음향학회지 제44권 제5호 pp. 508~515 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.508 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Ki-Seung Lee (kseung@konkuk.ac.kr) Department of Electronic Engineering, Konkuk University, 120 Neungdong-ro, Gwangjin-gu, Seoul 05029, Republic of Korea (Tel: 82-2-450-3489, Fax: 82-2-450-3437) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 508얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 509 해 의사 전달이 가능하게 하는 기술이다. 무 음성 개 화 기술에서는 화자가 직접 소리를 발성하는 대신 입 모양 만을 만드는 등, 발성의 동작만으로 의사를 전달하게 된다. 이러한 기술은 공공장소에서 주변 사람들에게 불편감을 주지 않으며 대화할 수 있고 대화 내용의 은닉 및 보안이 필요한 상황에서 활용 될 수 있다. 초음파 신호를 이용한 무음성 대화 기술 은 다른 방법과 비교하여 저렴한 센서 사용, 비접촉, 비침습적 취득, 주변 소음에 대한 강인성, 원거리에 서도 취득 가능 등의 장점을 갖는다. [2-4] 예로서 초음 파 도플러 변이를 검출하여 이를 60개 한국어 고립 어에 대한 음성합성 및 음성인식에 적용하는 경우 주변 잡음 유무에 관계없이 주관적 청취 상 72.2 %의 인식율을, 은닉마코프 모델을 이용할 경우 90 % 이 상의 인식율을 얻을 수 있는 것으로 보고되었다. [2] 입과 함께 혀는 발성에 관여된 주요한 기관으로 써, 발성되는 음소와 혀의 형태 간에는 유의한 관련 성을 갖는다. 기존 무음성 인터페이스 방법에서는 입 모양 또는 입술의 움직임에 관여하는 근육의 변 위를 반영한 신호가 사용되고 있다. 이는 혀의 움직 임과 변이에 따라 다르게 발성되는 다양한 음성의 합성에는 한계가 있음을 의미한다. 이와 같은 문제 를 해결하기 위해 턱 아래에서 취득한 초음파 영상 을 사용하는 방법 [5] 과 혀에 부착한 자석의 위치를 이용하는 방법 [6] 이 제안되었다. 그러나 이들 방법 은 초음파 영상 장치에 따른 착용/휴대의 어려움, 혀의 이물감으로 인한 사용자의 불편감 등의 문제 가 있다. Sasaki et al. [7] 은 신체의 움직임이 불가능한 중증 장 애인 의사소통을 위해 혀의 특정 위치를 검출하는 방법을 제안하였다. 혀의 움직임에 관여하는 근육 일부가 턱 아래 부분에 분포한다는 사실에 착안하 여, 턱 아래 피부에서 취득된 근전도 신호를 이용하 여 혀의 위치를 추정하였다. 초음파 도플러 신호는 반사되는 피부면의 변이에 의존적으로 나타나며 따 라서 턱 아래 부분에서 취득한 도플러 신호는 혀의 움직임과 관련이 있을 것으로 가정할 수 있다. 본 논 문에서는 턱 아래에서 취득된 초음파 도플러 신호 로부터 음성신호를 합성 하고, 합성음에 대한 객관 적 평가 및 Automatic Speech Recognition(ASR)과 Text- To-Speech(TTS)를 이용하여 생성된 음성에 대해 주 관적 평가를 수행하고자 한다. II. 혀 움직임 추정 센서 한국어 모음은 혀의 높낮이에 따라 고모음, 중모 음, 저모음으로 나뉘며(예: [i]와 [a]), 혀의 전후 위치 에 따라 전설모음, 중설모음, 후설모음(예: [i]와 [u]) 로 나뉜다. 자음의 종류와 혀의 위치 간 에도 유의한 상관성이 존재하는 것으로 알려져 있으며, 예로서 혀끝 부분의 구강 내 위치에 따라 치조음, 경구개음, 연구개음으로 구분된다. 기존의 무음성 인터페이스 에서는 신호 취득의 편이성을 고려하여 주로 입 모 양을 음성 신호 추정을 위한 단서로 사용한다. 입 모 양은 모음의 경우 원순모음과 비원순모음으로 구분 되며 자음은 양순음 발성과 연관되어 있다. 이는 기 존 무음성 인터페이스에서는 입 모양에 의존적으로 나타나는 자,모음에 대해서는 우수한 성능을 기대 할 수 있지만 혀의 위치에 관여된 음소에 대해서는 제한적인 성능이 얻어질 수 있음을 의미한다. 카메라 또는 초음파 센서가 얼굴 전면에 위치하 는 기존의 방법에서는 입을 벌리는 순간 입 구멍을 통해 노출된 영상으로 부터 혀의 모양을 인식할 수 있다. 그러나 입술이 열리는 방사(radiation) 시간은 전체 발성 기간 중 상대적으로 짧고, 입 구멍을 통해 서는 입 내부의 매우 제한된 영역만이 노출된다. 본 논문에서는 혀의 모양과 위치를 직접적으로 취득하 는 방법의 대안으로 혀의 움직임에 관여하는 근육 으로부터 신호를 취득하고 이로부터 혀의 변위를 간 접적으로 추정하는 방법이 고려되었다. Fig. 1에 제 Fig. 1. Muscles associated with tongue movement.이기승 한국음향학회지 제 44 권 제 5 호 (2025) 510 시한 것처럼 턱 아래에는 혀의 위치를 제어하는 근 육으로서, 악설골근(Mylohyoid muscle), 턱끝목뿔근 (Geniohyoid muscle), 턱끝혀근(Genioglossus muscle) 의 일부가 위치하고 있다. 이중 턱끝목뿔근은 혀의 움직임 뿐이 아니라 입을 벌리는 동작에도 관여하 여 입모양과 연관된 자/모음의 구분에도 유용한 정 보가 제공될 수 있다. 혀의 위치와 변위를 추정하기 위해, 이들 각 근육의 수축과 이완 여부를 검출하는 것이 필요한데, 이는 해당 근육의 근전도 신호를 통 해 얻을 수 있다. 비침습적 표면 근전도 측정 방법은 통증과 감염 등의 문제가 없지만 여러 근육의 수축/ 이완이 혼재되어 나타나는 crosstalk 및 전극의 장시 간 피부 접촉에 따른 알러지 등의 단점이 있다. 도플러 효과(Doppler effects)는 움직이고 있는 물 체에 일정한 주파수를 갖는 정현파 신호를 방사했 을 때, 돌아오는 반사파의 주파수는 방사 주파수와 다르게 관찰되는 현상(Doppler shift)이다. 수축 또는 이완되고 있는 피부 표면에 정현파 주파수를 방사 하고 반사파를 관찰하며 근육의 변이 속도에 따른 Doppler shift가 검출된다. 따라서 반사파의 주파수와 방사 주파수의 차이를 관찰하면 해당 피부 표면 근육 의 수축/이완 여부를 검출할 수 있다. 이러한 도플러 검출 방식은 근전도 방식과 비교하여 비침습적, 비접 촉식 방식으로 장시간 사용하더라도 불편감이 덜 하 다는 장점이 있다. 본 논문에서는 센서 구현의 비용, 사용자 착용감, 하드웨어의 간편성을 고려하여 40 kHz 초음파 신호를 방사신호로 사용하였다. Fig. 2에 제작된 prototype 센서의 사진으로 40 kHz 초음파 신 호를 방사하기 위해 1개의 초음파 스피커(MA40H1S- R, Murata Electronics, Kyoto, Japan)가 사용되었고 턱 아래 각 근육의 변이를 검출하기 위해 4개의 초음파 마이크로폰(SPM0404UD5, Knowles Acoustics, Itasca, USA)이 사용되었다. 마이크로폰은 10 kH ~ 65 kHz 대 역에서 –51 dB ~ –43 dB의 감도를 갖으며 초음파 스피 커는 40 kHz의 중심주파수를 갖는다. 사용된 마이크 로폰과 스피커는 모두 Micro Electro-Mechanical System (MEMS) 기술로 제작된 초소형 센서로서 18.2 × 18.2 mm 2 크기의 prototype sensor에 모두 장착될 수 있었다. Fig. 3은 제작된 센서를 착용한 사진으로서, 아크 릴 재질의 링을 별도 제작하여 중심부에 prototype sensor를 장착하고 사용자의 카라부분에 링을 끼워 넣는 형태로 센서를 고정하였다. 이와 같은 장착 방 법은 머리나 몸의 움직임에 따른 취득 신호의 변동 을 억제할 수 있다. 센서의 방사 및 입사 면은 턱 아래 피부면을 향하도록 장착되었고 각도 조절이 가능하 여 Fig. 1에 제시된 각 근육의 변위를 가장 잘 검출할 수 있도록 조정하였다. 초음파 신호가 장시간 피부 에 노출하게 되면 열손상 및 cavitation에 의한 조직 손상을 가져올 수 있다. 본 연구에서는 방사 초음파 신호의 강도를 0.1 W/cm 2 이내로 조정하여 피부 손상 의 문제가 발생하지 않도록 하였다. III. 데이터 취득 및 전처리 제작된 센서의 유용성을 검증하기 위해 발성 장 애가 없는 1명의 피시험자로부터 음성/초음파 데이 터를 취득하였다. 녹음에는 뉴스 기사 및 일상 대화 에 사용되는 문장을 사용하였으며, 총 녹음 시간은 약 4시간, 2014개 문장이었다. 신호 취득은 사용자 의 피로감을 줄이고 다양한 발성 스타일을 수용하 Fig. 2. Front view of the prototype ultrasonic Doppler module. Fig. 3. Photo of the prototype sensor being worn (left: front view, right: side view).얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 511 기 위해 7일간에 걸쳐 이루어졌다. 제작된 prototype sensor는 음성 대역( ~ 3.5 kHz)에서 낮은 감도를 갖기 때문에 별도의 acoustic microphone(AKG-D880s, AKG Acoustics, Vienna, Austria)을 사용하여 피시험자 전면 10 cm 거리에서 음성 신호를 녹음하였다. 총 5채널 (음성1, 초음파4) 신호는 Digital audio interface(Fireface 800, RME Audio, Haimhausen, Germany)를 이용하여 96 kHz, 24 bit 디지털 신호로 변환하였다. A/D변환된 음성 신호는 16 kHz로 down sampling 하였다. 일반적 으로 발성 동작과 연관된 근육의 움직임은 음성 파 형의 변동과 비교하여 매우 느리게 나타나며, 따라 서 도플러 변이도 좁은 주파수 대역에 국한되어 나 타난다. [2] Fig. 4는 취득된 초음파 신호의 전력 스펙 트럼 밀도(power spectral density)를 방사주파수인 40 kHz을 중심으로 도시한 것이다. 39 kHz ~ 41 kHz 대역 내 에서 대부분의 신호가 분포하는 것을 알 수 있으 며, 이는 발성 시 입 주변에서 취득한 근전도 신호와 유사한 분포를 갖는 것임을 알 수 있다. [2] 본 논문에 서는 이러한 초음파 신호의 특성을 고려하여 음성 신호 추정을 위한 특징 변수를 추출하였다. 먼저 중 심 주파수 40 kHz의 좌,우 두 대역에 해당하는 성분 을 추출하기 위해 39 kHz 로 복조를 수행하고, 차단 주파수 2 kHz를 갖는 저역통과필터를 통과시킨다. × cos ,(1) 여기서 은 취득된 초음파 신호, 39 kHz, , 은 저역통과필터의 충격파응답을 나타낸다. 복소 신호의 위상 는 복조 신호와 취득된 초음파 신호가 상호상관계수(cross-correlation coeffi- cient)가 최대가 되도록 결정된다. 신호 은 ′ 4 kHz로 down sampling된다. ′ .(2) 초음파 도플러를 이용한 기존 음성합성 연구에서 멜-주파수 스펙트럴 계수(mel-frequency spectral co- efficients)가 음성신호 추정 관점에서 가장 적합한 것으로 나타났으며, [2] 본 연구에서도 음성 추정을 위 한 변수로 멜-주파수 스펙트럴 계수를 사용하였다. Eqs. (1), (2)에서와 같이, ′ 은 중심주파수(1 kHz) 를 기준으로 서로 대칭적인 분포를 갖기 때문에 멜- 필터 뱅크도 1 kHz를 중심으로 서로 대칭적인 주파 수 응답을 갖도록 하였다. 단측 대역에 대한 뱅크 수 는 8로서, 1 프레임에 대한 특징 벡터의 차원수는 16 이 되며, 4채널 신호가 사용되므로 전체적으로 64개 가 된다. IV. 음성 신호 추정 무음성 인터페이스와 관련된 이전 연구에서 초음 파 도플러, 입주변 영상신호, 적외선 영상, 심도 영상 을 사용한 모든 경우에서 신경망 기반 비선형 추정 방법이 선형 추정 기법에 비해 월등히 우수한 성능 을 나타내었다. [4] 이는 각 비음성 modality와 음성 신 호 간에는 비선형 대응관계가 존재함을 나타낸다고 볼 수 있다. 본 논문에서도 초음파 특징변수와 음성 신호간 대응 관계는 신경망으로 표현하였다. 신경망은 다층 퍼셉트론(Multi-layer perceptron ) 구 조가 사용되었으며 최하위 노드에는 복조된 초음파 신호의 로그 멜-주파수 필터 뱅크 에너지 값이, 최상 위 노드에서는 해당 음성의 Fourier magnitude spectrum 이 출력된다. 이는 단 구간 푸리어 크기 스펙트럼 (short-time Fourier transform magnitude specturm)이 음 성 합성을 위한 변수로 사용되었음을 의미한다. 단 구간 푸리어 변환 계수는 음성 신호는 48 msec의 길 이를 갖는 hamming window를, 33 msec 만큼 이동시켜 가면서 푸리어 변환을 수행하여 얻었다. 음성의 생성은 조음 기관이 발성하고자 하는 음소 Fig. 4. Power spectral distribution of the acquired ultrasonic signal.이기승 한국음향학회지 제 44 권 제 5 호 (2025) 512 에 해당하는 형태를 먼저 취하고 폐에 저장된 공기 를 후두를 거쳐 입으로 방사하는 과정을 통해 이루 어진다. 이는 조음 기관의 움직임이 음성 발생에 선 행함을 의미하며, 혀의 변위로 발생한 초음파 도플 러 신호도 음성보다 앞서 나타남을 의미한다. 실험 적인 관찰에 의하면, 초음파 도플러 신호와 음성 간 시간 불일치는 발성하고자 하는 음소, 발성자에 따 라 각기 다르게 나타나는 것으로 나타났다. 본 논문 에서는 초음파 특징 변수와 음성 파라메터간 시간 불일치를 고려하여 다중 입력 변수를 사용하였다. n-번째 프레임에 대응되는 신경망의 입력 특징 변수 는 아래와 같이 나타낼 수 있다. ,(3) 여기서 은 -번째 프레임에 대한 멜-주파수 필 터 뱅크 에너지 벡터를 나타낸다. Eq. (3)은 n-번째 프 레임에 대응되는 입력 변수가 단순히 해당 프레임 의 초음파 신호뿐이 아니고 인접된 몇 개 프레임에 해당하는 초음파 신호도 고려함을 의미한다. 인접 샘플 수 은 시간 불일치 기간에 따라 결정되는데, 본 논문에서는 경험적인 방법을 통해 로 설정 하였다. 이 경우, 신경망의 입력 노드 수는 704(=멜 필터뱅크 수 × 다중 특징 변수 수 × 센서 채널 수 ×× )였다. 사용된 신경망은 총 3개의 은닉 계층을 가지며, 해 당 계층의 노드 수는 입력 음성 추정의 성능과 과적 합을 고려하여 노드수의 1.5배(1056)로 설정하였다. 활성 함수(activation function)으로 은닉 계층에서는 Sigmoid 함수가, 출력 계층에서는 linear함수가 사용 되었다. 경험적으로 learning rate는 0.001로, batch size 는 85로 설정하였다. 신경망의 가중치는 역전파 알 고리즘을 통해 얻어지고, 학습에 사용된 손실함수 는 인간의 청각 특성을 반영한 거리 척도를 함께 고 려하였다. 손실함수는 다음과 같다. .(4) 는 batch size를 나타내며 은 번째 프 레임에서 음성의 크기 스펙트럼에 대한 기준값과 추정값 간의 평균자승오차(Mean Squared Error, MSE) 를 나타낸다. 과 ,는 각각 인지 거리(Percep- tual disturbance) [8] 와 이에 대한 가중치를 나타낸다. 실험적인 결과에 따르면, 스펙트럼간 평균자승오차 와 인지 거리에 대해 동일한 가중치( )를 적 용하는 경우 객관적, 주관적 평가 척도에서 가장 우 수한 성능을 보이는 것으로 나타났다. 신경망을 통해 각 추정된 단구간 푸리어변환 열 (sequence)로부터 음성파형을 얻기 위해서는 푸리어 역변환하여 단 구간 신호를 얻고, 이들 신호를 중첩 가산(overlap and addition)하는 것이 필요하다. 본 논 문에서는 크기 스펙트럼만을 추정하기 때문에 이에 대응하는 적절한 위상 스펙트럼을 생성하는 과정이 필요하다. 크기 스펙트럼으로부터 위상 스펙트럼을 추정하는 방법으로 Griffin과 Lim [9] 이 제안한 최소자 승오차법, 방대한 음성으로부터 학습된 신경망을 이용하여 크기 스펙트럼으로부터 음성 파형을 직접 생성하는 WaveNet 기반 방법 [10] 을 고려할 수 있다. 그러나 이와 같은 방법은 크기 스펙트럼이 자연스 러운 음성으로부터 유래된 것이라는 가정에 기반하 고 있으며, 크기 스펙트럼 자체에 왜곡이 존재하는 경우 추정된 위상 스펙트럼 또는 음성 파형에 큰 왜 곡이 발생한다. 본 논문에서는 각 주파수 bin에 대해 [ ~ ] 범위의 난수 값을 개별 위상값으로 사용하 는 random phase spectrum 방법 [4] 을 사용하였다. V. 실험 결과 5.1 객관적 성능 평가 제안된 초음파 취득 방법의 음성 추정 관점에서 유용성을 평가하기 위해 검증 실험을 수행하였다. 실험에는 III장에서 제시한 취득 데이터가 사용되었 으며, 이 중 75 %를 학습데이터로, 25 %를 검증데이 터로 사용하였다. 검증을 위한 객관적인 척도로 기 준 신호와 추정된 신호의 Fourier transform magnitude spectrum 간 RMSE(Root Mean Squared Error), PMSQE (Perceptual Measurement of Speech Quality Evaluation), [8] PESQ(Perceptual Evaluation of Speech Quality) [11] 를 사얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 513 용하였다. Fig. 5에 기존 초음파 취득 방법(얼굴 전면에서 초음 파 방사후 반사파 취득)과 제안된 취득 방법(턱 아래 부분에서 방사 후 반사파 취득) 간 RMSE와 PMSQE값 을 센서 수에 따라 도시 하였다. 두 척도 모두 턱 아래 부분에서 취득한 초음파 도플러 신호가 유의하게 낮은 값을 나타내었다. 두 방법 모두 센서의 수가 증 가함에 따라 RMSE, PMSQE값이 감소하는 것을 알 수 있는데, 이는 여러 방향에서 초음파 신호를 취득 하면 다양한 근육의 움직임을 음성 추정에 반영하 게 되어 결과적으로 합성음의 품질이 증가되는 것 으로 해석할 수 있다. 센서 수와 각 척도간 상관계수 를 구하면, RMSE의 경우 기존 센싱 방법은 –0.9617, 턱 아래 센싱 방법은 –0.9388로서, 기존의 센싱 방법 이 센서의 수에 따라 더 민감하게 RMSE가 감소하는 것을 알 수 있다. PMSQE의 경우도 턱 아래 센싱 방법 이 전면 센싱 방법에 비해 센서 수에 덜 영향을 받는 것을 나타났다(–0.9279 vs. –0.9754). 이는 턱 아래에 서 초음파 도플러를 취득하는 방법은 센서 수에 따 른 성능 편차가 상대적으로 적음을 나타낸다. 센싱 방법에 따른 RMSE, PMSQE의 최대 감소율은 각각 50.80 %, 123.77 %로서 턱 아래에서 취득한 신호 가 인지 청감 거리를 더 유의하게 감소시켰다. 턱 아 래 센싱 방법이 실제 음성과 청감상 더 가까운 소리 를 생성한다고 볼 수 있다. Fig. 6에서 두 센싱 방법의 평균 PESQ를 센서 수에 따라 제시하였다. RMSE, PMSQE와 마찬가지로 턱 아 래면에서 취득된 초음파 도플러 신호가 유의하게 높 은 PESQ를 나타내었다( 0.0001). 센서 수와 PESQ 간 상관계수는 전면 취득 방법은 0.9702, 턱 아래 취득 방법은 0.9640으로서 두 방법 모두 센서 수가 PESQ에 의미있는 영향을 끼치는 것으로 나타났다. 최대 평균 PESQ는 4개의 센서를 이용한 경우로서 2.055가 얻어 졌다. 이 값은 International Telecommunication Union (ITU)에서 기술된 PESQ의 평가 기준에 따르면 인식 이 어려운 bad 등급으로서, 주된 원인은 음성 합성 시 랜덤 위상을 사용한 것에 있다. 결론적으로 턱 아래 부분에서 취득한 초음파 신호 는 기존의 얼굴 전면에서 취득한 신호와 비교하여 객관적 척도면에서 유의하게 우수한 성능을 나타내 었으며, 이는 턱 아래에서 취득된 도플러 변이는 혀 의 움직임이 일부 반영된 것이라 해석할 수 있다. 얼굴 전면에서 취득한 초음파 도플러 변이와 턱 Fig. 5. RMSEs (top) and PMSQEs (bottom) for the two different sensing methods, according to the number of sensors. Fig. 6. Average PESQs for the two different sensing methods, according to the number of sensors. 이기승 한국음향학회지 제 44 권 제 5 호 (2025) 514 아래에서 취득한 도플러 변이를 조합하여 사용한 경우 PESQ, RMES 값은 턱 아래서 취득한 초음파 신 호만 사용한 경우와 비교하여 큰 차이가 없었다. 이 는 턱 아래에서 취득된 초음파 신호에는 입 움직임 에 따른 도플러 변이가 일부 포함되어 있음을 나타 내는 결과라 할 수 있다. 5.2 ASR+TTS를 사용한 합성음의 평가 초음파 도플러를 이용하여 합성된 음성은 기준 음 성의 크기 스펙트럼과 오차 및 인지 거리가 감소되 도록 추정되었음에도 불구하고 기준 음성과의 청감 차이가 비교적 크게 나타난다. 합성음의 대표적인 특성은 harsh하고 불분명하게 들린다는 점인데, 이는 phase spectrum이 단순 랜덤값으로 대치된 것에 주된 원인이 있다. 실험적으로, 본래 음성의 phase spectrum 과 초음파 도플러 정보만으로 추정된 magnitude spec- trum으로 음성을 합성하는 경우 2점대 후반의 평균 PESQ 및 청감상 충분히 내용을 인지할 수 있는 음성 을 얻을 수 있었다. 본 연구에서는 random phase spectrum 사용에 따른 합성음의 품질 저하를 해결하기 위한 방안으로, 음 성 인식기(ASR; Automatic Speech Recognition)와 문자- 음성 합성기(TTS; Text-to-Speech)을 이용하는 방법 을 적용하였다. 이에 대한 과정을 Fig. 7에 제시하였 다. 음성 추정 규칙을 통해 음성을 먼저 생성하고 이 들 음성을 이용하여 ASR의 model을 fine-tuning 한다. 여기서 얻어지는 customized ASR model은 추정 음성 이 갖는 왜곡에 대한 포용성을 갖게 된다. 온라인 음 성 합성에서는 customized ASR model에 추정음성을 입력하여 음성인식을 수행하고, 여기서 얻어지는 문자열(text transcription)을 TTS에 입력하여 최종적 인 합성음을 얻게 된다. 이와 같은 방법은 사용된 ASR이 음성의 크기 스펙트럼 정보를 사용하여 인식 을 수행하기 때문에 phase spectrum 왜곡은 인식성능 에 영향을 끼치지 않으며, 무음성 대화에서는 합성 음의 화자(speaker), 운율(prosody) 정보 보다는 내용 (context)이 주된 관심사라는 사실에 바탕을 두고 있 다. 본 연구에서는 ASR로서 Whisper small model을 사 용하였으며, TTS로서 Google TTS가 사용되었다. 이와 같은 방법의 유용성은 일정 수준 이상의 ASR 정확도가 보장되는지 여부에 따라 결정되는데, 본 연구에서는 학습 데이터에 포함된 음성 신호, 얼 굴 전면에서 취득한 초음파 도플로로부터 추정된 음성신호, 턱 아래에서 취득한 초음파 도플러로 추 정된 음성신호 각각에 대해 ASR모델을 fine-tuning한 후 문자오류율(CER, Charactor Error Rate)을 살펴보 았다. Table 1은 이에 대한 결과로서, 턱 아래에서 취 득한 초음파 신호로 추정된 음성은 얼굴 전면에서 취득한 신호와 비교하여 유의하게 낮은 CER을 보였 다. TTS로 합성된 음성의 주관적 인지도를 평가하기 위해, 합성음을 정상 청력을 지닌 18명의 피시험자 에게 들려주고 이를 받아 적도록 한 후, 단어별 청감 오류율(WER, Word Error Rate)도 살펴보았다. 초음파 추정 음성은 Raw speech와 비교하면 다소 높은 CER을 보이고 있으나, 내용어, 핵심어 부분에 서는 상대적으로 낮은 오류가 발생하여 인식 문자 열을 TTS로 합성하였을 때, 상대적으로 낮은 WER 을 나타내었다. Table 2에 문장 “통조림보다 훨씬 더 효과적인 전투 식량은 없을지 고민했다”에 대해 각 Fig. 7. Block diagram of the ASR-TTS-based sppech synthesis procedure. Table 1. Chater Error Rate (CER) for three different input signals. ASR input signalCER (%)WER (%) Raw speech3.50.0 Estimated speech from front face36.620.7 Estimated speech from bottom face20.18.8얼굴 하단 근육의 움직임을 반영한 초음파 도플러 기반 음성합성 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 515 신호에 대한 인식된 결과를 제시하였다. 얼굴 하단 에서 취득된 초음파 도플러로 추정된 문장은 전면 취득 초음파 도플러와 비교하여 문장의 내용을 충 분히 인지할 수 있음을 나타내고 있다. 본 연구에서는 단독 화자에 대한 실험 결과가 제 시되었는데, 제안 기법이 보다 널리 이용되기 위해 서는 다화자 기법으로 확장되어야 한다. 이를 위해 서는 초음파 도플러 신호의 화자 간 차이 분석, 이를 이용한 화자 적응, 화자 정규화 방법이 적용되어야 할 것으로 판단된다. VI. 결 론 얼굴 전면에서 초음파 도플러를 취득하는 기존의 방식에 비해 턱 아래에서 취득하는 방법은 사용자 의 전방 시야가 확보된다는 장점 뿐이 아니고 발성 음의 음소 결정에 큰 영향을 끼치는 혀의 움직임을 검출하는데도 매우 유리하다. 본 논문에서는 제작 된 prototype 센서를 이용하여 음성과 초음파 신호를 취득하고 검증 실험을 수행하였다. 실험 결과 기존 취득 방식에 비해 유의하게 우수한 성능을 보이는 것을 확인 할 수 있었으며 향후 무 음성 인터페이스 실용화에 도움이 될 것으로 기대된다. 감사의 글 이 논문은 2024학년도 건국대학교의 연구년교원 지원에 의하여 연구되었음. References 1.B. Denby, T. Schultz, K. Honda, T. Hueber, J. M. Gilbert, and J. S. Brumberg, “Silent speech inter- faces,” Speech Comm. 52, 270-287 (2010). 2.K.-S. Lee, “Speech synthesis using ultrasonic Doppler signal” (in Korean), J. Acoust. Soc. Kr. 35, 134-142 (2016). 3.K.-S. Lee, “Automatic speech recognition using acoustic doppler signal” (in Korean), J. Acoust. Soc. Kr. 35, 74-82 (2016). 4.K.-S. Lee, “Ultrasonic Doppler based silent speech interface using perceptual distance,” Appl. Sci. 12, 827 (2022). 5.R.-C. Zheng, Y. Ai, and Z.-H. Ling, “Incorporating ultrasound tongue images for audio-visual speech enhancement,” IEEE Trans. on Audio, Speech, and Language Process. 32, 1430-1444 (2024). 6.M. J. Fagan, S. R. Ell, J. M. Gilbert, E. Sarrazin, and P. M. Chapman, “Development of a (silent) speech recognition system for patients following laryngec- tomy,” Med. Eng. Phys. 30, 419-425 (2008). 7.M. Sasaki, T. Arakawa, A. Nakayama, G. Obinata, and M. Yamaguchi, “Estimation of tongue movement based on suprahyoid muscle activity,” Proc. MHS, 6-9 (2011), 8.J. M. Martin, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, “A deep learning loss function based on the perceptual evaluation of the speech quality,” IEEE Signal Process. Lett. 11, 1680-1684 (2018). 9.D. W. Griffin and J. S. Lim, “Signal estimation from the modified short-time fourier transform,” IEEE Trans. on Acoustic, Speech Signal Process. 32, 236- 243 (1984). 10.WaveNet: A Generative Model for Raw Audio, https:// arxiv.org/abs/1609.03499, (Last viewed August 1, 2025). 11.ITU-T, Rec. P. 862, Perceptual evaluation of speech quality(PESQ): Int. Telecomm. Union-Telecomm. Stand. Sector, 2001. 저자 약력 ▸이 기 승 (Ki‑Seung Lee) 1991년 2월 : 연세대학교 전자공학과 학사 1993년 2월 : 연세대학교 전자공학과 석사 1997년 2월 : 연세대학교 전자공학과 박사 1997년 10월 ~ 2000년 9월 : AT&T Labs- Research, Senior Technical Staff 2000년 11월 ~ 2001년 8월 : 삼성전자(주) 종합기술원 전문 연구원 2001년 9월 ~ 현재 : 건국대학교 전기전자 공학부 교수 Table 2. Examples of recognition results from each signal. Original 통조림보다 훨씬 더 효과적인 전투 식량은 없을지 고민했다. ASR result from raw speech 통조림보다 훨씬 더 효과적인 전투 식량은 없을지 고민했다. ASR result from estimated speech from front face 통지림보다가 코가작인 잔휴 식량은 없는지 그만했다. ASR result from estimated speech from bottom face 통조림보다 훨씬 더 효과적인 전투 식량은 없어있지 고민했다.Next >