< Previous고건혁, 이기배, 이종현 한국음향학회지 제 43 권 제 2 호 (2024) 240 그래프 신경망의 리드아웃 방식과 스펙트로그램 의 그래프 변환에서 주요한 매개변수인 , , , 에 따른 성능을 평가한다. Table 4는 리드아웃 방식에 따른 분류 정확도를 제시한다. Table 4에서 리드아웃 방식 중 Sortpool 방식이 최소 2.05 % 높은 정확도를 갖는 것을 보여준다. Fig. 8은 가 0과 0.5인 경우에 서 와 에 따른 분류 정확도를 보여준다. Fig. 8(a) 에서 가 0인 경우에는 와 의 변이에 따라 17.75 %의 높은 정확도 편차를 갖는다. 반면에, 가 0.5인 경우에는 와 의 변이에도 단지 3.50 %의 낮은 정 확도 편차를 갖는다. Fig. 8(b)는 에 따른 분류 정확 도를 보여준다. 여기서, 는 0.5, 와 는 128로 설 정된다. Fig. 8(b)에서 가 3에서 25까지 변이하여도 최소 88.76 %의 분류 정확도를 갖는 것을 확인할 수 있다. 이러한 결과는 의 변화에도 기존 알고리즘 들과 비교하여 우수한 성능을 보여준다. IV. 결 론 본 논문에서는 수동소나의 표적신호를 효율적으 로 학습할 수 있는 그래프 기반 분류 알고리즘을 제 안하였다. 제안하는 알고리즘은 스펙트로그램을 다 수의 영상 패치로 분할하고 인접 거리의 영상 패치 들을 서로 연결하여 방향성 그래프를 생성한다. 이 후, 생성된 그래프들을 이용하여 그래프 합성곱 신 경망을 학습하고 표적 신호를 분류한다. 공개된 수 동소나 데이터를 이용한 실험에서 제안된 그래프 기 반 분류 알고리즘은 기존의 합성곱 신경망과 순환신 경망 기반 분류 알고리즘에 비해 적은 계산량으로 최소 4.45 % 높은 92.50 %의 우수한 분류 정확도를 보 였다. 수동소나 기반 수중 감시체계에서는 신속한 상황 인식이 필수적이다. 제안된 그래프 기반 분류 알고 리즘은 적은 학습 파라미터와 연산량을 이용한 학 습 및 추론으로 수동소나 기반 감시의 효율성을 향 상시킬 수 있다. 향후 다양한 수동소나 감시 환경과 시스템의 요구사항을 충족시키기 위한 그래프 신경 망의 최적화 설계에 관한 연구가 필요하다. 이러한 연구는 그래프 기반 기술의 적용 범위를 넓히고, 수 동소나 기반 감시체계의 성능을 극대화할 것으로 기대된다. (a)(b) (c)(d) Fig. 7. (Color available online) t-SNE plot. (a) GRU, (b) CNN, (c) ResNet-4, (d) GCN. Table 4. Accuracy in % for readout methods evaluated by ShipsEar dataset. Readout methods SumMeanMaxSortpool Accuracy (%)90.3089.8590.4592.50 (a) (b) Fig. 8. (Color available online) Classification accuracies according to (a) parameters , , and and (b) parameter .영상 패치 기반 그래프 신경망을 이용한 수동소나 신호분류 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 241 감사의 글 이 논문은 2024학년도 제주대학교 교원성과지원 사업에 의하여 연구되었음. References 1.H. J. Lee, I. S. Seo, and K. S. Bae, “Separation of passive sonar target signals using frequency domain independent component analysis” (in Korean), J. Acoust. Soc. Kr. 35, 110-117 (2016). 2.R. J. Urick, Principles of Underwater Sound (McGraw- Hill, New York, 1993), pp. 302-310. 3.J. K. Ahn, H. D. Cho, D. Shin, T. Kwon, and G. T. Kim, “LOFAR/DEMON grams compression method for passive sonar” (in Korean), J. Acoust. Soc. Kr. 39, 28-46 (2020). 4.S. E. Lee, S. B. Hwang, and D. Y. Noh, “A study on the algorithm for underwater target automatic classifi- cation using the passive sonar” (in Korean), J. KIMS Technol. 3, 76-84 (2000). 5.H. S. Kim, “Intelligent feature extraction and scoring algorithm for classification of passive sonar target” (in Korean), J. Korean Inst. Intell. Syst. 19, 629-634 (2009). 6.J. d. C. V. Fernandes, N. N. de Moura Junior, and J.M. de Seixas, “Deep learning models for passive sonar signal classification of military data,” Remote Sens. 14, article no. 2648 (2022). 7.C. Satheesh, S. Kamel, A. Mujeeb, and M. H. Supriya, “Passive sonar target classification using deep genera- tive β-VAE,” IEEE Signal Process Lett, 28, 808-812 (2021). 8.V. S. Doan, T. Huynh-The, and D. S. Kim, “Underwater acoustic target classification based on dense con- volutional neural network,” IEEE Geosci. Remote Sens. Lett. 19, 1-5 (2022). 9.S. Kim, S. K. Jung, D. Kang, M. Kim, and S. Chon, “Application of the artificial intelligence for automatic detection of shipping noise in shallow-water” (in Korean). J. Acoust. Soc. Kr. 39, 279-285 (2020). 10.K. B. Lee, G. H. Ko, and C. H. Lee, “Passive sonar signal classification using attention based gated recurrent unit” (in Korean). J. Acoust. Soc. Kr. 42, 345-356 (2023). 11.S. Kamal, C. S. Chandran, and M. H. Supriya, “Passive sonar automated target classifier for shallow waters using end-to-end learnable deep convolutional LSTMs,” Eng. Sci. Technol. an Int. J. 24, 860-871 (2021). 12.F. Liu, T. Shen, Z. Luo, D. Zhao, and S. Guo, “Under- water target recognition using convolutional recurrent neural networks with 3-D Mel-spectrogram and data augmentation,” Appl. Acoust. 178, article no. 107989 (2021). 13.P. H. C. Avelar, A. R. Tavaras, T. L. T. da Silveira, C. R. Jung, and L. C. Lamb, “Superpixel image classifi- cation with graph attention networks,” Proc. 33rd SIBGRAPI, 203-209 (2020). 14.P. Sellars, A. I. Aviles-Rivero, and C. B. Schonlieb, “Superpixel contracted graph-based learning for hyper- spectral image classification,” IEEE Trans Geosci Remote. 58, 4180-4193 (2020). 15.C. Aironi, S. Cornell, E. Principi, and S. Squartini, “Graph-based representation of audio signals for sound event classification,” Proc. 29th EUSIPCO, 566-570 (2021). 16.Y. C. Jung, B. U. Kim, S. K. An, W. J. Seong, and K. H. Lee, “An algorithm for submarine passive sonar simulator” (in Korean), J. Acoust. Soc. Kr. 32, 472- 483 (2013). 17.M. Deaett, “Signature modeling for acoustic trainer synthesis,” IEEE J. Ocean. Eng. 12, 143-147 (1987). 18.S. H. Kang, “A study on the Lloyd’s mirror effect on the underwater radiated noise for the underwater vehicle” (in Korean), J. Acoust. Soc. Kr. 40, 314-319 (2021). 19.L. E. Kinsler, A. R. Frey, A. B. Coppens, and J. V. Sanders, Fundamentals of Acoustics (John Wiley & Sons, New Jersey, 1999), pp. 446-448. 20.M. Zhang, Z. Cui, M. Neumann, and Y. Chen, “An end-to-end deep learning architecture for graph classi- fication,” Proc. 32nd AAAI. Conf. Artificial Int. 4438- 4445 (2018). 21.T. N. Kipf and M. Welling, “Semi-supervised classifi- cation with graph convolutional networks,” arXiv preprint, (2016). 22.N. Shervashidze, P. Schweitzer, E. J. Van Leeuwen, K. Mehlhorn, and K. M. Borgwardt, “Weisfeiler-lehman graph kernels,” J. Mach. Learn. Res. 12, 2539-2561 (2011). 23.Z. Ying, J. You, C. Morris, X. Ren, W. Hamilton, and J. Leskovec, “Hierarchical graph representation learning with differentiable pooling,” 32nd Adv. Neural Inf. Process. Syst. 1-11 (2018). 24.D. S. Domingues, S. T. Guizarro, A. C. Lopez, and A. P. Gimenez, “ShipsEar: An underwater vessel noise database,” Appl. Acoust. 113, 64-69 (2016).고건혁, 이기배, 이종현 한국음향학회지 제 43 권 제 2 호 (2024) 242 저자 약력 ▸고 건 혁 (Guhn Hyeok Ko) 2023년 : 제주대학교 해양시스템공학과 학사 졸업 2023년 ~ 현재 : 제주대학교 지구해양융 합학부 해양시스템공학과 석사과정 ▸이 기 배 (Kibae Lee) 2016년 : 제주대학교 해양시스템공학과 학사 졸업 2017년 : 제주대학교 해양시스템공학과 석사 졸업 2017년 ~ 2021년 : 경원산업㈜ 기업부설 연구소 연구원 2021년 ~ 현재 : 제주대학교 지구해양융 합학부 해양시스템공학과 박사과정 ▸이 종 현 (Chong Hyun Lee) 1985년 : 한양대학교 전자공학과 학사 졸업 1987년 : Michigan Technological University 석사 졸업 2002년 : 한국과학기술원(KAIST) 전기 및 전자공학과 박사 졸업 1990년 ~ 1995년 : 한국전자통신연구원 선임연구원 2000년 ~ 2002년 : ㈜KM Telecom 연구소장 2003년 ~ 2006년 : 서경대학교 전자공학과 전임강사 2017년 ~ 2018년 : Georgia Institute of Technology 방문교수 2006년 ~ 현재 : 제주대학교 해양시스템 공학과 교수한국음향학회지 제43권 제2호 pp. 243~252 (2024) The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) https://doi.org/10.7776/ASK.2024.43.2.243 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Seokjin Lee (sjlee6@knu.ac.kr) School of Electronic and Electrical Engineering, Kyungpook National University, 80, Daehak-ro, Buk-gu, Daegu 41566, Republic of Korea (Tel: 82-53-950-5523, Fax: 82-53-950-5505) Copyrightⓒ2024 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 A study on the application of residual vector quantization for vector quantized-variational autoencoder-based foley sound generation model 이석진 1† (Seokjin Lee 1† ) 1 경북대학교 전자공학부, 전자전기공학부 (Received January 23, 2024; accepted February 15, 2024) 초 록: 최근에 연구되기 시작한 폴리(Foley) 음향 생성 모델 중 벡터 양자화 변분 오토인코더(Vector Quantized- Variational AutoEncoder, VQ-VAE) 구조와 Pixelsnail 등 생성모델을 활용한 생성 기법은 중요한 연구대상 중 하나 이다. 한편, 딥러닝 기반의 음향 신호의 압축/복원 분야에서는 기존의 VQ-VAE 구조에 비해 잔여 벡터 양자화 기술이 더 적합한 것으로 보고되고 있으며, 따라서 본 논문에서는 폴리 음향 생성 분야에서도 잔여 벡터 양자화 기술이 효과적 으로 적용될 수 있을지 연구하고자 한다. 이를 위하여 본 논문에서는 기존의 VQ-VAE 기반의 폴리 음향 생성 모델에 잔여 벡터 양자화 기술을 적용하되, Pixelsnail 등 기존의 다른 모델과 호환이 가능하고 연산 자원의 소모를 늘리지 않는 모델을 고안하여 그 효과를 확인하고자 하였다. 효과를 검증하기 위하여 DCASE2023 Task7의 데이터를 활용하여 실험을 진행하였으며, 그 결과 평균적으로 0.3 가량의 Fréchet audio distance 의 향상을 보이는 것을 확인하였다. 다만 그 성능 향상의 정도가 제한적이었으며, 이는 연산 자원의 소모를 유지하기 위하여 시간-주파수축의 분해능이 저하된 영향으로 판단된다. 핵심용어: 폴리 음향 생성 모델, 벡터 양자화 변분 오토인코더 (Vector Quantized-Variational AutoEncoder, VQ-VAE), 잔여 벡터 양자화, 생성 모델 ABSTRACT: Among the Foley sound generation models that have recently begun to be studied, a sound generation technique using the Vector Quantized-Variational AutoEncoder (VQ-VAE) structure and generation model such as Pixelsnail are one of the important research subjects. On the other hand, in the field of deep learning-based acoustic signal compression, residual vector quantization technology is reported to be more suitable than the conventional VQ-VAE structure. Therefore, in this paper, we aim to study whether residual vector quantization technology can be effectively applied to the Foley sound generation. In order to tackle the problem, this paper applies the residual vector quantization technique to the conventional VQ-VAE-based Foley sound generation model, and in particular, derives a model that is compatible with the existing models such as Pixelsnail and does not increase computational resource consumption. In order to evaluate the model, an experiment was conducted using DCASE2023 Task7 data. The results show that the proposed model enhances about 0.3 of the Fréchet audio distance. Unfortunately, the performance enhancement was limited, which is believed to be due to the decrease in the resolution of time-frequency domains in order to do not increase consumption of the computational resources. Keywords: Foley sound generation model, Vector Quantized-Variational AutoEncoder (VQ-VAE), Residual vector quantization, Generative Model PACS numbers: 43.60.Lq, 43.72.Ja 243이석진 한국음향학회지 제 43 권 제 2 호 (2024) 244 I. 서 론 최근 딥러닝을 기반으로 하는 다양한 모델이 크게 발전함에 따라, 이를 활용하여 영상, 음향 등 미디어 신호를 처리하는 다양한 분야에도 많은 변화가 일어 나고 있다. 특히, 주로 원하는 신호를 복원 및 보강하 거나 원하지 않는 신호를 제거하는 등의 연구에 집 중하던 과거와 달리, 딥러닝 기술을 활용하여 신호 의 의미를 파악하거나 원하는 신호를 생성하는 등 다양한 분야에 걸쳐 놀라운 연구 성과들이 얻어지고 있는 추세이다. 특히, 최근 생성모델에 대한 연구가 활발히 이루 어지면서 영상, [1] 텍스트, [2] 음악, [3] 음향 [4] 등의 신호 를 만들어낼 수 있는 생성 모델들이 개발되고 있다. 그 중에서도 음향 신호를 만들어내기 위한 생성 모 델들은 특정 목적을 위한 모델에 대한 여러 방면의 연구가 지속되고 있다. 예를 들어, HiFi-GAN [5] 과 같 이 멜-스펙트럼 데이터를 음향 신호로 생성해 준다 던가, Diffentiable Digital Signal Processing(DDSP) [6] 등 기본 음향을 바탕으로 음향 특징을 바꾼 신호를 생 성하는 등, 특정 목적에 부합하는 생성 모델을 연구 하는 것을 목표로 하는 연구가 진행되고 있는 추세 이다. 이러한 목적의 일환으로, 최근에는 폴리(Foley) 음 향 생성을 위한 연구가 제안된 바 있다. [7] 폴리 음향 이란 동영상 혹은 영화 제작의 포스트-프로덕션 단 계에서 사용될 수 있는 음향 효과음을 뜻하는 것으 로, 발자국 소리, 개 짖는 소리, 빗소리 등과 같은 음 향 신호를 의미한다. 이러한 음향 신호의 경우 실제 녹음을 통해 얻어질 수도 있지만, 많은 경우 그럴 듯 한 소리를 만들어 내기 위해 다양한 트릭을 사용하 여 제작되며, 이를 전문적으로 제작하는 ‘폴리 아티 스트’에 의해 만들어지기도 한다. 폴리 음향 생성 연구는 이와 같은 폴리 아티스트의 작업에 도움을 주거나, 혹은 일반인들이 영상 제작 에 손쉽게 활용할 수 있도록 접근성을 높이는 것을 목 표로 한다. 최근 다방면의 음향 생성 모델이 연구되 면서 폴리 음향 생성 모델도 함께 연구가 시작되는 단 계이며, GAN 모델 혹은 Diffusion 모델과 같은 다양한 생성 모델을 기반으로 시도되고 있다. [8,9] 본 연구에 서는 이 중에서 벡터 양자화 변분 오토인코더(Vector Quantized Variational Autoencoder, VQ-VAE)를 기반으 로 하는 연구에 주목하였으며, 이는 폴리 음향 생성 을 위한 주요 기법 중 하나로, 저명 경연대회 중 하나 인 Detection and Classification of Acoustic Scenes and Events(DCASE) 2023 Task 7 의 기본 모델로도 제시된 바 있다. [7] VQ-VAE 기반의 폴리 음향 생성 모델의 학습 및 활 용 과정은 Fig. 1과 같다. 1) 폴리 음향 신호들을 벡터 양자화된 잠재 벡터 공간으로 인코딩하는 VQ-VAE Fig. 1. (Color available online) Structure and process of deep learning-based Foley sound generation method.벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 245 를 학습하고, 2) 학습된 VQ-VAE 로 클래스 별 인코 딩 결과물을 추출한 후, 3) 추출된 벡터 양자화 코드 와 클래스 정보를 활용하여 코드 생성 모델을 학습 시키고, 4) 생성된 코드를 VQ-VAE 의 디코더를 활 용하여 음향 신호로 변환하면 된다. 이 과정에서 양 자화된 코드를 생성하는 코드 생성 모델이 필요한 데, 본 연구에서는 DCASE 2023 Task 7 과 동일하게 PixelSnail [10] 모델을 활용하여 벡터 양자화 코드를 생 성하는 모델을 구성하였다. VQ-VAE 모델은 폴리 음향 생성 외에도 음향 신호 처리의 여러 분야에 걸쳐 연구되고 있다. VQ-VAE 는 벡터 양자화를 활용하기 때문에 벡터 코드북의 크기 와 같은 파라미터에 의해 성능이 영향을 받는다. 최 근 연구들에 따르면, 음향 신호의 스펙트럼을 충분 히 표현하기 위해서는 코드북의 크기가 매우 커야 하지만, 크기가 큰 코드북은 효율적으로 학습시키기 가 어렵고 메모리 등의 자원 소모가 커서 실질적으 로 활용하기가 어렵다는 문제가 있다. [11] VQ-VAE를 주로 활용하는 음향 신호 압축 분야에서는 이러한 문제를 해결하기 위하여 잔여 벡터 양자화(Residual Vector Quantization, RVQ)를 활용하고 있으며, 이를 활용한 모델들이 현재 가장 좋은 성능을 보여주고 있다. [11,12] 본 논문에서는, RVQ-VAE 기술이 음향 압축 모델 이 아닌 폴리 음향 생성 모델에서도 효과적으로 적 용될 수 있을지 연구해보고자 한다. 이를 위하여 VQ- VAE 와 PixelSnail 기반의 폴리 음향 생성 모델을 구 축하고, VQ-VAE를 RVQ-VAE 로 변형하여 효과를 살펴보고자 한다. 또한, VQ-VAE를 단순히 RVQ-VAE 로 대치하면 잠재 벡터 공간의 크기가 커져서 Pixel- Snail 모델의 크기가 매우 커지는 문제가 있으므로, 잠재 벡터 공간의 크기를 동일하게 유지하면서 RVQ- VAE를 활용하는 방안을 고안하고, 이 경우에 성능 을 향상시킬 수 있는지 살펴보고자 한다. II. 벡터 양자화 변분 오토인코더 2.1 변분 오토인코더 VQ-VAE를 이해하기 위해서는 먼저 변분 오토인 코더(Variational Autoencoder, VAE)를 살펴볼 필요가 있다. 변분 오토인코더는 Fig. 2(a)와 같이 인코더와 디코더로 이루어진 오토인코더와 유사한 형태를 가 지고 있다. 다만, 일반적으로 데이터를 잠재 벡터 공 간으로 변환하는 특징 추출 역할을 수행하는 오토인 (a) (b) Fig. 2. (Color available online) Structures of (a) variational autoencoder and (b) vector quantized-variational autoencoder.이석진 한국음향학회지 제 43 권 제 2 호 (2024) 246 코더와 달리, 변분 오토인코더는 생성 모델을 목표 로 하여 고안된 모델이다. 랜덤 변수인 관측 가능한 데이터 x 가 있고, 이 데 이터는 관측 불가능한 랜덤 변수 z 로부터 생성된다 고 가정하자. 즉, 이 과정은 다음과 같은 두 단계로 생 성된다고 가정할 수 있다: 1) 사전 확률 분포 z 에 의해 z 생성, 2) 조건부 확률 분포 x∣z 에 의한 x 생성. [13] 최적 생성 파라미터 를 찾기 위해 다음과 같은 수식을 통해 최대 우도 추정법(maximum likeli- hood estimation)을 활용할 수 있다. [13] log x z∣x ∥ z∣x x ,(1) 여기서 z∣x i 은 문제를 풀기위해 도입된 인지 모델로, 알기 어려운 사후 확률 분포 z∣x i 의 추 정값을 의미하며, ∥ 은 와 의 Kullback- Leibler 발산을 의미한다. Kullback-Leibler 발산은 항 상 0보다 큰 값이기 때문에, 우도는 항상 x i 보다 크게 된다. 따라서 이를 variational lowerbound 혹 은 evidence of lowerbound(ELBO)라 하며, 다음과 같 은 값을 가진다. [13] x E z∣x log x ∣z z∣x ∥ z ,(2) 여기서 E 는 랜덤 변수의 기댓값을 의미한다. 우 변의 첫 번째 항은 알고리즘 대상 신호의 잠재 벡터 에 대한 생성 신호의 기댓값으로, 복원 오차와 관련 된 항으로 생각할 수 있으며, 두 번째 항은 두 확률 분 포의 Kullback-Leibler 발산으로 정규화 항으로 해석 할 수 있다. [14] 위에서 언급한 바와 같이 최대 우도 추정법을 활 용하기 위해서는 우도의 하한값인 x i 을 최 대화하면 된다. 다만, 해당 하한값에 대한 미분값을 얻기가 어려운 문제가 있기 때문에 이를 해결하기 위한 트릭이 필요하다. VAE를 고안한 Kingma와 Welling은 위와 같은 문 제를 재매개화를 통한 몬테 카를로 추정을 활용하여 해결하였다. 미분가능한 변환 x 을 활용하여 재매개화된 랜덤 변수 z x 를 생성한 후 다음 과 같이 통계적 기댓값을 계산한다. [13] E z∣x i f z E x i ≃ m x i ,(3) 여기서 m 은 특정 확률 분포 에 따라 샘플링된 잡음값을 나타낸다. Kimgma 와 Welling 은 위의 미분 가능한 변환 x 으로 딥러닝 네트워크를 활용하 는 방안을 제시하고 있다. 먼저 인코더 네트워크를 활용하여 입력신호 x i 에 대한 평균 와 표준편차 를 얻는다. 그리고 이를 활용하여 개의 샘플링 된 잠재 벡터 z i m i i ⊙ m 을 얻는다. 여기 서 ⊙ 은 원소끼리의 곱셈을 의미하며, ∼ I 은 정규분포를 따르는 난수값이다. 마지막으로 디코 더를 활용하여 샘플링된 잠재 벡터에서 생성 신호를 얻는다. 이 경우 Eq. (2)의 우변 두 번째 항인 정규화 값은 다음과 같이 얻어진다. [13] z∣x i ∥p z log .(4) 음향 신호를 대상으로 하는 VAE 에서는 위의 이 론을 다음과 같이 구현한다. Fig. 2(a)와 같이 인코더, 재매개화, 디코더로 구성된 딥러닝 구조를 구성한 다. 인코더를 활용하여 입력 신호 x 를 바탕으로 확 률 분포의 와 를 얻어 내고, 가우시안 분포를 활용 하여 잠재 벡터 z 를 생성, 이를 바탕으로 디코더를 활용하여 생성 신호 x 을 얻는다. 이 때 딥러닝 네트 워크를 학습하기 위한 손실 함수는 Eq. (2)에 기반하 여 다음과 같이 설정한다. [14] x x x x j J log ,(5) 여기서 x x 는 입력 신호와 생성 신호의 거리 함 수로, 입력 신호와 생성 신호가 모두 시간-주파수 영벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 247 역의 데이터인 경우에는 평균 제곱 오차를 활용하기 도 하고, [7] 시간 영역의 파형을 활용하는 경우에는 단시간 푸리에 변환을 수행한 데이터(혹은 그 데이 터의 로그함수값)의 평균 제곱 오차를 활용하기도 한다. [11,14] 2.2 벡터양자화 변분 오토인코더와 잔여 벡터 양자화 기법 벡터양자화 변분 오토인코더, 즉 VQ-VAE 는 VAE 모델의 구조를 활용하되 잠재 벡터 공간을 벡터양자 화 기술을 통해 양자화하는 딥러닝 모델이다. Fig. 2(b)에서 보는 바와 같이 VQ-VAE 구조는 기본적으 로 VAE 구조와 유사하지만, 가우시안 분포에서 샘 플링을 수행하는 VAE의 재매개화 대신 벡터 양자화 구조가 적용되어 있다는 것이 가장 큰 차이점이다. VQ-VAE 에서는 인코더의 출력 z enc x 를 Fig. 2(b) 의 벡터 양자화 블록을 활용하여 양자화된 디코더 입 력 z dec x 를 만든다. 먼저, 인코더 출력 z enc x 과 코 드북 c c c ⋯ c N RIGHT 를 비교하여 다음과 같이 원-핫 인코딩된 코드 인덱스 ∣x 를 만든다. [15] ∣x if argmin z enc i j x c n otherwise .(6) 원-핫 인코딩된 코드 인덱스는 Fig. 2(b) 와 같이 원-핫 인코딩의 역변환을 적용하여 하나의 값으로 나타내 기도 한다(데이터 압축이 목적인 경우는 당연히 이 쪽이 더 유리하다). 이 후 코드북을 이용하여 양자화 된 디코더 입력 z dec x 를 다음과 같이 얻는다. [15] z dec i j x c k if argmin z enc i j x c n .(7) VQ-VAE 의 파라미터를 얻기 위한 손실 함수는 다 음과 같이 구성한다. [15] log x∣z x ∥ sg z x c ∥ ∥ z x sg c ∥ ,(8) 여기서 은 stop gradient 연산자, 즉 기울 기 연산을 수행하지 않는 것을 의미한다. Eq. (8)의 첫 번째 항은 인코더와 디코더 파라미터를 학습하 기 위한 복원 손실을 나타내고, 두 번째 항은 벡터 양 자화 손실, 그리고 세 번째 항은 기여(commitment) 손 실을 나타낸다. [15] 수식에서 볼 수 있듯이 벡터 양자 화 손실은 코드북을 학습하는 데에만 사용되는데, VQ-VAE를 활용하는 일부 응용에서는 벡터 양자화 손실을 사용하지 않고 코드북을 z enc x 의 이동 평균 으로 갱신하기도 한다. [16] Soundstream 과 같은 최근 의 음향 신호처리 모델에서는 이동 평균을 활용하는 경우가 더욱 많이 발견된다. [11] 최근 영상 혹은 음향 신호의 압축에 VQ-VAE를 적 용하는 연구가 진행된 바 있는데, 특히 음향 신호의 압축 및 복원에 VQ-VAE 가 적용되는 경우 충분한 성 능을 내기 위해서는 비현실적인 수준의 코드북 크기 가 필요하다는 문제가 제기된 바 있다. Zeghidour et al. 은 벡터 양자화를 다음과 같이 여러 단계로 수행하는 잔여 벡터 양자화(Residual Vector Quantization, RVQ) 를 적용하는 방안을 제안하였다. [11] 1. y , r z enc x 로 초기화한다. 2. 번째 벡터 코드북을 활용하여 벡터 양자화 결과 y i y i Q i r i 를 얻는다. 여기서 는 양자화 함수를 의미한다. 3. 잔여(residual) 벡터 r i r i Q i r i 를 얻는다. 4. ⋯ 까지 2번 및 3번 작업을 반복한다. 여기 서 는 벡터 코드북의 개수를 의미한다. 5. y N q 를 출력값으로 반환한다. 즉, z dec x y N q 가 된다. 앞서 언급한 바와 같이, 최근의 연구를 통해 음향 신호의 압축 및 복원에 있어서 VQ-VAE에 비해 RVQ- VAE 구조가 훨씬 유리한 것을 확인할 수 있다. 다만, 아직 폴리 음향 생성 모델과 같이 다른 분야의 VQ- VAE 응용 구조에서도 RVQ-VAE 구조가 유리한지 에 대해 연구가 더 필요한 상황이다. 따라서, 서론에 서 언급한 바와 같이, 본 논문에서는 RVQ-VAE 구조 를 활용한 폴리 음향 생성 모델을 구축하고 그 성능 을 살펴보고자 한다.이석진 한국음향학회지 제 43 권 제 2 호 (2024) 248 III. 잔여 벡터 양자화를 활용한 폴리 음향 생성 모델 본 논문에서는 Fig. 1과 같이 VQ-VAE를 활용하여 음향 신호를 잠재 벡터로 변환하고 Pixelsnail 모델을 활용하여 클래스에 맞는 잠재 벡터를 생성하는 모델 을 baseline으로 활용하여, RVQ를 적용하여 성능을 개선할 수 있을지 여부를 확인하고자 한다. 기존의 VQ를 RVQ 로 바꾸면 코드북의 개수만큼 코드북 인 덱스, 즉 q ∣x 의 개수도 늘어나게 되는데, 이 경우 Pixelsnail 의 구조도 크게 바뀌어야 하는 문제가 있 다. 특히, Pixelsnail은 선형레이어를 포함하고 있기 때문에 출력 데이터의 크기가 커지는 경우 파라미터 의 개수도 크게 바뀌는 문제가 있다. 따라서, 본 논문 에서는 기존의 Pixelsnail의 구조를 크게 바꾸지 않도 록 q ∣x 의 형태를 최대한 유지한 채로 RVQ를 적 용할 수 있는 방안을 고안하였다. 본 논문에서 제안하는 구조에서는 baseline과 마 찬가지로 Pixelsnail 모델을 활용하여 클래스 별 코 드북 인덱스 데이터를 생성한다. 본 연구에 사용한 Pixelsnail은 범용적인 2차원 데이터를 생성하는 모델 이고, baseline 모델과 동일한 구조를 활용하였기 때 문에 본 논문에서 상세히 언급하지는 않겠다. 구체 적인 구조는 Reference [7]에서 확인할 수 있다. 본 논 문에서 고안한 RVQ-VAE의 구조는 Fig. 3에서 살펴 볼 수 있다. 3.1 인코더 및 디코더 구조 본 논문에서는 DCASE2023 Task7에서 활용된 오 토인코더 구조를 참고하여 인코더와 디코더 구조를 구축하였다. Fig. 3에서 보는 바와 같이 인코더는 서 로 다른 커널 크기를 가지는 4 개의 인코더 블록이 병 렬로 구성되어 있으며, 각 인코더 블록은 3개의 2차 원 콘볼루션 레이어와 1개의 잔여블록(residual block) 으로 이루어져 있다. 후술할 바와 같이, 제안하는 RVQ-VAE 모델은 양 자화 인덱스 행렬, 즉 q ∣x 의 개수가 늘어나게 되 는데, 이 데이터는 Pixelsnail 이 생성해야 하는 값이 기 때문에 양자화 인덱스 행렬의 전체 크기가 커지 면 Pixelsnail이 거대해지는 문제가 있다. 수 시간 내 로 학습이 끝나는 VQ-VAE 모델과 달리 Pixelsnail 모 델은 학습에 수 일이 걸릴 정도로 파라미터의 개수 가 많기 때문에, 생성할 데이터의 크기가 커지는 것 은 학습 과정에 있어서 심각한 부담이 된다. 따라서, 본 논문에서 고안한 RVQ-VAE 구조의 인 코더 및 디코더에서는 stride의 크기를 늘려서 시간- 주파수 축의 분해능을 크게 만들었으며, 오토인코더 구조 부분에서는 이것이 baseline과의 차이점이다. 3.2 잔여 벡터 양자화 제안된 RVQ-VAE 모델 중 기존 baseline과 가장 큰 차이점을 가지는 부분은 잔여 벡터 양자화 모듈이 다. Fig. 3(a)에서 보는 바와 같이 baseline 모델에서는 하나의 코드북으로 한 번의 벡터 양자화 작업이 수 행되는 반면, 제안하는 RVQ-VAE 모델은 Fig. 3(b)에 서 보는 바와 같이 4개의 코드북으로 4 번의 벡터 양 자화 작업을 수행하게 된다. 그 과정에서 생성된 4개 의 코드북 인덱스, 즉 q ∣x 데이터는 Pixelsnail에 서 생성이 가능하도록 주파수 축 방향으로 2차원 행 렬 형태로 연결한다. 즉, Fig. 3(b)에서 보는 바와 같이 × 크기의 행렬 4개가 모여 × 크기의 행렬이 된다. Eq. (8)에서 보는 바와 같이 VQ-VAE를 학습시키기 위한 손실 함수는 복원 손실, 벡터 양자화 손실, 기여 손실의 3개의 항으로 이루어져 있다. Soundstream 등 음향 신호를 다루는 최근의 VQ-VAE 기반 모델에서 는 벡터 양자화 손실을 활용하여 코드북을 학습하는 대신 이동 평균 함수를 이용하여 코드북을 학습하는 경우가 많다. [11,12] 본 연구에서도 이동 평균 함수를 활용하여 코드북을 학습하였으며, 따라서 벡터 양자 화 손실을 제외한 복원 손실과 기여 손실만을 사용 하여 모델을 학습하였다. 3.3 입력 특징 벡터 및 음향 신호 합성 Baseline 모델과 마찬가지로, 제안하는 RVQ-VAE 모델의 입력으로는 멜-스펙트럼이 사용되었다. 따 라서, Pixelsnail 로 생성된 코드북 인덱스 데이터를 RVQ-VAE 의 디코더로 변환하게 되면 음향 신호의 벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 249 (a) (b) (c) Fig. 3. (Color available online) Structures of (a) baseline model, (b) proposed model, and (c) proposed residual vector quantization.Next >