한국음향학회지 제43권 제1호

< Previous정일주, 정인지, 이승철 한국음향학회지 제 43 권 제 1 호 (2024) 74 양한 크기의 정사면체 어레이에 본 모델을 적용할 수 있도록 하였다. IV. 딥러닝 기반 음향 인텐시티 벡터 보상 본 연구에서는 음향 인텐시티 벡터에서 나타나는 오차를 보상하기 위해 밀집 층 기반의 딥러닝 모델 의 적용을 제안한다. Fig. 2는 3차원의   및 1차원의 kd를 입력받아, 모델 내에서 32차원 및 64차원의 고차원으로 확장하 여 특징을 학습하고, 최종적으로 3차원의    를 출 력하는 딥러닝 모델을 나타낸다. 여기서, 선형계층 및 안정적 학습을 위한 배치정 규화 및 시그모이드 활성화 함수가 적용되었다. 제 안된 모델은 특징을 고차원으로 확장하고 다시 축소 하는 과정을 통해, 음향 인텐시티 보상을 위한 복잡 한 패턴을 고차원 공간에서 효과적으로 학습하며, 이를 통해 정확한 보상을 수행할 수 있도록 한다. 모델 학습을 위한 손실 함수는, 평균절대오차(   ) 와 단위 벡터 손실 함수(   )로 구성된 복합 손실 함 수를 사용하며 다음과 같다.        ,(3) 여기서   는   와   간의 오차를 최소화하는 것을 목표로 하며,   는 예측된    의 크기를 1로 제한하여 단위 벡터가 되도록 학습을 조력한다.            .(4) Fig. 1. (Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 3.0. (a)   , (b)   , (c)   -   . Here, each row represents x, y, and z-directional vector component in that order. Fig. 2. (Color available online) Proposed deep learning- based model for sound intensity vector compensation. The input is biased intensity components and Helmholtz number, and the output is compensated intensity components. Both intensities are unit vector form which represents DoA information of sound source. Here, the numbers in parentheses represent the dimensions of the dataset.음향인텐시티 벡터를 통해 정확한 음원 위치 추정을 위한 딥러닝 적용 The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) 75 두 손실 함수 간의 가중 계수는  = 0.1 및 학습률은 0.001로 설정되었으며, 모델 최적화는 Adam Optimizer 를 사용하여 수행되었다. [12] 하이퍼 파라미터는 학습 과정에서의 검증을 통해 선정되었는데, 여기서 가중 계수  는 단위 벡터 손실함수가 평균 절대오차의 수 렴을 조력할 수 있는 값으로 선정되었으며, 학습률 은 전체 손실값을 효율적으로 감소시키는 값으로 선 정되었다. V. 결과 및 토의 5.1 실험 설정 딥러닝 기반의 인텐시티 벡터 계산 방법에 대한 유효성을 검증하기 위해서 시뮬레이션을 수행하였 으며, 이를 위해 d = 0.14 m 인 정사면체 마이크로폰 어레이를 선정하였고 Fig. 3에 나타내었다. 테스트에 적용할 음원으로는, 방위각  = [-180°, 180°], 고도각  = [-90°, 90°] 범위에서 전파되는 평면파를 고려하였 으며, 헬름홀츠 수 범위 kd = [0.1, 3.0]에 해당하는 주 파수 범위 f = [40 Hz, 1170 Hz]의 대역 제한 백색 잡 음 신호를 갖는 음원에 대한 위치추정 과정을 모사 하였다 . [7] 제안 모델의 학습을 위해, 전체 방위각 범 위 [-180°, 180°], 고도각 범위 [-90°, 90°], 그리고 kd 범 위 [0.1, 3.0] 에 대하여 300,000개의 데이터 셋을 학습 데이터로 사용하였다.    와   사이의 평균제곱오차(Mean Squared Error, MSE) 및 DoA 오차를 통해 제안된 모델의 성능 을 평가하였다. 여기서 음원 도달 방향 오차는 인텐 시티 벡터 사이의 각도 거리에 해당하며 다음과 같 이 계산된다.  cos               ∙   .(5) 5.2 음향 인텐시티 벡터 보상 결과 Fig. 4와 Table 1은 제안된 모델을 통한 음원 추정 테스트 결과에 대한 MSE와 DoA 오차를 나타낸다. 본 결과는 64,800개의 음원 방향에 대한 평균값을 나 타낸다. 실험결과를 통해 전체 헬름홀츠 수 범위 내 에서 MSE 및 DoA 오차가 크게 감소되는 것을 관찰 할 수 있다. 딥러닝이 적용되지 않은 결과에서는 높 은 kd에서 위치 추정 오차가 크게 발생하지만, 딥러 닝 적용 결과에서는 추정 오차가 크게 저감되는 것 을 볼 수 있고, 특히 kd < 2.7 범위에서는 평균 DoA 오 차가 0.5°보다 낮은 것을 확인할 수 있다. 그러나 kd = 1 인 경우, 딥러닝 모델을 통해 계산된 결과의 MSE가 더 크게 나타나는 것을 볼 수 있는데, 이는 제안 모델 이 높은 kd에서 발생하는 큰 오차를 보상하는 방향으 로 학습 됨에 따른 것으로 볼 수 있다. 향후 연구에서 Fig. 3. (Color available online) Configuration of the tetrahedral microphone array to implement sound intensimetry. Here, m 1 , m 2 , m 3 , and m 4 indicate the position of the microphones. Fig. 4. (Color available online) Averaged MSE and DoA error with respect to Helmholtz numbers. Table 1. Quantitative analysis of the test result for kd is 1, 2 and 3. Evaluation metrickd = 1kd = 2kd = 3 MSE Biased2.22E-055.40E-047.52E-03 Compen.1.02E-041.02E-044.19E-03 DoA error (°) Biased0.432.168.05 Compen.0.230.221.14정일주, 정인지, 이승철 한국음향학회지 제 43 권 제 1 호 (2024) 76 는 이러한 오차의 원인을 분석하고, 세부보정을 통 해 학습 모델을 개선할 수 있을 것으로 생각된다. Fig. 5는 kd = 2에서   와    의 인텐시티 벡터 구성 요소의 추정 오차에 대한 결과를 나타낸다. 선 행연구에 따르면 음원 위치 추정 오차는 인텐시티 벡터의 방향 구배에 비례하므로, [8] Fig. 5(b)와 같이 딥러닝 모델을 통한 계산 결과에서 인텐시티 오차의 크기가 줄어든 것이 결국 위치 추정 오차가 줄어들 게 된 직접적인 원인임을 확인할 수 있다. VI. 결 론 본 연구에서는 마이크로폰 어레이를 이용하여 음 향 인텐시티 벡터를 추정하는 방법에 딥러닝을 적용 하여, 높은 헬름홀츠 수에서 나타나는 편향 오차를 저감함으로써 정확한 음원 위치 추정을 수행하였다. 이를 통해, 주로 낮은 헬름홀츠 수 대역에 해당하는 환경에만 적용되었던 한계를 극복하고, 더 높은 주 파수 대역까지 측정 범위를 확장 시킬 수 있다. 정사면체 어레이는 4개의 마이크로폰을 사용하 여 3차원에 대한 측정이 가능하므로 공간 효율성이 높다. 한편, 본 연구에서 제시하는 딥러닝 모델은 헬 름홀츠 수에 대해 적용되며, 따라서 다양한 크기를 갖는 정사면체 어레이를 활용하는데 있어서 범용성 을 추구하고, 특히 kd < 3에서 높은 정확도로 음원의 위치를 추정할 수 있음을 시뮬레이션을 통해 검증하 였다. 따라서, 본 기술은 가상 현실, 스마트 홈 기술, 로봇공학, 그리고 국방 시스템과 같이 복잡한 음향 환경에서의 음원 추적 및 고해상도 음향 이미징 분 야 등 유용하게 적용될 수 있다. 향후 연구에서는 본 딥러닝 기반 추정 방법을 실제 실험 결과에 적용하 고 검증을 수행함으로써, 장점에 비해 다소 제약이 많은 인텐시티 추정 기반의 음원 위치 추정법의 활 용성을 높일 수 있을 것으로 기대한다. 감사의 글 본 연구는 한국표준과학연구원의 연구 과제(KRISS- 2023-GP2023-0002, KRISS-2023-GP2023-0004-05)의 지 원을 받아 수행되었습니다. Fig. 5. (Color available online) The calculated intensity vector by using tetrahedron microphone array at kd = 2.0. (a)   -   , (b)    -   . Here, each row represents x, y, and z-directional vector component in that order.음향인텐시티 벡터를 통해 정확한 음원 위치 추정을 위한 딥러닝 적용 The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) 77 References 1.P. Chiariotti, M. Martarelli, and P. Castellini, “Acoustic beamforming for noise source localization-reviews, methodology and applications,” MSSP, 120, 422-448 (2019). 2.C. Sun and Y. Liu, “Spherical reverse beamforming for sound source localization based on the inverse method,” Sensors, 19, 2618 (2019). 3.J. H. DiBiase, H. F. Silverman, and M. S. Brandstein, Microphone Arrays (Springer Berlin, Heidelberg, 2001), pp. 157-180. 4.M. Risoud, J.-N. Hanson, F. Gauvrit, C. Renard, P.-E. Lemesre, N.-X. Bonne, and C. Vincent, “Sound source localization,” Eur. Ann. Otorhinolaryngol. Head Neck Dis. 135, 259-264 (2018). 5.G. Pavic, “Measurement of sound intensity,” J. Sound Vib. 51, 533-545 (1977). 6.I.-J Jung and J.-G Ih, “Comparison of the sound source localization methods appropriate for a compact microphone array” (in Korean), J. Acoust. Soc. Kr. 31, 47-56 (2020). 7.I.-J Jung and J.-G Ih, “Compensation of inherent bias errors in using the three-dimensional acoustic intensi- metry for sound source localization,” J. Sound Vib. 461, 114918 (2019). 8.I.-J Jung and J.-G Ih,, “Combined microphone array for precise localization of sound source using the acoustic intensimetry,” MSSP. 160, 107820 (2021). 9.A. Kujawski, G. Herold, and E. Sarradj, “A deep learning method for grid-free localization and qua- ntification of sound sources,” J. Acoust. Soc. Am. 146, EL225-EL231 (2019). 10.S. Y. Lee, J. Chang, and S. Lee, “Deep learning-based method for multiple sound source localization with high resolution and accuracy,” MSSP. 161, 107959 (2021). 11.J.-C. Pascal and J.-F. Li, “A systematic method to obtain 3D finite-difference formulations for acoustic intensity and other energy quantities,” J. Sound Vib. 310, 1093-1111 (2008). 12.D. P. Kingma and J. L. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412. 6980 (2014). 저자 약력 ▸정 일 주 (Iljoo Jeong) 2016년 2월 : 아주대학교 기계공학과 학사 2019년 9월 ~ 현재 : POSTECH 기계공학과 석박통합과정 ▸정 인 지 (In‑Jee Jung) 2014년 2월 : 영남대학교 기계공학과(공학사) 2016년 2월 : KAIST 기계공학과(공학석사) 2021년 2월 : KAIST 기계공학과(공학박사) 2016년 1월 ~ 2017년 3월 : LIG nex1 해양연 구소 2017년 4월 ~ 2017년 8월 : KAIST 기계기술 연구소 위촉연구원 2021년 2월 ~ 2021년 7월 : KAIST 기계기술 연구소 연수연구원 2021년 7월 ~ 현재 : 한국표준과학연구원 선임연구원 ▸이 승 철 (Seungchul Lee) 2001년 2월 : 서울대학교 기계항공공학부 학사 2008년 4월 : 미시간대학교 기계공학과 석사 2010년 8월 : 미시간대학교 기계공학과 박사 2013년 7월 ~ 2017년 12월 : UNIST 기계공 학과 조교수 2018년 1월 ~　2021년 2월 : POSTECH 기 계공학과 조교수 2021년 3월 ~ 2023년 8월 : POSTECH 기계 공학과 부교수 2023년 9월 ~ 현재 : KAIST 기계공학과 부 교수한국음향학회지 제43권 제1호 pp. 78～88 (2024) The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) https://doi.org/10.7776/ASK.2024.43.1.078 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Jee Woong Choi (choijw@hanyang.ac.kr) Department of Marine Sciences and Convergence Engineering & Department of Military Information Engineering & Department of Intelligence and Information Engineering, Hanyang University, 55 Hanyangdaehak-ro, Sangnok-gu, Ansan, Gyeonggi-do 15588, Republic of Korea (Tel: 82-31-400-5531, Fax: 82-31-400-5457) Copyrightⓒ2024 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 딥러닝을 이용한 DEMON 그램 주파수선 추출 기법 연구 A study on DEMONgram frequency line extraction method using deep learning 신원식, 1 권혁종, 2 설호석, 3 신원, 4 고현석, 1,5 송택렬, 5 김다솔, 6 최강훈, 6 최지웅 1,7,8† (Wonsik Shin, 1 Hyuckjong Kwon, 2 Hoseok Sul, 3 Won Shin, 4 Hyunsuk Ko, 1,5 Taek-Lyul Song, 5 Da-Sol Kim, 6 Kang-Hoon Choi, 6 and Jee Woong Choi 1,7,8† ) 1 한양대학교 ERICA 지능정보융합공학과, 2 국방기술진흥연구소, 3 한양대학교 ERICA 해양융합과학과, 4 한양대학교 ERICA 전자공학과, 5 한양대학교 ERICA 전자공학부, 6 LIG넥스원(주), 7 한양대학교 ERICA 해양융합공학과, 8 한양대학교 ERICA 국방정보공학과 (Received September 4, 2023; revised November 23, 2023; accepted November 24, 2023) 초 록: 수중 소음 측정이 가능한 수동 소나에 수신된 선박 방사소음은 Detection of Envelope Modulation on Noise(DEMON) 분석으로 얻은 선박 정보를 사용하여 선박 식별과 분류가 가능하다. 하지만 낮은 신호대잡음비 (Signal-to-Noise Ratio, SNR) 환경에서는 DEMON 그램 내 선박 정보가 담겨있는 표적 주파수선을 분석 및 파악하는 데 어려움이 발생한다. 본 논문에서는 낮은 SNR 환경에서 보다 정확한 표적 식별을 위해 딥러닝 기법 중 의미론적 분할 을 사용하여 표적 주파수선들을 추출하는 연구를 수행하였다. SNR과 기본 주파수를 변경시키며 생성한 모의 DEMON 그램 데이터를 사용하여 의미론적 분할 모델인 U-Net, UNet++, DeepLabv3+를 학습 후 평가하였고, 학습 된 모델들을 이용하여 캐나다 조지아 해협에서 측정한 선박 방사소음 데이터셋인 DeepShip으로 제작한 DEMON 그 램 예측 성능을 비교하였다. 모의 DEMON 그램으로 학습된 모델을 평가한 결과 U-Net이 성능이 가장 높았으며, DeepShip으로 만든 DEMON 그램의 표적 주파수선을 어느 정도 추출할 수 있는 것을 확인하였다. 핵심용어: 딥러닝, 의미론적 분할, Detection of Envelope Modulation on Noise (DEMON), DEMON 그램, 주파수선 추출 ABSTRACT: Ship-radiated noise received by passive sonar that can measure underwater noise can be identified and classified ship using Detection of Envelope Modulation on Noise (DEMON) analysis. However, in a low Signal-to-Noise Ratio (SNR) environment, it is difficult to analyze and identify the target frequency line containing ship information in the DEMONgram. In this paper, we conducted a study to extract target frequency lines using semantic segmentation among deep learning techniques for more accurate target identification in a low SNR environment. The semantic segmentation models U-Net, UNet++, and DeepLabv3+ were trained and evaluated using simulated DEMONgram data generated by changing SNR and fundamental frequency, and the DEMONgram prediction performance of DeepShip, a dataset of ship-radiated noise recordings on the strait of Georgia in Canada, was compared using the trained models. As a result of evaluating the trained model with the simulated DEMONgram, it was confirmed that U-Net had the highest performance and that it was possible to extract the target frequency line of the DEMONgram made by DeepShip to some extent. Keywords: Deep learning, Semantic segmentation, Detection of Envelope Modulation on Noise (DEMON), DEMONgram, Frequency line extraction PACS numbers: 43.60.Bf, 43.60.Lq 78딥러닝을 이용한 DEMON 그램 주파수선 추출 기법 연구 The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) 79 I. 서 론 수중환경에서 수동 소나를 이용한다면, 선박이 방 사하는 소음을 수신하여 선박의 특성을 분석하고, 분석한 정보를 가지고 선박 식별이 가능하다. 수동 소나에 수신된 선박 방사소음은 기계류 소음, 유체 소음, 프로펠러 소음으로 분류된다. [1] 이 중 프로펠러 소음은 프로펠러의 회전으로 발생하는 소음으로, 프 로펠러가 고속으로 회전할 때 캐비테이션 현상이 발 생하여 진폭 변조된 광대역 캐비테이션 소음이 선박 에서 방사된다. 방사된 소음은 Detection of Envelope Modulation On Noise(DEMON) 분석을 수행하여 선박 의 프로펠러축 회전수(Propeller Shaft Rate, PSR), 날개 회전수(Blade Rate, BR) 등의 선박 정보를 확인할 수 있 고, 이를 활용하여 선박 식별과 분류를 할 수 있다. [2,3] 이와같이 선박 방사소음을 분석하는 데 주로 사용 되는 DEMON 기법 성능을 개선하기 위한 연구가 지 속적으로 진행되고 있다. Kim et al. [4] 은 선박 방사소 음 중 기계류 소음의 간섭을 최소화하여 DEMON 분 석을 수행하였고, Cheong et al. [5] 은 DEMON 분석 단 계 중 대역통과 필터 단계에서 대역 분할 처리를 수 행하여 DEMON 기법의 성능을 높인 방법을 제시하 였다. 하지만 신호대잡음비(Signal-to-Noise Ratio, SNR) 가 낮은 환경에서는 DEMON 그램 분석에 어려움이 존재하는데, 이는 DEMON 그램에 존재하는 주변 소 음 및 PSR, BR 정보가 담겨있는 표적 주파수선의 낮 은 신호 세기로 인하여 발생한다. 이를 개선하기 위해 최근 딥러닝 기법 중 이미지 를 픽셀 단위로 구분하여 각 픽셀이 어느 객체인지 분할하는 의미론적 분할 기법을 사용하여 이미지 내 표적 분리 및 추출하는 연구가 진행되고 있다. [6,7] Shin et al. [8] 은 의미론적 분할 기법을 사용하여 저탐 지 환경에서 Bearing-Time Records(BTR) 다이어그램 의 표적 방위각 궤적을 추출하는 모델을 제안하였으 며, 제안한 모델은 모델 학습에 필요한 정답 이미지 를 간단하게 만들 수 있는 모의 BTR 다이어그램 데 이터만을 사용하여 모델 학습과 성능 검증을 수행하 였다. Jin et al. [9] 은 딱총새우가 존재하는 환경에서 해 양 포유류 신호를 녹음한 후 스펙트로그램 내 해양 포유류 신호를 표적으로 설정하고, 의미론적 분할 기법이 적용된 모델을 사용하여 표적을 추출하였다. 이 연구에서는 스펙트로그램 내 표적을 수동으로 추 출하여 모델 학습에 필요한 정답 이미지를 제작하였 는데, 이는 데이터셋을 구축하는 데 많은 시간이 소 요되는 문제가 발생한다. 따라서 본 논문에서는 선박 식별 및 분류가 어려 운 낮은 SNR 환경에서 DEMON 그램 내 PSR, BR 정 보가 담겨있는 표적 주파수선을 딥러닝 기법 중 의 미론적 분할을 사용하여 추출하고자 한다. 이를 위 해 모의 DEMON 그램 이미지와 정답 이미지를 사용 하여 모델 학습을 수행하고, 실해역 데이터를 학습 된 모델에 넣어 표적 주파수선의 추출 성능을 확인 하였다. 본 논문의 구성은 다음과 같다. II장에서는 모델 학 습에 사용된 모의 데이터와 논문에서 사용한 딥러닝 기법과 모델 그리고 실해역 데이터에 대해 설명한 다. 그 후 실험환경과 모델 평가 지표에 대해 설명한 다. III장에서는 모의 데이터와 실해역 데이터의 모 델 적용 결과를 분석 및 비교한다. IV장에서는 요약 및 결론을 맺는다. II. 실험방법 2.1 모의 데이터 생성 선박 프로펠러의 회전으로 인해 발생하는 진폭 변 조된 캐비테이션 소음은 선박 정보인 PSR, BR 등의 정보를 확인하기 위해 Fig. 1의 DEMON 분석 과정을 수행한다. DEMON 분석은 먼저 선박 방사소음에 대역통과 필터를 적용하여 기계류 소음의 영향이 적고, 광대 역 캐비테이션 신호가 우세한 주파수 대역의 신호를 추출한다. 그리고 진폭 변조된 신호를 복조하기 위 Fig. 1. DEMON algorithm.신원식, 권혁종, 설호석, 신원, 고현석, 송택렬, 김다솔, 최강훈, 최지웅 한국음향학회지 제 43 권 제 1 호 (2024) 80 해 포락선을 추출하고, DC 성분을 제거한다. 포락선 을 추출한 신호에 존재하는 선박 정보는 낮은 주파 수 대역에 존재하므로 저역 통과 필터 과정을 통해 고주파 신호를 제거하고, 시계열 신호를 주파수 영역 의 신호로 변환하기 위해 FFT를 수행한다. 마지막으 로 배경소음의 영향을 줄이기 위해 소음 규준화 과정 을 수행한 후 DEMON 그램을 생성한다. 딥러닝 모델 학습에 사용할 모의 DEMON 그램을 생성하기 위해 진폭 변조된 광대역 캐비테이션 소음 을 모의한 신호     를 사용하였고, 모의 신호     는 Eq. (1)로 표현된다. [10]              cos                ,(1) 여기서  는 하모닉 차수의 길이,   는 변조 지수,   는 기본 주파수,   는 초기 위상(phase),     는 캐비 테이션 소음 신호,     는 광대역 잡음이다. 모의 식 의 기본 주파수는 PSR을 의미하며, 변조 지수   는 일반적으로 0.1에서 0.5 사이의 값을 가진다. Eq. (1)을 사용하여 모의한 신호는 시간이 100 s, 샘 플링 주파수가 32 kHz이며,   는 0.1 ~ 0.5 사이의 임 의의 값을 지정하고,     는 표준정규분포를 따르는 난수로 설정하여 신호를 생성하였다. 그리고 프로펠 러의 축이 1개인 선박이 등속운동하고 있는 경우를 가정하였다. 가정에 따라 모의된 신호는 실해역 데 이터의 기계류 소음이 우세한 대역과 캐비테이션 소 음이 최대로 확장되는 대역을 고려하여 대역통과 필 터의 대역폭을 1 kHz ~ 10 kHz로 선정하고, [11] 저역 통 과 필터의 차단 주파수를 100 Hz로 사용하였다. 저역 통과 필터를 통과하기 전에 연산량 감소를 위해 샘 플링 주파수를 4 kHz로 다운샘플링을 수행하였으 며, 주파수 분석 시 주파수 해상도가 1 Hz가 되도록 설정하였다. 위의 조건에 따라 DEMON 그램을 제작 하여 모델 학습 데이터로 생성하고, 두 가지의 변동 인자를 고려하여 데이터를 제작하였다. 첫 번째로 해양환경에서 발생하는 소음들을 가산 백색 가우시안 잡음(Addictive White Gaussian Noise, AWGN)으로 가정하여 SNR이 –9 dB, –11 dB, –13 dB인 환경을 모의하였다. DEMON 분석의 소음 규준화 단 계에서 모의 신호 내의 배경 소음의 영향을 줄이기 때문에 SNR이 0 dB로 낮은 경우에도 DEMON 그램 내 표적 주파수선이 선명하게 보인다. 따라서 표적 주파수선이 잘 보이지 않는 DEMON 그램을 모의하 기 위해 SNR을 마이너스로 설정하였다. 위의 조건 에 따라 제작된 모의 신호 중 기본 주파수를 10 Hz로 설정한 모의 신호로 만든 DEMON 그램에서 SNR이 낮아짐에 따라 표적 주파수선이 잘 이어지지 않는 것을 Fig. 2에서 확인할 수 있다. 본 연구에서는 SNR이 –13 dB인 모의 신호로 제작 한 DEMON 그램을 낮은 SNR 환경에서 측정된 이미 지로 설정하였다. 두 번째로 선박 속도에 따른 프로펠러 소음의 기 본 주파수 및 DEMON 그램 내 표적 주파수선들의 간 격 변동성을 모의하기 위해 기본 주파수를 4 Hz ~ 50 Hz 내에서 변경하며 신호를 생성하였다. 본 연구에서는 기본 주파수를 변경하며 SNR 별로 각 500개의 신호를 모의하여 총 1,500개의 모의 신호 (a)(b)(c) Fig. 2. (Color available online) DEMONgram images in (a) SNR : -9 dB, (b) SNR : -11 dB, (c) SNR : -13 dB.딥러닝을 이용한 DEMON 그램 주파수선 추출 기법 연구 The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) 81 를 생성하고, 512 × 512 크기를 갖는 DEMON 그램 이 미지로 변환하였다. 또한 SNR에 따라 생성된 모의 DEMON 그램 이미지의 데이터셋을 Table 1과 같이 분류하였다. DEMON 그램 정답 이미지의 화소들은 표적 주파수선에 해당하면 1, 나머지는 0인 이진값을 가지며 Fig. 3의 예시와 같다. 이렇게 생성된 DEMON 그램 이미지와 정답 이미지를 가지고 딥러닝 모델 학습에 사용하여 표적 주파수선을 추출하였다. 2.2 딥러닝 기법 및 적용 모델 학습 데이터로 사용되는 모의 DEMON 그램 이미 지는 딥러닝을 사용하여 표적 주파수선을 추출할 수 있다. 이때 의미론적 분할 기법이 적용된 모델을 사 용하여 낮은 SNR 환경에서 DEMON 그램 내 표적정 보가 담겨있는 주파수선을 추출할 수 있다. 본 논문에서 사용된 의미론적 분할 모델은 U-Net, [12] UNet++, [13] DeepLabv3+ [14] 로 Fig. 4에서 각 모델의 모 식도를 확인할 수 있다. 합성곱 신경망을 활용한 세 모델 중 U-Net은 ISBI 2015 Challenges 중 Cell Tracking Challenge에서 적은 수의 biomedical 이미지를 학습하 여 가장 우수한 성능을 보여준 모델이다. [12] 이 모델 은 인코더-디코더 구조를 사용하는데 인코더 구간 은 합성곱 층과 맥스 풀링 층을 통해 입력받은 이미 지의 특징들을 추출하여 특징 맵을 생성하고, 추출 된 특징 맵의 크기를 감소시킨다. 디코더 구간은 합 성곱 층과 업샘플링 층을 통해 인코더 구간에서 크 기가 감소된 특징 맵을 원본 이미지 크기로 복원한 다. 인코더-디코더 구조에서 각 층은 skip connection 으로 연결되어 있는데 이는 디코더 층에 동일한 크기 의 인코더 층을 연결하여 특징 맵의 크기가 감소하여 손실된 공간 정보를 복원하는 역할을 수행한다. UNet++는 U-Net의 성능 향상을 위해 제안된 모델 로 U-Net의 인코더-디코더 구조를 변형하여 사용한 다. [13] U-Net에서 사용된 skip connection을 점진적으 로 수행하는 re-designed skip pathways를 사용함으로 써 medical 이미지 분할 시 기존 U-Net보다 우수한 성 능을 보여준다. DeepLabv3+는 의미론적 분할 모델 중 우수한 성 능을 보여주는 모델로 인코더, Atrous Spatial Pyramid Pooling(ASPP), 디코더 구조로 구성되어 있다. [14] 인 코더 부분은 Modified Aligned Xception을 사용하였 다. Xception [15] 은 이미지 분류 모델로 빠른 연산을 보여줬으며, Xception를 변형하여 객체 탐지 성능을 향상시킨 Aligned Xception [16] 을 의미론적 분할이 가 능하도록 수정한 Modified Aligned Xception을 사용하 여 인코더의 입력 이미지의 특징을 추출하는 백본 네트워크로 사용한다. 백본 네트워크를 통해 나온 특징 맵에 커널 간격을 다르게 할당하여 이미지 정 보들을 추출하고 이를 통합하는 ASPP를 사용한다. 그리고 앞선 두 모델과 마찬가지로 디코더 구간에서 skip connection을 사용하여 학습으로 인해 사라진 공 간 정보를 복원한다. 이처럼 낮은 SNR 환경에서 선 박 식별 및 분류 성능을 확보하기 위해 앞에서 살펴 본 의미론적 모델인 U-Net, UNet++, DeepLabv3+에 모 의 DEMON 그램 이미지를 학습하여 DEMON 그램 내 표적 주파수선을 추출하는 모델을 제작하였다. 2.3 실해역 데이터 모의 DEMON 그램 이미지로 학습한 세 가지 모델 이 실제 해상환경에서 발생하는 선박 방사소음의 표 적 주파수선 추출 가능성을 확인 및 비교하기 위해 본 논문에서는 2021년 공개된 데이터셋인 DeepShip 을 사용하였다. [17] DeepShip은 2016년 5월부터 2018 년 10월까지 선박 통행량이 많은 캐나다 조지아 해 협에서 수신기 기준 2 km 범위 내 단일 선박만 존재 Table 1. DEMONgram dataset. SNR   Image size Total number of data –9 dB 4 Hz ~ 50 Hz512x512 500 –11 dB500 –13 dB500 DEMONgram imageLabel image Fig. 3. (Color available online) Example of DEMONgram image and label image.신원식, 권혁종, 설호석, 신원, 고현석, 송택렬, 김다솔, 최강훈, 최지웅 한국음향학회지 제 43 권 제 1 호 (2024) 82 할 때 측정한 선박 방사소음 데이터셋이다. 이때 자 동식별시스템(Automatic Identification System, AIS)을 사용하여 Tug, Cargo, Passenger Ship, Tanker 4 종류의 선박으로 선박 방사소음을 분류하였다. 4 종류의 선박 중 Cargo를 표적 선박으로 선정하 고, Cargo 선박 방사소음 신호를 DEMON 그램 이미 지로 변환 후 등속운동하는 구간으로 추정되는 시간 대를 추출하여 실해역 데이터로 사용하였다. 실해역 데이터인 DeepShip은 DEMON 분석 결과에서 확인 할 수 있는 표적 주파수선이 실제 선박의 PSR, BR 정 보와 정확한지 확인할 수 있는 선박 제원 정보가 존 재하지 않는다. 따라서 실해역 데이터를 육안으로 (a) (b) (c) Fig. 4. (Color available online) Schematic diagram of each model in (a) U-Net, (b) UNet++, (c) DeepLabv3+.딥러닝을 이용한 DEMON 그램 주파수선 추출 기법 연구 The Journal of the Acoustical Society of Korea Vol.43, No.1 (2024) 83 분석하여 표적으로 추정되는 주파수선의 위치를 확 인 후 정답 이미지를 생성하였다. 그 후 모의 데이터 로 학습한 모델에 실해역 데이터를 넣어 모델들의 표적 주파수선 추출 성능을 정량적으로 확인할 수 있는 모델 평가 지표와 육안으로 모델들의 결과를 비교하는 정성평가를 수행하였다. 2.4 실험환경 본 연구에서 사용된 컴퓨터 환경은 다음과 같다. CPU는 AMD EPYC 7742, RAM은 1 TB, GPU는 NVIDIA RTX A6000 48 GB, OS는 Window Server 2022 Standard 환경에서 실험을 진행하였다. 모델 구현은 Python 3.8, Tensorflow 2.10.0 버전에서 진행하였다. 모델 학습 시 각 계층의 활성화 함수는 ReLU, 출력 함수는 Sigmoid, 최적화 알고리즘은 학습률을 0.01로 설정한 Stochastic Gradient Descent(SGD), 손실 함수는 Binary Cross Entropy 를 사용하였으며, batch size는 10, Epoch는 300으로 학 습하였다. 2.5 모델 성능 평가 지표 본 논문에서는 의미론적 분할 기법이 적용된 세 가지 모델을 사용하여 학습을 진행하였다. 학습된 모델을 사용하여 출력된 예측 이미지와 정답 이미지 를 비교하기 위해 Table 2의 혼동 행렬을 사용하여 모 델 성능을 확인하였다. 본 논문에서는 표적 주파수 선에 해당하는 화소를 1(True), 배경에 해당하는 화 소를 0(False)으로 설정하였다. 따라서 혼동 행렬의 TP(True Positive)는 모델이 예측한 이미지 중 특정 화 소가 1이라고 예측하였을 때 정답 화소도 1로 정확 하게 예측한 경우이며, False Negative(FN)는 모델이 특정 화소가 0이라고 예측하였을 때 정답 화소가 1 로 잘못 예측한 경우이며, False Positive(FP)는 모델이 특정 화소가 1이라고 예측하였을 때 정답 화소가 0 으로 잘못 예측한 경우이다. 마지막으로 True Nega- tive(TN)는 모델이 특정 화소가 0이라고 예측하였을 때 정답 화소도 0으로 정확하게 예측한 경우이다. 본 연구에서 사용하는 모의 DEMON 이미지의 경 우 모델 학습에 사용하는 정답 이미지의 대부분이 배경이고, 표적 주파수선은 이미지 중 극히 일부분 이므로 TN 성분이 항상 높게 나왔다. 따라서 TN 성 분을 반영하지 않고, 모델이 표적 주파수선을 잘 예 측하는지 확인하는 지표로 Recall, Precision, F1-score 를 사용하였다. [8] Recall은 실제 표적인 것 중에서 모 델이 표적이라 예측한 비율로 Eq. (2)로 나타난다. 이 는 DEMON 그램 내 실제 표적을 모델이 얼마나 잘 추 출했는지 보여주는 지표로 표적 검출 확률을 보여준 다. 하지만 배경을 표적으로 오인하는 FP 성분이 높 게 나와도 Recall에 영향이 없어 이를 보완하기 위해 Precision과 F1-score를 사용하였다. Precision은 모델 이 표적이라 예측한 것 중에서 실제 표적인 비율로 Eq. (3)으로 나타난다. F1-score는 Recall과 Precision의 성분을 모두 사용하는 지표로 Eq. (4)로 표현되어 진 다. 이 세 가지 지표를 사용하여 모델이 표적을 잘 추 출하는지 평가하였다.       .(2)       .(3)     ×    × .(4) III. 실험결과 3.1 모의 데이터 학습 모델 성능 평가 U-Net, UNet++, DeepLabv3+ 모델은 세 가지 SNR에 따른 모의 DEMON 그램 이미지를 모두 사용하여 모 델 학습을 진행하였다. 학습 데이터는 6 : 2 : 2 비율로 훈련, 검증, 시험 데이터로 분리하였고, 훈련, 검증 데이터를 사용하여 모델 학습을 수행하였다. 학습된 모델은 시험 데이터를 사용하여 모델 평가를 수행하 였고, 각 모델의 학습 결과는 Table 3에 정리하였다. Table 3의 학습 결과 중 Recall을 사용하여 모델 성 Table 2. Confusion matrix. Predict 1 (True)0 (False) Label 1 (True)TPFN 0 (False)FPTNNext >