< Previous이대호, 이석진 한국음향학회지 제 43 권 제 2 호 (2024) 210 보면 대부분의 오류는 끝점에 해당되는 부분에서 발 생하며, 이를 개선한다면 프레임 성능 개선까지 이 루어질 수 있을 것이라 기대된다. III. 음고 개수 정보 이때까지 다양한 기계학습 기반 자동악보전사 모 델이 만들어져 왔으나, 대부분의 모델의 입력은 원 시 오디오나 원시 오디오를 변환한 형태를 사용했 다. 원시 오디오에는 음의 높이, 음의 길이, 박자, 리 듬, 코드, 악기 등 다양한 음악적인 정보들이 담겨져 있으나, 기계학습 기반 자동악보전사 모델이 입력 신호의 음악적 정보를 효과적으로 활용하지 못한다 고 판단된다. 기계학습 기반 자동악보전사 모델이 입력 오디오 신호에서 해석하지 못한 내용을 추가적 으로 입력에 더해준다면, 모델의 학습에 도움을 줄 것으로 가정하고 실험을 진행하였다. 본 연구에서는 다양한 음악적인 정보 가운데 앞서 서론에서 언급한 근거를 기반으로 각 시간 단위마다 발생하는 음고 개수 정보를 모델의 입력에 추가해 주었다. II장에 서술된 것과 같이, 본 연구에서 사용된 기준 모델은 서로 다른 네 가지 정보를 예측해야하는 네 가지 블록으로 구성되어 있으나, 모든 블록의 입력 은 공통적으로 로그 멜-스펙트로그램을 사용하고 있다. 여기에 각 시간 단위마다 발생하는 음고 개수 정보를 추가해주면, 각 블록은 예측해야하는 정보에 더욱 부합하는 입력을 사용할 수 있게 된다. 여기서 음고 개수 정보는 모델 정답지에서 각 시간 단위마 다 활성화하는 각 정보의 음고 개수의 합으로 ∈ × 형태로 표현된다. Fig. 2 를 통해 예시를 표현했으며, 위쪽은 정답지 정보로 음고가 활성화된 구간을 파란색으로 표시했고, 아래 는 획득한 음고 개수 정보로 각 시간 단위마다 활성 화되는 음고의 개수를 세어 정답지의 시간 단위의 개수만큼 표현된다. 본 연구에서 각 시간 단위마다 활성화되는 음고의 최댓값은 20으로 설정하였다. 이는, 실험에 사용된 데이터는 피아노 연주가 녹음된 오디오 신호이기 때 문에, 두 사람이 피아노를 연주했다고 가정했을 때 최대로 사용될 수 있는 손가락 개수인 20개로 설정 했다. 만약 데이터를 통해 얻은 음고 개수 정보가 20 을 초과하는 경우, 20으로 대체하여 사용하였다. 실 험에 사용한 MAPS 데이터에서 음고 개수 정보가 20 을 초과하는 경우는 0.001 %에 해당되며, 일반적인 음악에서도 동시에 20개 이상의 음을 연주하는 것이 일반적이지 않기 때문에, 위와 같은 방안이 학습에 큰 영향을 끼치지 않을 것으로 판단했다. 집계된 음 고 개수 정보는 기존의 모델 입력인 멜-스펙트로그 램 아래에 연결하여, ∈ × 형 태로 표현된다. IV. 실 험 본 논문에서는 자동악보전사의 성능 향상을 위해 기준 모델을 수정하여 사용했다. 합성곱 신경망 채 널은 48/48/96으로, 장단기 메모리 유닛은 256으로, 완전 연결 유닛은 768로 키워서 사용했다. 학습을 위 해 파이토치(pytorch) [9] 를 사용했고, 4의 배치 크기, 0.005의 학습률, L2 노름의 임계값이 3인 그래디언트 클리핑을 사용했다. GPU 용량의 한계로 기준 모델 을 다룬 Reference [6]에서 언급된 것에 비해 작은 배 치 크기를 사용하였으며, 모델의 최적화를 위해 아 담(Adam) [10] 과 함께 50,000번 반복 학습을 진행하였 고, 0.98의 학습률 감소를 10,000번 반복 학습마다 적 용하였다. 실험을 위해 사용된 데이터셋은 270곡의 피아노 연주가 녹음된 MAPS 데이터셋이다. [11] 학습 데이터 는 150곡의 연주를 사용하였고, 평가와 검증을 위해 각 60곡의 연주를 사용했다. 학습에 사용된 모든 오 디오 신호는 16 kHz로 다운샘플링하였으며, 무작위 로 20 s를 잘라 사용했다. Fig. 2. (Color available online) Example of pitch number information counting.음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 211 총 5종류의 실험을 진행하였으며, 시작점, 프레임, 끝점의 음고 개수 정보를 하나씩 사용한 실험, 끝점 음고 개수 정보를 로그 멜-스펙트로그램 위에 합쳐 입력으로 사용한 실험, 그리고 마지막으로 세 종류 의 음고 개수 정보를 모두 사용한 실험을 진행하였 다. 끝점 음고 개수 정보를 로그 멜-스펙트로그램 위 에 합쳐 입력으로 사용한 실험을 제외한 실험들에서 는 음고 개수 정보를 로그 멜-스펙트로그램 아래에 붙여 입력으로 사용했다. 또한, 음고 개수 정보를 하 나만 사용한 실험은 음고 개수 정보와 동일한 블록 에만 음고 개수 정보를 포함한 입력이 사용되고 다 른 블록에는 기존 입력인 로그-멜스펙트로그램을 사용하였다. 예를 들어, 끝점 음고 개수 정보를 추가 한 실험에서 끝점 블록의 입력으로 로그 멜-스펙트 로그램 아래에 끝점 음고 개수 정보를 추가한 데이 터를 사용하였고, 나머지 블록은 로그 멜-스펙트로 그램이 입력으로 사용되었다. Fig. 3에 끝점 음고 개 수 정보를 추가한 학습 방법을 표현했다. 각 실험을 통해 학습된 자동악보전사 모델을 이용 해 예측한 피아노 연주는 Fig. 4에 표현했다. Fig. 4의 ground truth 는 정답을, baseline 은 기준 모델의 예측 결과를, 그리고 나머지는 제안하는 바와 같이 음고 개수 정보를 추가하여 학습한 모델의 예측 결과들을 보여준다. 기준 모델은 없는 음고를 있다고 판단한 Fig. 4. (Color available online) Transcription results of baseline and propsed models. X-and y-axes denote the frame number and MIDI note number, respectively. Fig. 3. (Color available online) Diagram of proposed network architecture with offset numbers of pitch information.이대호, 이석진 한국음향학회지 제 43 권 제 2 호 (2024) 212 경우도 많으며, 끝점을 정확하게 판단하지 못하는 결과를 보여준다. 시작점 음고 개수 정보를 추가한 경우도 마찬가지로 끝점을 정확하게 판단하지 못하 는 결과를 보여준다. 프레임, 끝점 음고 개수 정보를 추가하여 학습한 각 모델은 모두 기준 모델에 비해 끝점을 정확하게 예측하는 결과를 얻었다. 실험의 평가는 F1 점수를 통해 진행하였으며, 각 기 다른 총 네 가지 기준으로 평가하여 Table 1에 나 타냈다. 여기서 note 기준은 시작점에 대한 평가를, frame 기준은 프레임에 대한 평가를, note with offset 은 시작점과 끝점에 대한 평가를, note with offset & velocity는 시작점, 끝점, 벨로시티에 대한 평가를 진 행한 결과이며, 정답위치에서 ± 50 ms 범위까지 오차 범위를 허용하였다. Baseline은 기준 모델을 통해 얻 은 결과이며, 나머지 항목들은 각각의 음고 개수 정 보를 추가하여 실험한 모델의 결과이다. 결과 중에 서 가장 높은 점수는 진한 글씨와 함께 밑줄을 그어 표현하였고, 두 번째로 높은 점수를 획득한 값은 진 한 글씨로 표현하였다. 기준 모델의 결과를 보면, 노 트 기준 점수는 프레임 기준 점수에 비해 높으며 끝 점과 연계된 노트 기준 점수는 낮은 성능을 기록한 것을 확인할 수 있다. 시작점 음고 개수 정보를 추가 한 경우 노트와 프레임 기준 F1 점수가 모두 향상된 것을 확인할 수 있으나, 끝점 관련 노트 기준 성능은 오히려 하락하였다. 시작점 음고 개수 정보는 끝점 과 연관되지 않은 정보이기 때문에, 시작점과 연관 된 노트와 프레임 기준 점수는 향상시키고 끝점 관 련 점수는 큰 영향을 주지 않음을 확인할 수 있는 결 과이다. 프레임 음고 정보 개수를 추가한 경우, 노트 기준 F1 점수는 기준 모델의 성능에 비해 0.4 % 하락 하였으나, 프레임 기준 F1 점수는 6.3 % 향상하였으 며, 끝점과 연관된 노트 기준 점수도 전반적으로 상 승하였다. 끝점 음고 개수 정보를 추가한 경우도 마 찬가지로 프레임 음고 개수 정보를 추가한 경우과 유사한 결과를 획득하였으며, 끝점 연관 노트 점수 는 기준 모델의 결과에 비해 18.2 % 향상된 점수를 프 레임 기준 F1 점수는 6.3 % 향상된 점수를 획득하였 다. 끝점 음고 개수 정보를 로그 멜-스펙트로그램의 위에 붙여 입력으로 사용한 경우는, 끝점 음고 개수 정보를 로그 멜-스펙트로그램 아래에 붙여 입력으 로 사용한 경우와 유사한 성능을 획득하였으며, 두 방법 사이에 큰 결과 차이가 없음을 확인하였다. 마 지막으로 모든 음고 개수 정보를 추가한 경우, 가장 높은 점수를 획득하였으며, 프레임 기준 F1 점수가 노트 기준 F1 점수에 비해 차이가 컸던 다른 실험과 달리 두 기준의 성능 차를 2.9 %까지 줄인 결과를 얻 었다. 실험을 통해 음고 개수 정보를 로그 멜-스펙트 로그램에 붙여 입력으로 사용하는 변화만으로도 기 존 결과에 비해 전반적으로 향상된 성능을 획득할 수 있음을 F1 점수를 통해 확인 할 수 있었다. 특히 본 연구의 목표인, 끝점과 관련된 음악적인 정보를 추 가하여 향상된 끝점 성능이 프레임 예측에도 도움이 될 수 있음을 확인하였다. V. 결 론 기계학습 기반 자동악보전사 모델은 시작점과 프 레임에 대한 예측은 높은 성능을 보여주나, 끝점에 대한 예측은 낮은 성능을 보여주는 문제가 있었다. 본 논문에서는 이러한 문제를 해결하기 위해 각 시 Table 1. F1-scores of each model. P, R, F1 denotes the precision, recall and F1 score, respectively. FrameNoteNote with offset Note with offset & velocity PRF1PRF1PRF1PRF1 Baseline82.178.579.893.788.090.659.656.257.857.053.755.2 Baseline + onset pitch information82.378.980.393.589.6 91.5 57.4 55.2 56.354.952.853.8 Baseline + frame pitch information93.277.484.394.9 86.2 90.277.8 70.8 74.074.4 67.8 70.8 Baseline + offset pitch information90.682.286.192.9 88.0 90.278.174.175.974.670.872.6 Baseline + offset pitch information on top92.180.785.993.6 87.4 90.278.3 73.3 75.675.3 70.5 72.7 Baseline + all pitches information95.784.389.594.0 90.9 92.480.9 78.4 79.678.3 75.9 77.0음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 213 간 단위마다 음고 개수를 세어 획득한 음고 개수 정 보를 기존의 모델 입력에 연결하여 사용하는 방법을 제안했다. 같은 모델 구조를 사용하지만 간단히 기존 입력에 음악적인 정보를 추가하는 방법만으로도 기존 모델 에 비해 향상된 성능을 획득할 수 있었다. 끝점 음고 개수 정보를 추가한 경우, 끝점을 포함한 노트 기준 F1 점수는 18.1 % 향상되었으며, 이로 인해 프레임 기 준 F1 점수 또한 6.3 % 향상되었다. 모든 음고 개수 정 보를 추가한 경우 모든 실험 중 가장 높은 점수를 획 득하였으며, 끝점을 포함한 노트 기준 F1 점수에서 21.8 %, 프레임 기준 F1 점수에서 9.7 %의 성능 향상 을 보여주었다. 음고 개수 정보를 이용하기 위해서는 모델의 입력 으로 사용되는 오디오 신호의 정답지가 필요하다는 한계점이 있으나, 음고 개수 정보를 이용할 경우 자 동악보전사 모델의 최대 성능 향상을 확인할 수 있 었다. 이후 추가적인 연구 방향으로써, 음고 개수 정 보를 추정하는 모델의 개발을 통해 위의 문제를 해 결하고자 한다. 또한, 음고 개수 정보가 아닌 다른 음 악적인 정보의 추가를 통해 원하는 성능 향상을 할 수 있을 것이라 기대된다. References 1.P. H. Peeling, A. T. Cemgil, and S. J. Godsill, “Ge- nerative spectrogram factorization models for poly- phonic piano transcription,” IEEE Trans. on Audio, Speech, and Lang. Process. 18, 519-527 (2009). 2.L. Su and Y.-H. Yang, “Combining spectral and temporal representations for multipitch estimation of polyphonic music,” IEEE/ACM Trans. on Audio, Speech, and Lang. Process. 23, 1600-1612 (2015). 3.E. Vincent, N. Bertin, and R. Badeau, “Adaptive harmonic spectral decomposition for multiple pitch estimation,” IEEE Trans. on Audio, Speech, and Lang. Process. 18, 528-537 (2009). 4.S. Böck and M. Schedl, “Polyphonic piano note tran- scription with recurrent neural networks,” Proc. IEEE ICASSP, 121-124 (2012). 5.S. Sigtia, E. Benetos, and S. Dixon, “An end-to-end neural network for polyphonic piano music transcrip- tion,” IEEE/ACM Trans. on Audio, Speech, and Lang. Process. 24, 927-939 (2016). 6.C. Hawthorne, E. Elsen, J. Song, A. Roberts, I. Simon, C. Raffel, J. Engel, S. Oore, and D. Eck, “Onsets and frames: Dual-objective piano transcription,” arXiv preprint arXiv:1710.11153 (2017). 7.P. Smaragdis and J. C. Brown, “Non-negative matrix factorization for polyphonic music transcription,” Proc. IEEE WASPAA, No. 03TH8684 (2003). 8.S. Lee, “Estimating the rank of a nonnegative matrix factorization model for automatic music transcription based on stein’s unbiased risk estimator,” Appl. Sci. 10, 2911 (2020). 9.A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Köpf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai, and S. Chintala, “Pytorch: An imperative style, high-performance deep learning library,” Proc. NeurIPS, 1-12 (2019). 10.D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412. 6980 (2014). 11.V. Emiya, N. Bertin, B. David, and R. Badeau, “MAPS- A piano database for multipitch estimation and auto- matic transcription of music,” INRIA, Research Rep., 2010. 저자 약력 ▸이 대 호 (Daeho Lee) 2020년 2월 : 동아대학교 전자공학부 학사 2022년 8월 : 경북대학교 전자전기공학부 석사 2022년 3월 ~ 현재 : 경북대학교 전자전기 공학부 박사과정 ▸이 석 진 (Seokjin Lee) 2006년 8월 : 서울대학교 전기컴퓨터공학부 학사 2008년 8월 : 서울대학교 전기컴퓨터공학부 석사 2012년 2월 : 서울대학교 전기컴퓨터공학부 박사 2012년 3월 : ㈜LG전자 CTO연구소 선임 연구원 2014년 3월 : 경기대학교 전자공학과 조교수 2018년 3월 : 경북대학교 전자공학부 조교수 2020년 10월 ~ 현재 : 경북대학교 전자공 학부 부교수한국음향학회지 제43권 제2호 pp. 214~224 (2024) The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) https://doi.org/10.7776/ASK.2024.43.2.214 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Jungpyo Hong (hansin@changwon.ac.kr) Assistant Professor, Department of Information and Communication Engeenring, Changwon University, Changwon 51140, Republic of Korea (Tel: 82-55-213-3838, Fax: 82-55-213-3839) Copyrightⓒ2024 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 Optimal deployment of sonobuoy for unmanned aerial vehicles using reinforcement learning considering the target movement 배근영, 1 강주환, 2 홍정표 1† (Geunyoung Bae, 1 Juhwan Kang, 2 and Jungpyo Hong 1† ) 1 창원대학교 정보통신공학과, 2 국방기술품질원 (Received January 19, 2024; accepted March 6, 2024) 초 록: 소노부이는 수중에서 음파를 활용하여 정보 수집을 수행하는 장치로, 엔진 소음이나 다양한 음향 특성을 감지하여 수중 표적을 정확하게 탐지하는 대잠전에 효과적인 탐지체계이다. 다중상태 시스템에서의 기존 소노부이 배치 방식은 고정된 패턴이나 휴리스틱 기반의 규칙에 의존하므로, 예측하기 힘든 수중 표적의 기동으로 인해 소노부 이 투하 개수 및 작전 소요 시간 측면에서 효율적인 배치를 보장하지는 못한다. 본 논문에서는 기존 소노부이 배치 방식 의 한계를 극복하기 위해, 수중 표적의 이동을 고려한 시뮬레이션 기반의 실험 환경에서 강화학습을 이용한 무인항공 기의 소노부이 최적 배치를 제안한다. 제안한 방법은 Unity ML-Agents를 통해 Proximal Policy Optimization(PPO) 알고리즘을 이용하여 가상 작전환경과 실시간 상호작용하며 무인항공기를 학습한다. 소노부이 투하 개수 및 음원 및 수신기 간의 비용을 고려한 보상 함수를 설계하여 효과적인 학습이 가능하게 한다. 동일한 실험 환경에서 강화학습을 적용한 배치 방식과 기존 소노부이 배치 방식을 비교한 결과, 탐지 성공률, 투하된 소노부이 개수, 작전 소요 시간 측면 에서 강화학습을 적용한 배치 방식이 가장 우수한 성능을 보였다. 핵심용어: 강화학습, 소노부이, 최적 배치, 무인항공기 ABSTRACT: Sonobuoys are disposable devices that utilize sound waves for information gathering, detecting engine noises, and capturing various acoustic characteristics. They play a crucial role in accurately detecting underwater targets, making them effective detection systems in anti-submarine warfare. Existing sonobuoy deployment methods in multistatic systems often rely on fixed patterns or heuristic-based rules, lacking efficiency in terms of the number of sonobuoys deployed and operational time due to the unpredictable mobility of the underwater targets. Thus, this paper proposes an optimal sonobuoy placement strategy for Unmanned Aerial Vehicles (UAVs) to overcome the limitations of conventional sonobuoy deployment methods. The proposed approach utilizes reinforcement learning in a simulation-based experimental environment that considers the movements of the underwater targets. The Unity ML-Agents framework is employed, and the Proximal Policy Optimization (PPO) algorithm is utilized for UAV learning in a virtual operational environment with real-time interactions. The reward function is designed to consider the number of sonobuoys deployed and the cost associated with sound sources and receivers, enabling effective learning. The proposed reinforcement learning-based deployment strategy compared to the conventional sonobuoy deployment methods in the same experimental environment demonstrates superior performance in terms of detection success rate, deployed sonobuoy count, and operational time. Keywords: Reinforcement Learning, Sonobuoy, Optimal Deployment, Unmanned Aerial Vehicles (UAVs) PACS numbers: 43.30.Vh, 43.30.Wi, 43.30.Zk 214표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 215 I. 서 론 해양 안보를 위해 수중 표적을 효과적으로 탐지하 는 것은 군사 작전 및 해양 안전에 있어서 핵심 과제 중 하나로 꼽힌다. 대잠전(Anti-Submarine Warfare, ASW)은 이러한 문제에 대응하기 위한 필수적인 작 전 중 하나로, 수중 표적의 기동성과 은밀성으로 인 해 어려움이 따른다. 이러한 환경에서 소노부이는 소나를 탑재한 부표 형태의 센서로, 다양한 음향 정 보를 수집하여 수중에서 수중 표적의 존재를 감지하 고 위치를 파악하여 대잠전을 효과적으로 수행할 수 있게 한다. [1] 소노부이는 음원을 방사하는 능동형과 표적의 방사소음을 수신하는 수동형으로 나뉘는데, 다수의 능·수동 소노부이로 운용되는 탐지체계를 다중상태 소노부이 시스템이라고 한다. 이러한 다수 의 센서 간 협력적인 구조로 인해, 신호 대 잡음비가 낮은 상황에서도 대상에 대한 탐지 성능이 크게 향 상된다. [2] 다중상태 소노부이는 음원과 수신기가 각각 어떻 게 배치되느냐에 따라 대잠전의 성공에 직접적인 영 향을 미친다. [3] 기존 소노부이 배치 방식들은 고정된 패턴이나 휴리스틱 기반의 규칙에 의존하는 경우가 많다. [4] 이러한 방식들은 매번 최적의 결과를 도출하 기 어렵다. 특히, 복잡한 환경 조건과 적의 다양한 전 략에 대응하기 어려운 한계가 존재한다. 이러한 한 계를 극복하기 위한 방법으로 다양한 선행 연구가 수행되어 왔다. [5-7] 대표적인 최적 배치 연구로 유전 알고리즘을 적용한 방식이 있다. 유전 알고리즘은 생물의 진화 원리를 모방하여 최적화 문제에 적용되 며, 소노부이 배치 문제에 대한 적응력을 향상시키 는 데 기여할 수 있다. 하지만 이러한 휴리스틱 기반 의 정적 알고리즘은 최적 배치에 대한 근사적인 해 결책을 찾게 되어, 지역 해에 빠질 가능성이 크다. 최근에는 보다 정확하고 동적인 소노부이 배치 방 식을 찾기 위해 강화학습이 주목받고 있다. [8,9] 강화 학습은 에이전트가 환경과 상호작용하며 행동에 대 한 보상을 최대화하는 전략을 학습하는 기법으로 적 응성과 학습 능력에서 강점을 가지고 있으며, 유전 알고리즘보다 지역 해에 빠지는 문제의 개선이 가능 하다. 특히, 예측할 수 없는 대잠전 상황에서 유연하 게 대응할 수 있는 특성이 강화학습을 소노부이 최 적 배치 문제에 적용하는 데에 대한 새로운 가능성 을 열고 있다. 더불어, 유전 알고리즘과 강화학습을 결합한 방법의 연구 또한 수행되었다. [10] 유전 알고 리즘의 탐색 다양성 및 강화학습의 동적인 학습 능 력을 조합함으로써 최적 배치 문제에 대한 효과적인 접근 가능성을 제시하였다. 하지만, 선행된 연구에 서는 수중 표적의 기동이 고려되지 않은 실험 환경 에서, 탐지 확률 및 탐지 영역의 최대화를 위한 소노 부이 최적 배치 패턴을 생성한다. 이는 실제 대잠전 상황에 적용되기에 다소 어려움이 존재하며, 항상 효과적인 결과를 보장하지는 못한다. 따라서, 본 논문에서는 수중 표적의 기동을 고려 한 시뮬레이션 기반의 실험 환경에서 강화학습을 이 용한 무인항공기의 소노부이 최적 배치를 제안한다. 학습된 모델에 따라 무인항공기(Unmanned Aerial Vehicle, UAVs)가 가상의 작전 해역에서 소노부이를 투하하며 예측 불가능하게 기동하는 수중 표적을 탐 지한다. 또한, 대잠전에서는 수중 표적을 신속하고 정확하게 탐지하고 추적할 수 있는 능력을 갖추어야 한다. 그러므로 고가의 소노부이를 효과적으로 활용 하기 위해서는 한정된 수량으로 최대한의 성능을 발 휘하는 것이 중요하다. 이는 자원의 효율적인 사용 을 의미하며, 이는 예산 및 운용 비용을 절감할 수 있 다. 이에 따라 본 논문에서는 소노부이 최적 배치의 요건을 최소 소노부이 사용, 최단 시간 탐지로 설정 한다. 최적 배치를 달성하기 위한 보상 함수를 제안 하였으며, 시뮬레이션을 통해 제안된 방법과 기존 방법의 탐지 성능 및 효율성을 비교함으로써 제안된 방법의 유효성을 입증한다. II. 관련 연구 2.1 격자구조 소노부이 배치 방식 기존 소노부이 배치 방식에서 주로 사용되는 고정 된 패턴에는 Fig. 1과 같이 특정한 해역에 격자 형태 로 음원과 수신기를 일정한 간격으로 배치하는 방식 이 있다. 이는 전체 해역에 대한 균일한 감시를 가능 케 하여 탐지 누락을 최소화한다는 장점이 있다. 격 자 패턴으로 배치하는 것에도 삼각형, 사각형, 육각배근영, 강주환, 홍정표 한국음향학회지 제 43 권 제 2 호 (2024) 216 형 등 다양한 방법이 있으며, 이는 소노부이 종류와 배치 간격에 따라 성능에 영향을 미친다. 관련된 연 구로, Reference [5]에서는 다양한 배치 패턴에 대해 서 음원과 수신기 비용의 비에 따라 실험한다. 다중 상태 시스템에서 음원과 수신기의 비용이 동일한 경 우, 정사각형 방식이 투하된 소노부이 개수 대비 가 장 뛰어난 탐지 범위를 가진다. 2.2 유전 알고리즘을 이용한 소노부이 최적 배치 유전 알고리즘을 이용한 소노부이 최적 배치에서 는 개체 평가를 위해 사용되는 목적함수의 설정이 곧 최적 배치의 요건이 된다. 일반적으로 목적함수 로 가장 많이 사용되는 것이 탐지 확률 혹은 탐지 범 위이다. Reference [6]에서는 고정익 항공기의 기동 특성을 고려하여 정해진 규칙에 따라 음원과 수신기 의 투하 지점을 지정하여 초기 개체를 생성하고, Cassini Oval의 개념을 적용하여 Exponential 방식에 따라 탐지 확률을 산출한다. 탐지 확률 필드를 바탕 으로 탐지 영역을 구하고, 이를 통해 개체를 평가하 고 선택, 교차, 변이를 여러 세대에 거쳐 반복하여 가 장 우수한 개체를 생성한다. 실험에 사용되는 소노 부이의 수를 설정 후, 해당 개수로 최대의 탐지 영역 을 가지는 배치 패턴을 얻을 수 있다. 2.3 강화학습을 이용한 소노부이 최적 배치 Reference [7]은 강화학습 알고리즘인 Deep Deter- ministic Policy Gradient(DDPG) 알고리즘을 이용한 소 노부이 최적 배치를 제안하고, 최적 배치 요건을 최 단 시간, 최대 탐지 영역으로 설정하였다. 본 논문과 동일하게 Unity ML-Agents를 활용하여 가상의 작전 해역에서 실험을 진행한다. 음향 탐지 성능 분포도 를 활용하여 사전에 지정된 소노부이 투하 가능 지 점을 설정한 후, 최적 배치 요건에 맞게 설계된 보상 함수로 에피소드 진행 방식에 따라 학습한다. 단상태 시스템을 적용하여, 소노부이 간 탐지 영역이 겹치 지 않도록 하였다. 사전에 설정된 투하 가능 지점들 중 가장 가깝되, 탐지 영역이 겹치지 않는 투하 지점 을 선택한다. 매 스텝마다 선택된 투하 지점과의 거 리를 계산하여 이전 거리와 현재 거리의 차로 보상 을 부여한다. 목표 지점에 도달할 시에는 일정한 큰 보상을 부여하도록 설계하여 최적 배치를 달성한다. 이외에도 유전 알고리즘과 강화학습을 결합한 방 법으로 연구가 수행되었다. [10] Reference [10]에서는 최단 시간 및 최소 불확실성을 목표로 한 소노부이 최 적 배치 연구를 수행한다. 두 가지 목표를 달성하기 위해 파레토 최적(Pareto Optimal)의 개념을 적용하여 유전 알고리즘을 통해 다양한 배치 패턴을 생성하 고, 초기 Pareto non-dominated 솔루션을 찾아 아카이 브를 구축한다. 구축된 아카이브에서 강화학습 단계 에서 전통적인 강화학습 알고리즘인 Q-Learning을 통해 업데이트된 정보를 사용하여 개선된 솔루션을 찾는다. 이 방법 또한 유전 알고리즘을 이용한 소노 부이 최적 배치 연구와 같이 소노부이를 개수 별로 실험하여, 격자 패턴과의 비교를 통해 성능이 향상 됨을 확인하였다. III. 제안한 방법 선행된 연구의 공통점은 수중 표적의 기동을 고려 하지 않는다는 것이다. 해당 연구의 최적 배치 요건 에 대해서는 충분한 의의를 가지지만, 예측 불가능 한 실제 대잠전 상황에서는 적합하지 않을 수 있다. 작전 해역에 수중 표적이 존재한다고 가정했을 때, 수중 표적의 속력이 소노부이를 투하하는 비행체의 속력에 비해 현저히 느리다 할지라도 수중 표적이 소노부이의 존재를 의식하고 회피 기동하여 전체 탐 지 영역이 형성되기 전에 탐지 영역을 이탈할 수도 Fig. 1. Placement form of square grid (Sources: ●, receivers: ○).표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 217 있다. 또한 자원 효율성을 고려하는 데에도 어려움 이 있다. 소노부이는 운용 가능한 시간이 제한적이 기 때문에 넓은 해역에서 생성된 배치 패턴에 따라 소노부이를 투하할 시, 수중 표적과 거리가 먼 지점 의 소노부이는 사실상 필요가 없는 것이나 다름 없 다. 이러한 불필요한 구역에 배치되는 소노부이로 인해 수중 표적을 탐지하기까지 작전에 소요되는 시 간 또한 오래 걸리게 된다. 따라서, 본 연구에서는 수중 표적의 기동을 고려 한 실험 환경을 통해 실제 대잠전 상황에 적용 가능 한 연구를 수행한다. 또한 대잠전의 신속성과 효율 성을 위해, 최적 배치의 요건을 최소 소노부이 개수 및 최소 탐지 시간으로 정의한다는 점에서 선행 연 구와의 차별성이 있다. 무인항공기의 소노부이 최적 배치를 달성하기 위해 강화학습을 적용한다. 강화학 습은 기계학습의 한 분야로, 에이전트가 환경과 상 호 작용을 하며 보상을 최대화하기 위한 학습 방법 이다. 에이전트는 주어진 환경에서 특정한 상태에서 행동을 선택하고 이에 대한 보상(Reward)을 받으며 최적의 정책을 학습한다. 본 연구에서 에이전트는 무인항공기이며, 상태와 행동 벡터는 Table 1에서와 같이 정의한다. 강화학습 알고리즘으로는 전통적인 강화학습 알고리즘이 아닌, 심층 강화학습 알고리즘 중 하나인 Proximal Policy Optimization(PPO)를 적용 하여 보다 안정적이고 효과적인 학습을 가능하게 한 다. [11] Fig. 2는 본 연구의 간략적인 개념도이다. 투하된 다중상태 소노부이의 탐지 범위를 나타내 기 위해 Cassini Oval의 개념을 활용한다. 이는 두 개 의 고정된 점, 즉 음원 및 수신기와 수중 표적에 대한 일정한 거리의 합이 상수인 점들의 집합으로, Fig. 3 과 같이 나타난다. Cassini Oval 방정식은 Eq. (1)로 정 의되며, 방정식을 만족하는 평면 상의 좌표가 타원 을 이루게 된다. 타원의 형태를 제어하는 매개 변수 a 와 타원의 크기를 결정하는 매개 변수 b에 따라 변형 된다. 여기서 b는 아래의 Eq. (2)로 소나 방정식을 통 해 계산된다. [12] Cassini Oval은 음원에서 수중 표적까 지의 거리와 수중 표적에서 수신기까지 거리의 기하 평균이 일정하다는 특성을 가진다. 이를 통해 Eq. (3) 에서 를 계산하여 Eq. (4)와 같이 소노부이의 평 균 탐지거리 만을 가지고 계산하는 Exponential 방 Table 1. State and action vectors of UAVs. StateAxisDescription Location xlongitudinal location zlateral location Speed xlongitudinal location yvertical location zlateral location Submarine location xlongitudinal location zlateral location ActionAxisDescription UAV xlongitudinal move zlateral move scalardistance to move Fig. 2. (Color available online) Conceptual diagram of proposed system. Fig. 3. (Color available online) Cassini oval conceptual plot.배근영, 강주환, 홍정표 한국음향학회지 제 43 권 제 2 호 (2024) 218 식을 적용하여 탐지 확률을 산출한다. [13] .(1) ≦ ≡ .(2) .(3) .(4) 3.1 보상 함수 설계 강화학습에서 보상 함수는 에이전트가 특정 행동 을 취한 결과에 대한 피드백을 제공하는 핵심적인 역할을 한다. 보상 함수의 설계는 학습 알고리즘이 원하는 목표를 달성하도록 도와주며, 에이전트가 바 람직한 행동을 학습하고 최적의 전략을 개발하는 데 결정적인 영향을 미친다. 소노부이 최적 배치 요건 은 최소한의 소노부이로 최단 시간 내에 수중 표적 을 탐지하는 것이다. 따라서 다음과 같이 최적화 공 식을 정의하면, Minimize .(5) subject to ≤≤ max ≤ ≤ max .(6) ≥ min .(7) 여기서 r은 투하된 소노부이 개수이고 은 소노 부이의 비용함수로 (8) 와 같이 표현된다, Eq. (8)은 음원과 수신기의 비용에 대한 가중치를 각각 λ 과 로 달리 설정하여 각각 의 투하된 소노부이 개수만큼의 곱의 합으로 정의된 다. 또한, 은 무인항공기가 작전 상공에 배치됨 으로부터 수중 표적을 탐지하기까지 작전에 소요되 는 시간으로 (9) 과 같이 정의된다. 여기서 a는 초기 투하 지점까지의 이동 거리에 대한 시간이다. 투하된 r개의 소노부이 만큼 매 투하 지점까지의 이동 거리에 대한 시간인 와 투하에 소요되는 시간 을 합산한 값으로 나타 낸다. 최적화 공식의 제약 조건을 Eqs. (6)과 (7)으로 정의 한다. 현재 소노부이 투하 지점에서 다음 투하 지점 을 지정하기 위해 본 연구에서는 무인항공기의 최대 이동 범위의 max 만큼의 제한을 둔다. 탐지에 성공 하기 위한 최소 소노부이 투하 개수 또한 min 이상이 되도록 제한하여 실험한다. 무인항공기가 최소한의 소노부이로 최단 시간 내 에 수중 표적을 탐지할 수 있도록 Fig. 4와 같이 보상 함수를 설계한다. 수중 표적 탐지 시에 1만큼의 양의 보상을 부여한다. 수중 표적과 더 가까운 곳에 투하 하는 것이 탐지 확률이 높으므로, 탐지 시에 소노부 이가 수중 표적과 200 m 이내에 존재한다면 1만큼의 추가적인 보상을 부여한다. 만약 소노부이 투하 시 에 탐지에 실패하였다면 –0.5만큼의 음의 보상을 부 여하고, 음원과 수신기에 대해 각각 –0.6, –0.5만큼의 음의 보상을 부여한다. 이를 통해 소노부이의 비용 Fig. 4. Flowchart of designed reward function.표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 219 을 고려하여 보다 효율적인 배치를 가능하게 한다. 수중 표적 또는 무인항공기가 작전 해역을 이탈한다 면 –5만큼의 보상을 부여하여 무인항공기가 작전 해 역을 벗어나지 않도록 학습하고, 수중 표적이 작전 해역을 이탈하기 전까지 탐지하도록 한다. 3.2 학습 에피소드 진행 강화학습은 에이전트가 설계된 보상 함수에 따라 여러 번의 에피소드를 반복하며 학습하게 된다. 따 라서 무인항공기가 학습하기 위한 에피소드의 진행 방법은 Fig. 5와 같다. 먼저 특정 지점에서 첫 접촉되었다는 가정하에 에 피소드를 시작한다. 에피소드 초기에 무인항공기는 작전 해역 외부에서 생성되어 내부로 진입하게 되 고, 수중 표적은 작전해역 가운데에 랜덤한 방향으 로 생성된다. 수중 표적은 에피소드 초기에는 랜덤 한 주기에 따라 랜덤한 방향으로 기동하게 된다. 이 후 소노부이가 수중 표적의 근방에 투하될 시에는, 투하로 인한 진동 및 소음을 인지하여 회피 기동을 실시하게 된다. 첫 접촉 지점에 무인항공기가 도달 하게 되면 소노부이를 투하하고, 그 이후는 학습에 따른 액션을 통해 다음 소노부이 투하 지점을 설정 하고 이동한다. 그 사이 수중 표적은 예측 불가능한 지점에서 기동을 하고 있으며, 수중 표적이 작전 해 역을 이탈하게 된다면 실패로 간주하고 에피소드는 종료된다. 무인항공기가 작전 해역을 이탈하게 되어 도, 이 또한 실패로 간주하고 에피소드는 종료된다. 소노부이 투하 시 수중 표적 탐지 여부를 확인하여 3 번 이상 수중 표적이 탐지된다면, 이는 성공으로 간 주하고 에피소드는 종료된다. 에피소드가 종료되면 또다시 새로운 에피소드 시작되고, 에피소드 반복을 통해 무인항공기는 소노부이 최적 배치를 달성하기 위해 학습된다. IV. 실험 환경 및 결과 4.1 실험 개요 실험 환경 제작을 위해 유니티 게임 엔진을 활용 한다. 이를 통해 실제 지형 및 해양 정보를 고려한 가 상의 작전 환경 구축이 가능하다. 본 실험에서는 특 정하는 해역이 없으므로 지름 1.2 km의 원형의 간단 한 작전 환경을 구축하였다. Fig. 6과 같이 우측 상단 의 미니맵을 통해 무인기 및 수중 표적의 이동을 한 눈에 파악할 수 있다. 음원은 빨간색, 수신기는 파란 색 점으로 표시하여 투하된 소노부이의 위치 및 생 성된 탐지 범위를 확인할 수 있다. Fig. 7은 Unity ML-Agents의 시스템 구동 방식이다. Unity ML-Agents 는 Academy 클래스를 통해 에이전트들의 상호 작용 환경을 설정하고 관리하며, Brain 클래스는 각 에이 Fig. 5. Method of the episode procedure for learning UAV. Fig. 6. (Color available online) Virtual experimental environments built by Unity.Next >