< Previous임준석, 이근화 한국음향학회지 제 44 권 제 5 호 (2025) 486 해서 주파수 0.3 이후에도 의미 없는 성분이 있는 것 처럼 도시된 것을 관찰할 수 있다. Fig. 6는 신호 대 잡음 비율이 –3 dB일 때 자기 상관 만 전처리로 사용한 데몬 신호 처리 결과와 자기 상 관과 ALE을 모두 사용하는 제안한 방법을 사용한 데몬 신호 처리 결과이다. 자기 상관을 전처리로 사용한 데몬 신호 처리 결 (a) result of DEMON using auto-correlation (b) time-frequency representation of (a) (c) result of DEMON using proposed method (d) time-frequency representation of (c) Fig. 5. (Color available online) Performance com- parison of DEMON in SNR 3 dB. (a) result of DEMON using auto-correlation (b) time-frequency representation of (a) (c) result of DEMON using proposed method (d) time-frequency representation of (c) Fig. 6. (Color available online) Performance com- parison of DEMON in SNR –3 dB.자기 상관과 적응형 회선 잡음 개선기를 이용한 광대역 프로펠러 소음의 주기 추정 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 487 과인 Fig. 6(a)는 약 –40.2 dB의 스펙트럼 중앙값을 제 공하고, 제안한 알고리즘으로 처리한 결과인 Fig. 6(c)에서는 –45.2 dB의 중앙값을 얻을 수 있었다. 이 는 스펙트럼 전반적으로 자기 상관만 사용하였을 때보다 약 5 dB만큼 기준선을 낮춘 효과를 보여서 상 대적으로 추정한 스펙트럼이 더 잘 보이도록 하는 효과를 줄 수 있다. 이는 유효 스펙트럼과 잡음을 5 dB만큼 더 떨어뜨려 놓았음을 의미한다. 그뿐만 아 니라 잡음 성분에 의해서 주요 스펙트럼 성분 외에 다른 주파수에서 산발적으로 나오는 의사 성분의 크기를 비교하여도 약 10 dB 이상 낮춘 것을 볼 수 있 다. 잡음 수준을 낮추는 효과를 시간-주파수 표시법 으로 그린 Fig. 6(b)와 Fig. 6(d)를 비교해도 알 수 있다. Fig. 6(b)가 Fig. 6(d)에 비해서 주파수 전반에 걸쳐서 의미 없는 성분이 있는 것처럼 도시된 것을 관찰할 수 있다. Table 2에는 위 두 실험의 결과를 정리하였다. Table 2를 보면 제안한 알고리즘이 신호 대 잡음 비율 이 좋을 때나 나쁠 때 모두 잡음의 수준을 낮추고 있 음을 알 수 있다. 또 잡음이 더 많은 –3 dB의 신호 대 잡음 비율 상황에서도 중앙값 저하 수준이 상대적 으로 적은 것도 확인할 수 있다. 이는 ALE 효과를 보 여주는 결과라고 할 수 있다. 4.3 측정 신호를 통한 비교실험 비교실험을 위해서 https://ocr.org에 게시된 상선 신호 데이터를 4.2절과 같은 방식으로 자기 상관만 한 적용한 결과와 제안된 방법을 적용한 결과를 Fig. 7에서 서로 비교하였다. 점선으로 표시된 문턱값 선 을 기준으로 보면 제안한 방법을 적용한 결과가 신 호 외에 주변 잡음의 수준을 3 dB이상 낮추고 있음을 확인할 수 있다. V. 결 론 본 논문은 선박에서 발생하는 프로펠러 소음을 사 용하여 선박을 탐지하는 데 쓰이는 방법의 하나인 데몬 신호 처리를 위한 방법을 제안하였다. 본 논문 에서 제안하는 방법은 데몬 신호 처리 중에 발생하 는 포락선 신호를 자기 상관 처리한 후에 ALE를 적 용함으로써 포락선의 잡음 수준을 줄이는 방법이 다. 이 방법을 모의실험에서 전통적인 방법과 비교 평가했을 때 전통적인 데몬 방법에 비해 신호 대 잡 음 비가 향상됨을 확인하였다. 감사의 글 이 논문은 2023년도 해양수산부 재원으로 해양 수산과학기술진흥원의 지원을 받아 수행된 연구임 (RS-2023-00256121, 해양무인시스템 통합실증 시험 평가기술 개발). Table 2. Comparison of median of magnitude of spectrum in dB. SNR3 dB–3 dB Using auto-correlation–45.1 dB–40.2 dB Using proposed method–47.6 dB–45.2 dB (a) result of DEMON using auto-correlation (b) result of DEMON using proposed method Fig. 7. (Color available online) Comparing the results using actual data.임준석, 이근화 한국음향학회지 제 44 권 제 5 호 (2025) 488 References 1.W. C Knight, R. G Pridham, and S. M Kay, “Digital signal processing for sonar,” Proceedings of IEEE, 69, 1451-1506 (1981). 2.R. J. Urick, Principles of Underwater Sound (McGraw- Hill, New York, USA, 1975), pp. 298-321. 3.A. A. Winder, “Sonar system technology”, IEEE Trans Ultrason Ferroelectr Freq Control. 22, 291-332 (1975). 4.R. O. Neilson, Sonar Signal Processing (Artech House, Boston, USA, 1991), pp. 95-142. 5.W. S. Burdic, Underwater Acoustic System Analysis (Prentice Hall, Englewood Cliffs, NJ, USA, 1984), pp. 411-438. 6.L. Sichum and Y. Desen, “DEMON feature extraction of acoustic vector signal based on 3/2-d specturm,” Proc. 2nd IEEE ICIEA, 2239-2243 (2007). 7.S. Badri and H. Amindavar, “Estimation of propeller shaft rate in multipath environment using nevanlinna- pick interpolation,” Proc. 9th ISSPA, 1-4 (2007). 8.M. Cheong, S. Hwang, S. Lee, and J. Kim, “Multi- band enhancement for demon processing algorithms” (in Korean), J. Acoust. Soc. Kr. 32, 138-146 (2013). 9.J. Lim, W. Hong, and Y. Pyeon, “Hidden period estimation in propeller noise using auto-correlation and filter-bank structure” (in Korean), J. Korean Inst. Commun. Sci. 39B, 538-543 (2014). 10.J. Lim, Y. Pyeon, and W. Hong, “Hidden period estimation in propeller noise applying compressed sensing to auto-correlation and filter-bank structure” (in Korean), J. Korean Inst. Commun. Sci. 40, 2476- 2484 (2015). 11.S. Haykin, Adaptive Filter Theory (Pearson, Boston, USA, 2005), pp.285-289. 12.Z. Yan, C. Niezrecki, and L. Cattafesta, “Background noise cancellation of manatee vocalizations using an adaptive line enhancer,” J. Acoust. Soc. Am. 120, 145-152 (2006). 13.J. Zhang, M. Shi, and P. Hu, “Two-step adaptive line enhancer for ship-radiated noise line spectrum detec- tion,” Proc. ICSPCC, 1-4 (2013). 14.Y. Guo, J. Zhao, and H. Chen, “A novel algorithm for underwater moving-target dynamic line enhancement,” Appl Acoust. 64, 1159-1169 (2003). 15.Y. Hao, L. Qiu, C. Chi, and G. Liang, “Sparsity- inducing frequency-domain adaptive line enhancer for unmanned underwater vehicle sonar,” Appl. Acoust. 173, 1-8 (2021). 저자 약력 ▸임 준 석 (Jun‑Seok Lim) 1986년 : 서울대학교 전자공학과 학사 졸업 1988년 : 서울대학교 전자공학과 석사 졸업 1996년 : 서울대학교 전자공학과 박사 졸업 1996년 7월 ~ 1997년 10월 : LG종합기술원 1998년 ~ 현재 : 세종대학교 AI융합전자공 학과 교수 ▸이 근 화 (Keunhwa Lee) 2002년 : 서울대학교 조선해양공학과 학사 2006년 : 서울대학교 조선해양공학과 박사 2006 ~ 2014년 : 서울대학교 연구교수 2014년 ~ 현재 : 세종대학교 국방시스템공 학과 교수I. 서 론 음향 이벤트 검출(Sound Event Detection, SED)은 오 디오 신호에 포함된 관심 음향의 종류와 시점과 끝 점을 검출하는 기술로, 스마트 홈/도시에서 모니터 링 시스템과 자율주행 자동차 등 IoT 분야에서 핵심 기술로 주목받고 있다. [1-3] 오디오 신호는 시간에 따 른 주파수 변화를 보여주는 로그 멜 스펙트로그램으 로 변환되어 음향모델에 입력된다. 이후, 모델의 결 과에 임계값과 중간값 필터링을 순차적으로 적용하 여 검출 결과가 도출된다. [4] 음향 신호 분석에 관한 국제 경연 대회(Detection and Classification of Acoustic 음향 이벤트 검출을 위한 누적 특징 추출 네트워크 Accumulative feature extracting network for sound event detection 박상원, 1 박상욱 1† (Sangwon Park 1 and Sangwook Park 1 † ) 1 강릉원주대학교 전자반도체공학부 (Received May 26, 2025; revised July 7, 2025; accepted July 20, 2025) 초 록: 음향 이벤트 검출은 오디오 신호에서 음향의 종류와 발생 지점과 끝점을 검출하는 기술로 모니터링 시스템, 자율주행 자동차 등 다양한 분야에 쓰이고 있다. 음향 이벤트 검출은 음향 신호 분석에 관한 국제 경연대회(Detection and Classification of Acoustic Scenes and Events, DCASE)를 통해 음향 이벤트 검출 성능을 향상시키기 위한 다양한 방법들이 소개되고 있다. 본 논문은 기존 음향 분석 모델의 하위 계층에서 시간-주파수 정보가 손실되는 문제를 완화하기 위해 누적 특성 추출 신경망(AccNet)을 제안한다. 제안하는 모델은 DCASE 2023 task4 테스트 베드를 활용한 실험에 서, DCASE 2023 Baseline과 동일한 파라미터 수를 유지하면서 F1 점수에서 44.76 ± 0.51[%]를 기록하였고, 비교대상 으로 고려된 CRNN, 다중해상도 합성곱 모델, 잔차 경로 기반 모델들에 비해 가장 우수한 성능을 보여준다. 또한, 제안하 는 모델은 잔차 경로 기반 모델에 비해 Blender와 Electric shaver를 제외한 관심 음향에서 향상된 F1 점수를 보여준다. 핵심용어: 음향 이벤트 검출, Detection and Classification of Acoustic Scenes and Events (DCASE) 2023 Task4, 밀집 신경망, 네트워크 구조, 시계열 임베딩 ABSTRACT: Sound event detection is a technology that detects the type, onset, and offset of sound events in audio signals and it is used in various fields such as monitoring systems and autonomous vehicles. Through the international competition (Detection and Classification of Acoustic Scenes and Events, DCASE) on acoustic signal analysis , various methods have been introduced to improve the performance of sound event detection. In this paper, we propose AccNet to solve the loss of spectro-temporal information in low layers of conventional acoustic model. In experiments performed on the DCASE 2023 Task 4 testbed, while the proposed model is comparable to the DCASE 2023 baseline in model complexity, it achieved 44.76 ± 0.51 % in event based f1 score, the best performance compared to the other models such as CRNN, multi-resolutional convolution based model, and residual path based model. Also the proposed model demonstrates improved f1 scores for target sound event except Blender and Electric shaver, compared to the residual path based model. Keywords: Sound event detection, Detection and Classification of Acoustic Scenes and Events (DCASE) 2023 Task4, Dense Net, Network architecture, Temporal embedding PACS numbers: 43.60.Bf, 43.60.Dh, 43.60.Jn, 43.60.Mn, 43.60.Qv 한국음향학회지 제44권 제5호 pp. 489~495 (2025) The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) https://doi.org/10.7776/ASK.2025.44.5.489 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Sangwook Park (spark2@gwnu.ac.kr) Department of Electronic Engineering, Gangneung-Wonju National University, 7, Jukheon-gil, Gangneung-si 25457, Republic of Korea (Tel: 82-33-640-2382, Fax: 82-33-643-7110) Copyrightⓒ 2025 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 489박상원, 박상욱 한국음향학회지 제 44 권 제 5 호 (2025) 490 Scenes and Events, DCASE)를 통해, 심층신경망 기반 음향 모델 설계, 데이터 증강, 모델 학습, 후처리 등 다양한 측면에서 성능 향상 방법이 소개되고 있다. [5-8] 이때, 검출성능 향상을 위해, 음향 특징을 효과적으 로 구분하는 음향모델이 필요하다. 음향 이벤트 검출에 관한 DCASE 베이스라인 (baseline)은 시간-주파수 영역에서 음향 특징을 추출 하는 Convolutional Neural Network(CNN)와 시간에 따 른 변화를 모델링하는 Gated Recurrent Units(GRUs)으 로 구성된 CRNN을 음향모델로 활용한다. 하지만, 고 정된 크기의 합성곱 필터를 사용하는 CNN은 제한된 수용 범위 내에서 지역적인 특징을 추출하기 때문에 시간에 따른 주파수 변화를 반영하는 데 한계가 있 다. InceptionNet [9,10] 에 기반한 음향모델은 여러 크기 의 합성곱 필터를 병렬적으로 적용하여 다양한 크기 의 수용영역에서 음향 특징을 효과적으로 추출한다. 다수의 합성곱 계층(convolution layer)과 풀링(Pooling) 계층으로 구성된 CNN은 시간에 따른 주파수 변화를 반영한 하위 레벨 특징(low-level feature)과 이들을 융 합한 상위 레벨 특징(high-level feature)를 추출함으로 써, 음향 이벤트 검출성능 향상을 기대할 수 있다. 하 지만, 기울기 소실/폭발 문제로 인해, 모델 학습에 어 려움이 있다. 이때, ResNet [11] 은 이전 계층의 출력을 현재 계층의 출력과 연산하는 스킵 연결(skip connection)을 적용함으로써, 상위 레벨 특징을 효과 적으로 추출하고 안정적인 모델 학습을 기대할 수 있다. 한편, 상위 계층으로 전달된 특징은 여러 연산 을 통해, 시간-주파수 영역에서 관찰되는 지역적 특 징이 희석될 수 있다. DenseNet [12,13] 은 모든 상위 계층 으로 스킵 연결된 밀집 연결(dense connection)을 적용 하여, 안정적인 학습을 기대함과 동시에, 각 계층에 서 추출된 특징을 상위 계층에 전달하여, 중간 계층 에서의 정보 손실을 최소화할 수 있다. [12,13] 본 논문에서는 음향 이벤트 검출성능 향상을 위해 밀집 연결(dense-connection)에 기반한 음향 특징 추 출 네트워크 AccNet을 제안한다. 제안하는 모델에서 하위 계층의 특징맵은 Dense 블록을 통해, 모든 상위 계층으로 전달됨으로써, 하위 계층에서 추출된 특 징을 보존하면서 상위 레벨 특징을 추출함으로써 음향 이벤트 검출을 위해 효과적으로 특징을 추출 할 수 있다. 이때, Dense 블록은 시간-주파수 영역에 서 지역적인 음향 특징을 추출하고 채널 차원을 축 소하기 위해, 3 × 3 합성곱과 점별 합성곱(point-wise convolution)으로 구성된다. DCASE 2023 Task4 테스 트베드에 기반한 성능 평가에서 제안하는 모델의 F1 점수는 44.76 ± 0.51 %로 InceptionNet과 ResNet에 기반한 모델과 비교하여 각각 3.72 %, 3.68 % 향상된 결과를 보여준다. 이후 본 논문의 구성은 다음과 같다. II장에서는 실험에 사용된 CRNN, 다중 해상도 합성곱 모델, 잔 차 경로 기반 모델, 제안하는 모델을 설명하고 III장 에서는 database, 모델 학습 및 평가 지표, 실험 변수 를 설명한다. IV장에서는 모델별 성능을 평가하고, 모델별 파라미터 수를 비교한다. 마지막으로 V장에 서는 본 연구에 대한 결론을 도출한다. II. 방 법 2.1 CRNN(Baseline) DCASE 2023의 Baseline에서 CRNN은 7개의 합성 곱 블록과 2개의 양방향 GRU로 구성된다[Fig. 1(a)]. 합성곱 블록은 3 × 3 합성곱, 배치 정규화, GLU, 드롭 아웃, Avg Pool 순서로 구성된다. 순환 신경망은 두 개 의 양방향 GRU로 구성된다. 은닉 셀의 수는 128로 설 정된다. CRNN의 결과는 완전 연결층(Fully connected Layer)을 통해, 10가지 음향 이벤트의 존재확률을 산 출한다. 이때, 시간에 따른 음향 이벤트의 존재 확률 (strong prediction)과 입력 오디오 신호에 포함된 음향 이벤트의 존재 확률(weak prediction)을 각각 sigmoid 와 softmax를 통해 산출한다. 2.2 다중 해상도 합성곱 모델 InceptionNet [9,10] 으로부터 영감을 받아, 시간-주파 수 영역에서 여러 크기의 수용영역에 대한 음향 특 징 추출을 위해, Inception 블록을 활용한 다중 해상 도 합성곱 모델을 구축한다. 실험적으로 최고 성능 을 기록한 다중 해상도 합성곱 모델(Inception-based) 은 5개의 Inception 블록과 2개의 Avg Pool로 구성된 다[Fig. 1(b)]. Inception 블록은 1 × 1, 3 × 3, 2개의 3 × 3 커널이 적용된 Basic 합성곱을 통해, 특징을 추출한 음향 이벤트 검출을 위한 누적 특징 추출 네트워크 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 491 후, Point-wise 합성곱을 통해, 특징 맵의 채널 수를 축 소한다[Fig. 1(c)]. 이때, Basic 합성곱은 (k × k) 합성곱, 배치 정규화(Batch Normalization, BN), ReLU 순서로 구성된다[Fig. 1(d)]. 2.3 스킵 연결 기반 합성곱 모델 ResNet [11] 으로부터 영감을 받아, 효율적인 상위 레 벨 특징 추출과 안정적인 모델 학습을 위해, 스킵연 결 기반 합성곱 모델을 구축한다. 다중 해상도 합성 곱 모델과 마찬가지로, 실험적으로 최고 성능을 기 록한 스킵연결 기반 합성곱 모델(Residual path based) 은 4개의 ResConv와 3개의 Res블록으로 구성된다 [Fig. 1(e)]. ResConv은 Basic 합성곱(k = 3), Dropout, Avg Pool 순서로 구성된다. Res블록은 Basic 합성곱(k = 3), Dropout을 수행한 후 스킵 연결을 추가하고 Avg Pool을 수행한다. 스킵 연결은 1 × 1 합성곱, BN, 3 × 3 합성곱, BN, 1 × 1 합성곱, BN으로 구성된다. III. 제안된 누적 특징 추출 네트워크 3.1 누적 특징 추출 네트워크(AccNet) 제안하는 모델은 7개의 Dense 블록과 7개의 Tran- sition 블록으로 구성된다(Fig. 2). 먼저, Dense 블록은 Basic 합성곱(k = 3)과 Feature Extracting(FE) 블록으로 구성된다[Fig. 3(a)]. FE 블록은 BN, ReLU, 3 × 3 합성 곱, BN, ReLU, point-wise 합성곱 순서로 구성되며 Basic 합성곱의 출력을 이용하여 생성된다. 하위 계층 의 FE 블록은 3 × 3 합성곱을 통해 채널을 확장하고 특 징 맵을 추출한 후, point-wise 합성곱으로 채널 차원을 압축하여, 특징 공간에서 중복된 정보를 제거한다. Transition블록은 concat, point-wise 합성곱, AvgPool 순 서로 구성된다[Fig. 3(b)]. 이전 계층으로부터 전달된 모든 FE 블록은 AvgPool를 적용하여 현재 계층과 차 원을 일치시킨 후, 현재 계층에서 Dense블록의 출력 과 연결한다. 예를 들어, Transition 블록 4의 입력은 Dense 블록 4의 출력과 이전에 Dense 블록 1, 2, 3에서 생성된 FE 블록이다. 각 FE 블록은 모든 레이어를 거 칠 때마다 AvgPool이 적용된다. 이는 각 Dense 블록에 반복함으로써, 하위 계층에서 추출된 시간-주파수 정보를 손실 없이 상위 계층의 특징 추출 과정에 반 영할 수 있다. 제안하는 FE 블록은 기존 DenseNet [12,13] 의 병목(bottleneck) 블록과 비교하여 3 × 3 합성곱을 선행함으로써, 각 계층에서 시간-주파수 영역에서 특징을 학습하고, 이후 1 × 1 합성곱을 통해, 채널을 Fig. 1. Experimental model architectures: (a) CRNN, (b) incep-based model, (c) inception block, (d) basic con- volution, (e) residual path based model.박상원, 박상욱 한국음향학회지 제 44 권 제 5 호 (2025) 492 축소하여 연산량을 줄인다. Dense블록으로 음향 모델을 구축함으로써, 시간-주 파수 영역에서 관찰되는 음향 특징이 음향 모델 내 전 파 과정에서 손실되는 정보를 최소화 함으로써, 효과 적인 특징 추출을 기대할 수 있다. 또한, 스킵 연결과 동일하게, 학습과정에서 기울기 소실/폭발 문제를 완 화함으로써, 안정적인 모델 학습을 기대할 수 있다. 3.2 모델 학습 성능 평가에서 각 모델은 평균 교사 모델에 기반 하여 학습된다. 평균 교사 모델은 학생 모델과 교사 모델로 구성된다. 실험에서 사용한 평균-교사 모델 은 다음 Eq. (1)과 같이 정의된다. ∈ ∈ ∈ .(1) 이때, 위 첨자 s, w, u는 각각 음향 데이터의 종류를 의미한다. BCE와 MSE는 Binary Cross Entropy와 Mean Squared Error를 나타낸다. , 는 각각 강한 레이블 과 약한 레이블을 의미한다. n, m, k는 각각 강한 레 이블, 약한 레이블, 레이블이 없는 데이터의 배치 크 기를 나타낸다. , 는 각각 학생 모델과 교사 모델의 출력 값이고, 는 학생 모델의 출력값 에 대한 시간에 대한 가중치 평균값이다. 각 모델은 DCASE2023 task4의 Testbed를 활용하여 학습된다. [14] 3.3 모델 설계 변수 CRNN은 DCASE2023 Baseline과 동일한 모델로 설 정된다. 다중 해상도 합성곱 모델에서 Inception블록 의 채널 수는 16, 32, 64, 128, 256 순서로 구성된다. Fig. 2. (Color available online) Architecture of the proposed method. (a) (b) Fig. 3. Architecture of dense block and transition block : (a) dense block, (b) transition block.음향 이벤트 검출을 위한 누적 특징 추출 네트워크 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 493 Inception블록의 1 × 1 합성곱 필터는 입력 채널 수와 동일한 채널 수를 출력하고, 3 × 3 합성곱 필터의 1 × 1 합성곱 필터는 입력 채널수의 절반을 출력한다. 5 × 5 합성곱 필터의 1 × 1 합성곱 필터는 입력 채널수의 1/4을 출력한다. Point-Wise 합성곱은 다음 Inception 블록 입력 채널과 동일하게 설정한다. 잔차 경로 기 반 모델은 ResConv의 채널 수는 순서대로 16, 32, 64 으로 설정되고, Res블록의 채널 수는 모두 128로 설 정된다. 스킵 연결의 3 × 3 합성곱의 채널 수는 모두 32로 설정된다. 제안하는 모델에서 채널 수는 계층 순서대로 16, 32, 48, 64, 80, 96, 112로 설정된다. 각 모 델은 실험적으로 최고 성능을 보이는 구조로 설계 되어, 성능평가에 고려한다. IV. 실험 및 결과 4.1 데이터베이스 본 논문에서는 DCASE2023 task4에서 제공하는 DESED 데이터 셋을 사용한다. 학습데이터는 각각 의 오디오 신호에 대해 음향 이벤트의 종류와 구간 이 모두 명시된 strongly labeled set(S), 음향 종류만 명 시된 weakly labeled set(W), 그리고 아무런 정보가 없 는 unlabeled set(U)으로 구성되고, 검증데이터는 969 개의 오디오 클립으로 구성된다. 모든 데이터는 10 초 길이의 오디오를 샘플링 레이트 16 kHz로 재샘플 링하고 2048포인트 Fast Fourier Transform(FFT)를 수 행하여 스펙트로그램으로 변환한다. 이후 멜 필터 를 적용하여 멜-스펙트로그램으로 변환한다. 4.2 성능 지표 성능 지표로 이벤트 기반 F1 점수(F1-score)와 PSDS 를 활용한다. F1 점수는 정밀도와 재현율의 조화 평 균으로 산출된다. PSDS는 이벤트 검출 시점이 정확 할수록 높은 점수를 부여하는 PSDS1과 이벤트의 종 류에 더 높은 점수를 부여하는 PSDS2를 사용한다. 각 지표의 산출방법은 DCASE 2023 task4에서 사용 한 방법을 적용한다. [15] 모델 학습에서 발생하는 무 작위성을 고려하여, 각 모델은 학습과 테스트를 세 번 반복하여, 평균을 통해 나타낸다. 4.3 모델별 성능 평가 Table 1은 각 모델의 성능과 모델 크기(변수 수)를 보여준다. 세 가지 성능지표에서 CRNN은 널리 알려 진 성능과 유사함을 알 수 있다. [16] 본 실험에서 성능 평가를 위한 검증데이터는 구축 과정에서 199개 오 디오 샘플이 누락되었지만, 성능 평가 및 비교에 큰 차이가 없음을 확인할 수 있다. 다중 해상도 합성곱 모델과 잔차 경로 기반 모델은 CRNN과 비교하여 향 상된 성능을 보여준다. 이때, 모델은 모든 지표에서 다른 방법과 비교하여 통계적으로 유의미한 성능 향상을 보여준다. 방법론적으로 스킵 연결과 Dense 연결은 서로 유사하지만, Table 1에서 제안하는 모델 과 잔차 경로 기반 모델의 성능을 비교하면, Dense 연 결이 스킵 연결 보다 음향 이벤트 검출에 효과적임 을 확인할 수 있다. 4.4 음향 이벤트 종류별 성능 평가 Fig. 4는 제안하는 모델과 잔차 경로 기반모델, CRNN 모델에서 관심 음향 이벤트 종류별 F1 점수를 보여 준다. 제안하는 모델은 CRNN과 비교하여 Alarm을 제외한 모든 음향 이벤트에서 더 좋은 성능을 보여 준다. 잔차 경로 기반 모델과 비교하여 제안하는 모 델은 Blender와 Electric shaver를 제외한 모든 관심 음 향에서 이벤트별 F1 점수가 향상된 결과를 보여준 다. 특히 Dishes와 Dog 같은 임펄스 성 음향 이벤트에 서 강한 성능을 확인할 수 있다. 이는 제안하는 모델 Table 1. Performance comparison of different models. Model# of paramsClass avg. F1-scorePSDS1PSDS2 CRNN (baseline)1.1 M40.73 ± 1.0134.7 ± 0.7151.9 ± 2.27 ResNet-based1.1 M41.08 ± 1.4135.59 ± 0.8053.58 ± 0.86 Inception-based2.3 M41.04 ± 2.7337.8 ± 1.3254.98 ± 1.80 AccNet (proposed)1.1 M44.76 ± 0.5138.98 ± 3.3656.92 ± 1.31박상원, 박상욱 한국음향학회지 제 44 권 제 5 호 (2025) 494 이 하위 계층에서 추출한 특징이 상위 계층까지 전 달되어 임펄스 성 음향 이벤트를 잘 검출한다는 것 을 확인할 수 있다. 4.5 Pooling 방법에 따른 모델 성능 비교 Table 2는 제안하는 방법에 적용된 pooling 연산 종 류에 따른 성능을 보여준다. AvgPool이 적용된 경우, F1점수와 PSDS1에서 유의미한 성능 향상을 확인할 수 있다. MaxPool의 경우, 추출된 하위 계층 특징이 상위 계층에서 추출된 특징값과 비교하여 작을 때, 더 이상 상위 계층으로 특징이 전달될 수 없다는 한 계가 있다. 4.6 제안하는 방법의 성능에 관한 논의 DCASE를 통해, 음향 이벤트 검출 성능에 관한 여 러 연구가 소개된다. 최근, 주파수 별 가중치를 적용 한 주파수 동적 합성곱 모델을 중심으로 음향 이벤 트 검출 분야에서 최고 성능을 보여준다. [17,18] FDY [17] 에서는 이벤트 기반 f1 점수에서 약 50 %의 정확도를 보여주고 있으나, 이는 데이터 증강, 후처리, 음향 모 델 설계 등 성능 향상을 위한 다양한 방안이 고려된 결과이다. 반면, 본 논문에서는 음향 모델 설계를 제 외한 방법은 고려되지 않았다. 제안하는 방법에서 성능 개선을 위해, 데이터 증강을 비롯하여 후처리 방안을 포함한 연구를 수행할 계획이다. Fig. 5는 모델 크기 별 F1 점수를 보여준다. 각 모델 의 크기가 클수록 F1 점수가 향상되는 것을 알 수 있 다. 다만, 모델의 크기가 일정 수준을 넘어서면 모델의 성능이 향상되지 않는다. 이는 모델 학습에서 과적합 이 발생한 것으로 생각된다. 또한, Fig. 5는 모델 크기 별 각 한번씩 실험한 결과로 모델 학습에서 발생하는 무작위성으로 인해 Table 1과 다른 결과를 보여준다. V. 결 론 음향 이벤트 검출을 위해 CRNN 기반의 신경망들 이 제안되었다. 본 논문은 음향 이벤트 검출에서 기 존 밀집 신경망의 병목 구조의 하위 계층에서의 중 요한 정보를 손실하는 문제점을 해결하기 위해 분 리 밀집 신경망을 제안한다. 제안하는 모델의 FE 블 록은 하위 계층에서 추출된 시간-주파수 정보를 손 실 없이 상위 계층의 특징 추출 과정에 반영한다. 제 안하는 모델은 DCASE 2023 Task4 테스트 베드에 기 반한 성능평가에서 F1 점수 44.76 ± 0.51 %로 가장 우 수한 성능을 보여주고, 모든 지표에서 유의미한 향 상을 확인할 수 있다. 향후 연구 계획은 데이터 증강 기법을 적용하여 음향 이벤트 검출에서 모델의 성 능을 더 높일 계획이다. 감사의 글 이 논문은 2023년도 강릉원주대학교 학술연구조 성비와 2024년도 정부(과기정통부)의 재원으로 한 Fig. 5. (Color available online) F1-score variation by model size. Fig. 4. (Color available online) Class-wise event- based F1-score. Table 2. Performance comparison of maxpool and avgpool in the proposed model. Pooling Class avg. F1-score PSDS1PSDS2 MaxPool43.59 ± 0.5337.02 ± 0.5458.49 ± 0.48 AvgPool44.76 ± 0.5138.98 ± 3.3656.92 ± 1.31음향 이벤트 검출을 위한 누적 특징 추출 네트워크 The Journal of the Acoustical Society of Korea Vol.44, No.5 (2025) 495 국연구재단 기초연구사업의 지원을 받아 수행된 연 구임(RS-2024-00358953). References 1.G. Ciaburro and G. Iannace, “Improving smart cities safety using sound events detection based on deep neural network algorithms,” Informatics, 7, 23 (2020). 2.A. H. Yuh and S. J. Kang, “Real-time sound event classification for human activity of daily living using deep neural network,” Proc. IEEE iThings, GreenCom, CPSCom, SmartData, Cybermatics, 83-88 (2021). 3.H. G. Kim and G. Y. Kim, “Deep neural network- based indoor emergency awareness using contextual information from sound, human activity, and indoor position on mobile device,” IEEE Trans. Consum. Electron. 66, 271-278 (2020). 4.P. Giannakopoulos, A. Pikrakis, and Y. Cotronis, “Improving post-processing of audio event detectors using reinforcement learning,” IEEE Access, 10, 84398–84404 (2022). 5.D. de Benito-Gorrón, D. Ramos, and D. T. Toledano, “A multi-resolution CRNN-based approach for semi- supervised sound event detection in DCASE 2020 challenge,” IEEE Access, 9, 89029-89042 (2021). 6.J. Nam and S. W. Park, “Boosting principal frequency based data augmentation for sound event detection” (in Korean), J. Korean Inst. Electron. Eng. 77-83 (2024). 7.N. K. Kim and H. K. Kim, “Self-training with noisy student model and semi-supervised loss function for DCASE 2021 challenge task 4,” DCASE, Tech. Rep., 2021. 8.L. Lin, X. Wang, H. Liu, and Y. L. Qian, “Guided learning convolution system for dcase 2019 task 4,” arXiv preprint arXiv:1909.06178 (2019). 9.C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the Inception architecture for com- puter vision,” Proc. IEEE CVPR, 2818-2826 (2016). 10.W. Lim, S. Suh, and Y. Jeong, “Weakly labeled semi-supervised sound event detection using CRNN with inception module,” Proc. DCASE, 74-77 (2018). 11.K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” Proc. IEEE CVPR, 770-778 (2016). 12.G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional net- works,” Proc. IEEE CVPR, 4700-4708 (2017). 13.G. Huang, S. Liu, L. Van Der Maaten, and K. Q. Weinberger, “CondenseNet: An efficient DenseNet using learned group convolutions,” Proc. IEEE CVPR, 2752-2761 (2018). 14.N. Turpault, R. Serizel, A. Shah, and J. Salamon, “Sound event detection in domestic environments with weakly labeled data and soundscape synthesis,” Proc. DCASE, Workshop, 253-257 (2019). 15.Ç. Bilen, G. Ferroni, F. Tuveri, J. Azcarreta, and S. Krstulović, “A framework for the robust evaluation of sound event detection,” Proc. IEEE ICASSP, 61-65 (2020). 16.DCASE Community, https://dcase.community/challe nge2023/task-sound-event-detection-with-weak-labels -and-synthetic-soundscapes-results#task-description, (Last viewed April 15, 2025). 17.H. Nam, S. H. Kim, B. Y. Ko, and Y. H. Park, “Frequency dynamic convolution: Frequency-adaptive pattern recognition for sound event detection,” arXiv preprint arXiv:2203.15296 (2022). 18.T. Song and W. Zhang, “Frequency-aware convolu- tion for sound event detection,” Proc. ICMM, 415- 426 (2025). 저자 약력 ▸박 상 원 (Sangwon Park) 2020년 3월 ~ 현재 : 강릉원주대학교 전자 공학과 학사과정 ▸박 상 욱 (Sangwook Park) 2012년 2월 : 중앙대학교 전자전기공학사 2017년 8월 : 고려대학교 공학박사 2017년 11월 ~ 2018년 8월 : 고려대학교 연 구교수 2018년 9월 ~ 2022년 2월 : Johns Hopkins University, PostDoc fellow 2022년 3월 ~ 현재 : 강릉원주대학교 전자 반도체공학부 조교수Next >