한국음향학회지 제43권 제2호

< Previous서진수 한국음향학회지 제 43 권 제 2 호 (2024) 202 를 구하고 SW를 통해서 최적 정합 경로를 찾는다. [2] 커버곡 유무를 판단하고자 하는 두 음악으로부터 추 출된 크로마그램 벡터 수열을 추출하고, 각 크로마 그램 벡터 간 비교를 통해서 크로마그램 쌍별 유사 도를 구한다. 커버곡 생성 과정에서 다양한 변형을 겪게 되고, 특히 음악의 조변화가 있을 경우 크로마그램 쌍별 유 사도를 직접 유클리디안 또는 코사인 거리 등으로 비 교하는 것이 불가능하다. 음악 조변화는 크로마그램 상에서 크로마축 방향으로 순환 이동으로 나타나기 때문이다. 이러한 특성을 반영하여 전곡 크로마그램 의 조변화도를 구하고, 각 프레임의 크로마그램 비교 시에 음악의 조변화도가 전곡과 일치하면 정합으로, 일치하지 않으면 부정합으로 판정하는 Optimal Trans- position Index(OTI)를 이용한 방법이 좋은 성능을 보 였다. [2] OTI는 음악의 조변화에 대해서 불변성을 가 지므로 OTI 기반 쌍별 유사도도 조변화에 불변성을 가지게 된다. OTI를 이용한 쌍별 유사도는 다음과 같 이 구할 수 있다. Fig. 1에서 커버곡을 찾고자하는 질 의 음악을 Q, 음원 데이터베이스상의 검색 대상 음 악을 A라고 하자. 두 음악 Q, A의 프레임 개수가 각각 M과 N일 때, 크로마그램 수열을 얻어진 시간 순으 로 각각 Q, A로 표기하면, 다음과 같이 q m 과 a n 은 L차 크로마그램 벡터가 된다(일반적으로 L = 12).          ⋯               ⋯      (1) 음악이 조변화되면 크로마그램 벡터는 순환 이동 하게 된다. 벡터 q m 이 주어졌을 때, 벡터 간 유사도가 최대가 되도록 a n 이 순환 이동해야하는 빈의 개수인 OTI m,n 은 벡터간 내적 <,>으로 다음과 같이 정의된다.      argmax             .(2) Eq. (2)에서 cshift(a n , l)는 a n 벡터를 l만큼 순환 이동한 벡터를 가리키며, l을 0에서 L-1까지 가변하면서 최 대가 되는 l값을 찾는다. 전곡 평균 크로마그램 벡터 를 각각 g Q 와 g A 라고 하면, OTI g 는 다음과 같이 정의 된다.    argmax             .(3) OTI m,n 과 OTI g 를 비교하여, Q와 A의 프레임 특징 벡터 간 쌍별 유사도 행렬 S를 다음과 같이 얻는다.        if          .(4) Eq. (4)에서 μ + 와 μ - 는 각각 정합과 부정합을 나타 내는 상수로 논문 [2] 와 같이 μ + = 1, μ - = -0.9를 사용하 였다. 쌍별 유사도는 프레임 특징 간 유사도 이므로 입 력 음악 간의 관계가 커버곡인지 여부를 판단하기 위해서는 전곡 유사도를 구해야 한다. 쌍별 유사도 상에서 SW를 통해서 최적 정합 경로를 찾아서 전곡 유사도를 유도한다. [2] SW를 통해서 최적 정합 경로 를 찾게 되면, 커버곡을 만드는 과정에서 자주 발생 하는 음악 연주 속도 변화에 강인하게 되는 장점이 있다. SW 알고리즘은 쌍별 유사도 행렬 S의 시간축 방향 연속성을 고려하여, 다음과 같이 시간축 정합 행렬 H를 구한다.      max                                                                                   (5) Eq. (5)에서 S p = S m-1,n-1 이며, 정합 제약 조건 함수 δ( )는 다음과 같이 주어진다.          if     if≤  and     if≤  and≤ .(6) 정합값 H m,n 은 Q수열의 m, A 수열의 n번 위치까지의 시간축 정합의 최대값을 의미한다. 커버곡 검색을 위해서 수열 Q와 A 간의 거리는 H의 최대값의 역수 와 두 수열의 길이에 따라 다음과 같이 구한다.       max       .(7)커버곡 검색 정확도 향상을 위한 적합도 기반 크로마그램 쌍별 유사도 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 203 2.2 적합도 기반 크로마그램 쌍별 유사도 OTI 기반 쌍별 유사도 계산에서, 질의 음악의 크로 마그램 벡터 q m 별로 OTI 기준으로 정합되는 상대 크 로마그램 벡터의 개수에 차이가 있다. 많은 수의 크 로마그램 벡터와 정합이 되는 q m 은 그만큼 변별력이 떨어진다고 볼 수 있으며, 기존 연구 [6] 에서는 이를 허브 지수로 표현하고 허브 지수를 기반으로 Eq. (4) 의 쌍별 유사도를 정규화 하였다. 본 논문에서는 확 률 적합도 모델 [7] 을 기반으로 q m 의 커버곡 인식 적합 도를 구하여 쌍별 유사도의 가중치로 사용한다. 적 합도를 구하기 위해서 q m 에 대해서 두 가지 확률 λ m 과 β m 을 다음과 같이 정의한다.      ∋   R AQ         ∋   R AQ    먼저 λ m 은 노래 A가 Q의 커버곡일 때 (R AQ = 1), A의 특징 수열 A가 q m 을 포함하고 있을 확률이다. 다음으 로 β m 은 노래 A가 Q의 커버곡이 아닐 때 (R AQ = 0), A 가 q m 을 포함하고 있을 확률이다. 두 확률 λ m 과 β m 을 이용하여 q m 과 정합되는 것이 A가 Q의 커버곡인 지 여부를 판단하는 데 유용한 정도인 적합도를 구한다. 확률 적합도 모델에 따 르면, q m 의 커버곡 인식에 대한 적합도는 q m 존재 여부에 따른 로그 우도의 차이로 다음과 같이 주어 진다. [8]      log     ∈  R AQ        ∈  R AQ     log     ∉  R AQ        ∉  R AQ     log                  (8) 위 적합도 W(q m )은 각 q m 들이 커버곡 판별에 확률적 으로 독립적이라는 가정 하에 유도된다. 위 적합도 를 계산하기 위해서는 λ m 과 β m 을 추정해야하며, 일반 적으로 커버곡을 만드는 방법이 다양하여 λ m 을 추정 하는 것은 어렵다. 커버곡을 만드는 방식에 따라서 λ m 이 정해지므로 이를 미리 확률분포로 유도할 수는 없다. 일반적으로 대부분의 경우 A와 Q의 관계가 커 버곡이 아니므로, β m 을 다음과 같이 Kronecker delta (KD) 함수를 이용하여 추정한다.        where        KD          (9) Eq. (9)의 β m 을 Eq. (8)에 대입하고 분모와 분자에 확 률 적합도 모델 [8] 에 따라 0.5를 더하여 다음과 같이 q m 의 커버곡 인식 1형 적합도 W 1 을 구한다.       log          log            log                (10) Eq. (10)에서 n m 이 N /2 보다 클 경우 log를 취하면 음 수가 되고, 이를 방지하기 위해서 분자의 n m 항을 제 거하는 방법이 제안 [9] 되었고, 이를 적용하여 커버곡 인식 2형 적합도 W 2 를 다음과 같이 구한다.         log            .(11) Eqs. (10)과 (11)에서 상수 C는 λ m 과 연관되어 있어서 추 정이 어려우므로 보통 0으로 고정한다. 확률 적합도 모델, 적합도 유도 과정, 확률 분포 추정은 References [7] ~ [9]에 자세히 기술되어 있다. 마지막으로 얻어 진 적합도를 다음과 같이 로지스틱 함수를 통해서 0 과 1사이로 정규화한다. 로지스틱 함수의 파라미터 α, κ 값은 III장에서 실험적으로 정한다.                .(12) 정규화된 적합도 NW(q m )를 Eq. (4)의 유사도 행렬 S 와 Eq. (6)의 정합 제약 조건 함수 δ( )에 곱한 후에, Eq. (5)의 시간축 정합 행렬 H를 구한다. 얻어진 H를 이 용하여 Eq. (7)을 이용하여 기존 방법과 동일하게 커 버곡 검색을 수행한다. Eq. (12)에서 W(q m )을 Eq. (11) 의 W 2 로 사용하되 분자와 분모에 0.5가 더해진 항을 서진수 한국음향학회지 제 43 권 제 2 호 (2024) 204 제거하고 α 값을 1로 할 경우 이전 연구 [6] 의 허브 지 수와 같아진다. III. 실험 결과 본 장에서는 제안한 적합도 기반 가변 쌍별 유사 도와 기존 상수 쌍별 유사도의 커버곡 검색 성능을 비교하였다. 커버곡 성능 비교를 위해서 음원 및 성 능이 공개되어 있는 covers80 데이터셋과 자체적으 로 수집한 covers330 데이터셋을 사용하였다. 미국 콜롬비아 대학에서 커버곡 실험을 위해서 수집된 covers80 데이터셋은 원본곡과 커버곡 쌍 80개로 이 루어진 것으로 모두 160곡으로 구성되어있다. [10] 자 체적으로 수집한 covers330 데이터셋은 1000곡으로 이루어져 있으며, 330곡은 커버곡 실험용도로 30개 의 원곡과 각 원곡당 10가지 커버곡 버전으로 구성 된다. 나머지 670곡은 검색 성능을 평가하기 위해서 사칭자(imposter)로 삽입되었다. 커버곡 검색 성능 지표로 covers80 데이터셋에서 는 각 커버곡을 80곡의 원곡 데이터셋과 비교하여 가장 거리가 가까운 것이 입력 커버곡의 원곡이 맞 을 경우의 확률인 P@1을 구하였다. covers330 데이터 셋에 대해서는 커버곡 실험용 330곡 각각을 1000곡 데이터셋 전체에 대해서 비교를 수행하여 자신을 제 외하고 거리가 가까운 10곡 중 커버곡이 맞는 곡의 개수인 MNCI 10 을 구하였다. 두 데이터셋 모두에 대 해서 검색에 첫 번째로 성공한 커버곡의 검색 순위 를 평균한 Rank 1 과 Mean of Average Precision(MAP)를 구하였다. 실험대상 음악들로부터 크로마그램 수열을 얻는 다양한 방법들 중에서 최근 우수한 성능을 보이는 것으로 알려진 Convolutional and Recurrent Estimators for Music Analysis(CREMA) [11] 특징을 사용하였다. CREMA는 음악 코드 분석을 위해서 만들어진 딥러 닝 모델로부터 얻어진다. 실험에 사용되는 음악 파 일들을 모노로 바꾸고 22,050 Hz로 샘플링 주파수를 맞춘 후, 4,410길이의 윈도우를 50 %씩 겹쳐 가면서 프레임의 피치를 구해서 옥타브 단위로 나누고 각 옥타브에서 12개의 크로마에 해당하는 값들을 구한 다. 옥타브별로 얻어진 크로마 값을 다 더하면 최종 적으로 12차수의 크로마그램 벡터가 얻어진다. 얻어 진 크로마그램 수열을 리샘플링해서 0.5 s당 1개씩의 12차 크로마그램벡터가 나오도록 했다. 음원데이터셋 covers80과 covers330에서 Eq. (12)에 서 적합도를 정규화하는 로지스틱 함수의 파라미터 값을 가변시켜가면서 커버곡 검색 성능을 확인하고 데이터셋 별로 Tables 1과 2에 각각 정리하였다. 로지 스틱 함수 파라미터 κ는 10에서 30까지 가변하였으 며, α는 0.25에서 1까지 가변하였다. Tables 1과 2에서 고려한 파라미터 값 변이 영역 밖에서는 성능이 감 소하였다. covers80 데이터셋에서는 κ가 큰 값일 때 Table 1. Cover song identification performance of the covers80 dataset. Accuracy measures are the average rank of the first correctly identified cover, Rank 1 , precision at one, P@1, and the mean of average precision, MAP. MethodκαRank 1 P@1MAP OTI-SW based on relevance weight W 1 100.2513.51 0.688 0.734 100.513.83 0.688 0.729 100.7514.51 0.681 0.722 10114.82 0.681 0.715 200.2513.35 0.688 0.734 200.513.69 0.688 0.729 200.7514.09 0.694 0.729 20113.99 0.675 0.717 300.2513.39 0.688 0.734 300.513.63 0.694 0.733 300.7513.82 0.706 0.736 30113.82 0.681 0.722 OTI-SW based on relevance weight W 2 100.2513.59 0.694 0.736 100.513.06 0.700 0.745 100.7513.01 0.694 0.740 10112.88 0.694 0.737 200.2513.50 0.694 0.738 200.512.95 0.706 0.746 200.7512.60 0.694 0.738 20112.54 0.700 0.739 300.2513.51 0.694 0.738 300.512.84 0.706 0.747 300.7512.42 0.706 0.744 30112.18 0.700 0.740 OTI-SW (Hubness) [6] 11.940.7060.744 OTI-SW (Original) [2] 14.500.6560.712커버곡 검색 정확도 향상을 위한 적합도 기반 크로마그램 쌍별 유사도 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 205 성능이 더 개선되었으나, covers330 데이터셋 에서는 작은 값일 때 더 좋은 성능을 보였다. 다만 고려한 파 라미터 변이 영역 내에서 큰 성능 차이는 보이지 않 았으므로, 제안된 방법을 실제 적용 시 다른 데이터 셋을 사용하더라도 고려한 영역 내의 로지스틱 함수 파라미터 값 중 선택하여 사용하면 될 것으로 보인 다. 2.2절에서 언급한 바와 같이 기존 허브 지수 기반 방법은 W 2 와 유사한 수식 형태를 가지게 되어 비슷 한 성능을 보이는 것을 확인할 수 있다. 가중치를 구 하는 방법 간의 비교를 보면, 커버곡 인식 2형 적합도 인 W 2 를 가중치로 사용하는 것이 커버곡 인식 1형 적 합도 W 1 을 사용하는 것에 비해서 조금 더 우수한 검 색 성능을 보였다. 제안한 가중치 기반 크로마그램 쌍별 유사도는 MAP를 기준으로 두 데이터셋 모두에 서 기존 고정값 기반 유사도에 비해서 커버곡 검색 성능을 4.9 % 개선시키는 것을 관찰하였다. IV. 결 론 커버곡 검색을 위한 크로마그램 쌍별 유사도를 확 률 적합도 모델로부터 구한 가중치를 이용하여 구하 였다. 커버곡 검색에 도움이 될 수 있는 분별도가 높 은 벡터에 높은 가중치를 부여하고, 흔하게 존재하 여 분별도가 떨어지는 벡터에 낮은 가중치를 부여한 다. 두 가지 가중치 계산 방법을 제안하였으며, 가중 치 값은 로지스틱 함수를 통해서 정규화하였다. 두 커버곡 데이터셋에서 성능 비교 실험을 수행하여, 제안한 커버곡 검색 적합도 기반 음악 유사도가 커 버곡 검색 성능을 향상시킬 수 있음을 보였다. 감사의 글 본 연구는 문화체육관광부 및 한국콘텐츠진흥원 의 2023년도 문화기술 연구개발 사업으로 수행되었 음(과제명 :딥러닝을 활용한 고속 음악 탐색 기술 개 발, 과제번호 : CR202104004) References 1.F. Yesiler, G. Doras, R. M. Bittner, C. J. Tralie, and J. Serra, “Audio-based musical version identification: Elements and challenges,” IEEE Signal Proc. Mag. 38, 115-136 (2021). 2.J. Serra, E. Gomez, P. Herrera, and X. Serra, “Chroma binary similarity and local alignment applied to cover song identification,” IEEE Trans. Audio Speech Lang. Process, 16, 1138-1151 (2008). 3.J. Seo, “A code-based chromagram similarity for cover song identification” (in Korean), J. Acoust. Soc. Kr. 38, 314-319 (2019). 4.F. Yesiler, J. Serra, and E. Gomez, “Accurate and scal- able version identification using musically-motivated embeddings,” Proc. ICASSP, 21-25 (2020). Table 2. Cover song identification performance of the covers330 dataset. Accuracy measures are the average rank of the first correctly identified cover, Rank 1 , the mean number of covers identified within the ten first answers, MNCI 10 , and the mean of average precision, MAP. MethodκαRank 1 MNCI 10 MAP OTI-SW based on relevance weight W 1 100.256.23 7.848 0.811 100.56.61 7.897 0.816 100.756.54 7.839 0.814 1016.47 7.745 0.807 200.256.23 7.861 0.812 200.56.64 7.864 0.814 200.756.13 7.782 0.807 2015.84 7.612 0.791 300.256.23 7.864 0.812 300.56.52 7.833 0.812 300.755.79 7.688 0.801 3015.17 7.467 0.779 OTI-SW based on relevance weight W 2 100.256.42 7.797 0.806 100.56.52 7.909 0.815 100.756.57 7.918 0.818 1016.48 7.924 0.819 200.256.47 7.812 0.807 200.56.72 7.888 0.815 200.756.67 7.876 0.816 2016.45 7.852 0.815 300.256.45 7.827 0.807 300.56.64 7.879 0.814 300.756.41 7.830 0.813 3016.01 7.800 0.809 OTI-SW (Hubness) [6] 6.497.9240.818 OTI-SW (Original) [2] 8.037.5120.781서진수 한국음향학회지 제 43 권 제 2 호 (2024) 206 5.T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol. 147, 195-197 (1981). 6.J. Seo, “Pairwise similarity normalization based on a hubness score for improving cover song retrieval accuracy,” IEICE Trans. Information and Systems, 105, 1130-1134 (2022). 7.S. Robertson and K. S. Jones, “Relevance weighting of search terms,” J. Am. Soc. Inf. Sci. 27, 129-146 (1976). 8.S. Robertson, “Understanding inverse document fre- quency: on theoretical arguments for IDF,” J. Docu- mentation, 60, 503-520 (2004). 9.S. Robertson and S. Walker, “On relevance weights with little relevance information,” Proc. SIGIR, 16-24 (1997). 10.Covers80 Cover Song Data Set, Available, https://lab rosa.ee.columbia.edu/projects/coversongs/covers80/, (Last viewed March 12, 2024). 11.B. McFee and J. P. Bello, “Structured training for large-vocabulary chord recognition,” Proc. ISMIR, 188-194 (2017). 저자 약력 ▸서 진 수 (Jin Soo Seo) 1998년 2월 : KAIST 전기 및 전자공학과 공 학사 2000년 2월 : KAIST 전기 및 전자공학과 공 학석사 2005년 2월 : KAIST 전기 및 전자공학과 공 학박사 2006년 3월 ~ 2008년 2월 : 한국전자통신 연구원 선임연구원 2008년 3월 ~ 현재 : 강릉원주대학교 전자 공학과 교수음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구 이대호, 이석진 표적의 이동을 고려한 강화학습 기반 무인항공기의 소노부이 최적 배치 배근영, 강주환, 홍정표 소수 불균형 데이터의 심층학습을 통한 능동소나 다층처리기의 표적 인식성 개선 류영우, 김정구 영상 패치 기반 그래프 신경망을 이용한 수동소나 신호분류 고건혁, 이기배, 이종현 벡터 양자화 변분 오토인코더 기반의 폴리 음향 생성 모델을 위한 잔여 벡터 양자화 적용 연구 이석진 이중 분기 디코더를 사용하는 복소 중첩 U-Net 기반 음성 향상 모델 황서림, 박성욱, 박영철 2024 한국음향학회지 특집호 “지능형 음향 신호처리” 특집호 편집위원장: 이석진 교수(경북대학교) The Journal of The Acoustical Society of KoreaThe Journal of The Acoustical Society of Korea음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구 A study on improving the performance of the machine-learning based automatic music transcription model by utilizing pitch number information 이대호, 1 이석진 1† (Daeho Lee 1 and Seokjin Lee 1† ) 1 경북대학교 전자전기공학부 (Received January 23, 2024; accepted February 16, 2024) 초 록: 본 논문은 기계학습 기반 자동악보전사 모델의 입력에 음악적인 정보를 추가하는 방법을 통해 원하는 성능 향상을 얻는 방법을 다루었다. 여기서, 추가한 음악적인 정보는 각 시간 단위마다 발생하는 음고 개수 정보이며, 이는 정답지에서 활성화되는 음고 개수를 세는 방법으로 획득한다. 획득한 음고 개수 정보는 기존 모델의 입력인 로그 멜-스 펙트로그램 아래에 연결하여 사용했다. 본 연구에서는 네 가지 음악 정보를 예측하는 네 종류의 블록이 포함된 자동악 보전사 모델을 사용하였으며, 각 블록이 예측해야하는 음악 정보에 해당하는 음고 개수 정보를 기존의 입력에 추가해 주는 간단한 방법이 모델의 학습에 도움이 됨을 확인했다. 성능 개선을 검증하기 위하여 MIDI Aligned Piano Sounds (MAPS) 데이터를 활용하여 실험을 진행하였으며, 그 결과 모든 음고 개수 정보를 활용할 경우 프레임 기준 F1 점수에 서 9.7 %, 끝점을 포함한 노트 기준 F1 점수에서 21.8 %의 성능 향상을 확인하였다. 핵심용어: 자동악보전사, 기계학습, 음고 개수 정보, 다성전사 ABSTRACT: In this paper, we study how to improve the performance of a machine learning-based automatic music transcription model by adding musical information to the input data. Where, the added musical information is information on the number of pitches that occur in each time frame, and which is obtained by counting the number of notes activated in the answer sheet. The obtained information on the number of pitches was used by concatenating it to the log mel-spectrogram, which is the input of the existing model. In this study, we use the automatic music transcription model included the four types of block predicting four types of musical information, we demonstrate that a simple method of adding pitch number information corresponding to the music information to be predicted by each block to the existing input was helpful in training the model. In order to evaluate the performance improvement proceed with an experiment using MIDI Aligned Piano Sounds (MAPS) data, as a result, when using all pitch number information, performance improvement was confirmed by 9.7 % in frame-based F1 score and 21.8 % in note-based F1 score including offset. Keywords: Automatic music transcription, Machine learning, Pitch number information, Polyphonic traanscription PACS numbers: 43.10.Vx, 43.50.Ed 한국음향학회지 제43권 제2호 pp. 207～213 (2024) The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) https://doi.org/10.7776/ASK.2024.43.2.207 pISSN : 1225-4428 eISSN : 2287-3775 †Corresponding author: Seokjin Lee (sjlee6@knu.ac.kr) School of Electronics Engineering, Kyungpook National University, 80 Daehak-ro, Buk-gu, Daegu 41566, Republic of Korea (Tel: 82-53-950-5523, Fax: 82-53-950-5505) Copyrightⓒ2024 The Acoustical Society of Korea. This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited. 207이대호, 이석진 한국음향학회지 제 43 권 제 2 호 (2024) 208 I. 서 론 자동악보전사는 원시 오디오 입력을 자동적으로 악보와 같은 음성 기호로 변환하여 표기해주는 기법 이다. 원시 오디오를 음성 기호로 변환하기 위하여 필 수적으로 필요한 정보는 음고, 음고의 시작점(onset) 과 끝점(offset)이다. 또한, 시작점과 끝점 사이의 음고 가 지속되는 부분인 프레임과 건반을 누르는 속도인 벨로시티를 추가해주면 조금 더 자연스러운 소리로 악보를 변환할 수 있다. Peeling et al. [1] 은 오디오 신호를 베이지안 확률 모 델을 기반으로 해석하여 고전적인 자동악보전사 기 법을 제안했다. 오디오 신호는 스펙트로그램으로 변 환한 후 행렬 분해(Matrix Factorization)를 이용해 음 고와 벨로시티의 곱으로 표현 가능하며, Peeling et al. [1] 은 기댓값 최대화 알고리즘을 사용해 획득한 확 률 변수를 이용하여 분해된 음고와 벨로시티를 예측했 다. 전통적인 신호처리 기법을 통한 방법을 기반으로 한 자동악보전사 기법은 Su와 Yang [2] 이 소개했다. 한 시점에 동시에 발생하는 음고를 추정하기 위해 스펙트 럼과 캡스트럼을 비교하여 기본 주파수와 기본 주기가 공존할 경우 음고의 활성화 여부를 판단했다. Vincent et al. [3] 은 비음수 행렬 분해(Non-negative Matrix Factori- zation, NMF) 방법을 이용한 자동악보전사를 연구하 였다. 기존의 비음수 행렬 분해를 통한 자동악보전사 에서는 추정된 기본 스펙트럼이 불확실하다는 문제 가 존재하였으나, 각 기본 스펙트럼을 협대역 스펙트 라의 가중 합으로 표현하여 개선했다. 자동악보전사 기술은 전통적인 방식을 통해 해결 하기에 어려운 문제였으며, 실제로 숙련된 작곡가나 연주자들에게도 어려운 문제였다. 그렇기에, 최근 기 계학습을 이용한 자동악보전사에 대한 연구가 전통 적인 방법에 비해 활발히 이루어지고 있다. 기계학습 기반 자동악보전사에서 처음으로 성공적인 결과를 Böck과 Schedl [4] 가 보여주었으며, 입력으로 시간과 주파수 각각의 분해능에 중점을 두기 위하여 다른 윈도우 크기로 변환한 두 개의 스펙트로그램을 사용 했다. 또한, 양방향 장단기 메모리(Bidirectional Long Short-Term Memory, Bi-LSTM)를 사용하여 시계열 데 이터인 오디오 신호의 시계열 정보를 분석할 수 있었 다. Sigtia et al. [5] 는 종단간 구조(end-to-end architecture) 를 기반으로 하는 자동악보전사를 위해 음향과 더불 어 언어 모델을 함께 학습할 수 있는 방법을 보여줬 다. 또한 심층 신경망(Deep Neural Network, DNN), 순 환 신경망(Recurrent Neural Network, RNN), 합성곱 신 경망(Convolutional Neural Network, CNN)을 이용해 각 신경망에 대한 자동악보전사의 결과를 분석하였 다. 합성곱 신경망은 이미지를 처리하는데 두각을 보인 신경망 구조이기 때문에, 단독으로 사용할 경 우 자동악보전사에 완벽히 부합하는 네트워크는 아 니며, 순환 신경망은 시계열 데이터를 분석하는데 용이한 네트워크로 음향 데이터 분석에는 적합하나 뛰어난 성능을 보여주진 못했다. Hawthorne et al. [6] 은 이러한 문제점들을 보안하기 위해 합성곱 신경망과 순환 신경망을 연결하여 기계학습 기반 자동악보전 사 모델을 구성했다. 해당 네트워크는 다른 구조와 비교했을 때, 월등한 성능을 보여주었으며, 특히 시 작점과 프레임을 추정하는 성능이 뛰어났다. 하지 만, 끝점 추정에 대한 성능이 여전히 부족하다는 문 제점이 존재하며, 이러한 문제점은 끝점이 발생하는 시간대와 비슷한 시간대에 발생하는 프레임의 추정 또한 불안정하게 만들어 프레임 예측 성능을 저하시 키는 요소가 된다. 앞선 연구들에서는 기계학습 기반 자동악보전사 모델의 성능을 평가할 때, 주로 프레임 성능에 주목 하고 프레임 성능에 비해 다소 낮은 끝점 성능은 간 과하였다. 하지만, 프레임 성능을 향상시키기 위해 서는 끝점 성능 향상이 필수적이며, 이를 위한 방법 에 대한 연구가 필요하다. 기계학습 모델은 인간의 뇌가 학습하는 방식을 본떠 만들어졌기 때문에, 인 간이 판단할 때 유용한 정보는 기계학습 모델의 학 습에도 도움을 줄 것으로 판단된다. 만일, 사람에게 여러 음이 섞여 있는 화음을 들려준 후 섞여 있는 음 의 음고를 분리하라는 문제를 준다면, 아무 정보가 없을 때보다 몇 개의 음이 섞여 있는지 알고 있을 때 더 쉽게 문제를 해결할 수 있다. 이와 관련하여, 비음 수 행렬 분해를 기반으로 한 자동악보전사에 대한 Smaragdis와 Brown [7] 의 논문에서 관련된 내용에 대 한 근거가 존재한다. 비음수 행렬 분해 기법에서 비 음수 행렬을 두 개의 비음수 행렬로 분해할 때, 기저 음고 개수 정보 활용을 통한 기계학습 기반 자동악보전사 모델의 성능 개선 연구 The Journal of the Acoustical Society of Korea Vol.43, No.2 (2024) 209 벡터는 분해되는 행렬의 크기를 결정한다. 자동악보 전사에 비음수 행렬 분해를 적용할 경우, 스펙트로 그램이 비음수 행렬이라고 가정한다면 스펙트로그 램을 각각 시간과 주파수에 관한 비음수 행렬로 분 해할 수 있다. 이 때, 분해되는 행렬은 기저 벡터의 크 기만큼 주파수 조합의 개수를 나타낼 수 있다. 즉, 기 저 벡터가 3이라면 분해된 비음수 행렬은 세 가지 조 합의 단일 주파수나 주파수 합을 표현할 수 있다. 또 한, 기저 벡터는 비음수 행렬 분해 기반 자동악보 전 사에서 알고리즘의 성능에 다음과 같은 영향을 준 다. 기저 벡터가 표현될 주파수 조합의 개수와 같을 때, 비음수 행렬 분해 기반 자동악보전사 모델은 최 고의 성능을 보여준다. 하지만, 기저 벡터와 표현될 주파수 조합의 개수와 다른 경우, 모델이 음고를 추 정할 때 오류가 더 많이 발생한다. 이러한 기저 벡터 에 대한 연구는 Lee [8] 가 진행하였으며,비음수 행렬 분해 기반 자동악보전사 모델의 기저 벡터를 추정하 는 연구를 진행하였다. 이러한 기저 벡터 추정 연구 는 음고 개수 정보와 유사한 정보를 포함하고 있다. 본 논문에서는 기계학습 기반 자동악보전사 모델 의 끝점 추정 성능 향상을 위해 자동악보전사 모델 입력으로 원시 오디오를 변환한 로그 멜-스펙트로 그램에 음고 개수 정보를 추가하여 사용했다. 기존 입력에 음고 개수 정보를 추가하는 단순한 방법만으 로도 모델의 성능 향상을 확인할 수 있었다. 논문의 구성은 다음과 같다. II장에는 기준 모델에 대한 설명 을 서술하였고, III장에 제안하는 방법인 음고 개수 정보에 대한 설명과 이를 추가하는 방법에 대하여 서술하였으며, IV장에는 자세한 실험 및 평가 방법 을 나타내었고, V장에서는 결론 및 향후 연구 방향 에 대해 논의하였다. II. 기계학습 기반 자동악보전사 본 연구에서 기준 모델로 사용한 자동악보전사 모 델은 Hawthorne et al. [6] 의 onsets and frames이며, 이는 기계 학습 기반 자동악보전사 모델 중 성능이 우수 한 모델로 알려져 있다. 기준 모델의 구조는 합성곱 신경망(Convolutional Neural Network, CNN), 완전 연 결 계층(Fully Connected Layer, FC layer)과 양방향 장 단기 메모리를 연결하여 구성되어 있다. 기준 모델 은 총 네 가지 정보를 예측하며, 이는 시작점, 프레임, 끝점, 벨로시티이다. 기준 모델은 각 시간 단위마다 88개의 음고 중에서 활성화되는 음고를 예측하며,                ∈ × 형태로 표현된 다. 여기서 T는 멜-스펙트로그램으로 변환된 신호의 시간 단위의 수를 나타내며, 88개의 음고는 피아노 건반의 음고 개수를 기준으로 설정하였다. 기준 모 델은 Fig. 1과 같이 네 가지 정보를 예측하기 위해 네 개의 블록으로 구성되어 있다. 프레임 정보는 네 가 지 정보 중에서 다른 정보에 비해 많은 비중을 차지 하여 더 중요한 정보라고 판단되어, 프레임에 관한 블록은 더 정확한 프레임 예측을 위해 시작점과 끝 점의 예측 정보를 사용하도록 구성되어 있다. 기준 모델의 입력은 원시 오디오를 로그 멜-스펙트로그 램 형태로 변환하여 사용하며, 이를 각 블록의 입력 으로 넣어준다. 여기서 멜-스펙트로그램은 229개의 로그 간격 주파수 빈, 512의 홉 길이, 2048의 윈도우 길이를 사용하여 변환되었으며, 변환된 신호의 크기 는   ∈ × 와 같다. 기준 모델은 프레임의 정확한 예측을 위한 모델 구성을 하였기 때문에, 프레임에 대한 뛰어난 예측 성능을 보여주었으나 끝점 예측은 상반된 결과를 보 여주었다. 기준 모델을 통해 예측된 정보들을 살펴 Fig. 1. (Color available online) Diagram of baseline model architecture. [6]Next >