본문 바로가기
공부공부공부를 합시다/논문을 읽어 봅시다

[논문읽기] ClovaCall: Korean Goal-Oriented Dialog Speech Corpusfor Automatic Speech Recognition of Contact Centers

by 뻒음 2022. 7. 4.

네이버 클로바에서 "레스토랑 전화 예약"이라는 특정한 상황을 목표로 ASR(Automatic speech recognition) 데이터를 수집(및 정제)하고 완성된 데이터의 성능을 발표한 논문이다.

한국어는 비주류 언어로 언어 및 음성 데이터가 많지 않고 영어 데이터에서도 그 수가 많지 않은 "특정한 상황에 대한 목적 지향성 언어데이터"는 특히나 거의 찾아볼 수가 없다.
네이버클로바팀은 전화응대라는 스트레스를 많이 받는 업무를 자동화하기 위한 데이터를 만들고 비목적성(혹은 조금 더 광범위한 목적을 가진) 공공데이터와 성능을 비교했다.

이 논문에서 인상깊었던 점은 다음과 같다.
1. 데이터의 수집 목적에 맞는 따라 수율이 낮은 방식으로 데이터를 수집하고 목적에 적합하지 않은 데이터는 과감히 버렸다. 11,000명의 사람들로부터 노이즈가 많이 발생할 수밖에 없는 "전화상 음성 수집"의 방법으로 데이터를 수집하고 노이즈가 많은 음성, 의도(intend)가 Top 30 밖에 있어 최종 성능을 떨어뜨릴 가능성이 있는 데이터를 삭제하여 약 61,000 pair의 데이터만 남겼다.
2. 수집된 데이터의 단어 수, 문자 수,  음소 수, 음성 길이가 정규분포를 띄지는 않지만 그와 유사한 분포를 가진다. 

3. 두 가지 다른 설명력있는 데이터(AIHub, QA Call)와 그 성능을 비교하고 과정과 결과를 자세히 밝혔다. 많은 논문들에서 놓치거나 대충 하고 넘어가는 부분이라 이건 항상 리스펙하고 내재화해야 한다고 생각해 인상깊은 점으로 넣었다. 

이 논문은 20년에 나왔는데, 요즘은 AIHub에도 특정 목적 지향적인 음성 데이터가 많다. 아주 작은 목적을 위한 데이터는 아니지만 꽤 세분화되어 나오고 있어 공부하기 좋은 것 같다.

 

음성 데이터를 수집하는 과제를 수행하고 그 결과를 발표할 때 참고하기 괜찮아보인다. 요즘 음성데이터를 수집하는 과제를 수행하는 중인데 이 논문을 기반으로 내가 수행하고 있는 작업을 다시한번 검토해 보는 것도 좋겠다.

 

 

ClovaCall: Korean Goal-Oriented Dialog Speech Corpus for Automatic Speech Recognition of Contact Centers

Automatic speech recognition (ASR) via call is essential for various applications, including AI for contact center (AICC) services. Despite the advancement of ASR, however, most publicly available call-based speech corpora such as Switchboard are old-fashi

arxiv.org

 

댓글