INFORMATION
탐색 건너뛰기 링크입니다.
RESEARCH
Y.J.KIM,  Dept. of  Computer Engineering, Hanbat National University
   Master Dissertation
 프레임 단위 특징과 발음 단위 특징을 통합하는 심층 RNN을 이용한 음성감정인식시스템의 개발
   김정래
 
  • 사람과 사람 또는 사람과 컴퓨터 사이에서 이루어지는 오디오 정보전달 방식에는 명시적(explicit) 채널과 암시적(implicit) 채널인 두 가지 정보전달 채널이 있다. 명시적 채널은 언어와 같이 구체적인 명시적 정보를 전달하는 채널이고, 암시적 채널은 명시적 메시지로 전달이 불가능한 감정과 같은 암시적 정보를 전달하는 채널이다. 음성인식연구에서는 음성을 문자 메시지로 변화하는데 주안점을 주어왔고 감정의 정보는 고려되지 못하여왔다. 좀 더 자연스러운 인간중심의 HCI, (Human-Computer Interface)를 위해서는 명시적인 메시지 전달 뿐만 아니라 암시적인 감정의 전달을 위한 감정인식기술이 필요하다.
    고전적인 감정음성인식은 일반적인 음성인식방식인 HMM-GMM을 이용하여 진행해왔다. 음성인식시스템에서 사용되는 MFCC와 HMM-GMM 구조를 이용하여 감성별로 모델을 생성하는 방식을 이용하여 명시적 정보가 포함되게 하였고, MFCC, 에너지, 발음 속도를 감성인식용 특징으로 사용하는 방식을 제안하고 실험을 통하여 유효성을 검증하였다. 처리과정은 감성음성데이터베이스의 음성신호로부터 발음속도를 포함한 감성특징을 추출하여 감성모델을 생성한다. 인식과정에서는 입력신호로부터 감성특징을 추출하고 준비된 감성모델과 확률을 계산하여 감성을 인식한다.
    이 후 딥러닝의 발전에 따라 RNN, DNN을 이용하는 심층학습 방법으로 감정을 인식하는 연구가 진행되었으나 EMO-DB 또는 IEMOCAP 음성감정데이터베이스에서 인식률이 60%수준이다.
    본 논문에서는 음성감정을 인식 성능을 제고하기 위하여 심층 RNN, DNN으로 구성되는 통합 아키텍처를 제안하고 실험을 통하여 우수한 성능을 확인하였다. 통합 아키텍처는 프레임 단위 특징을 학습을 위한 심층 RNN, DNN 모델과 발음 단위 특징을 학습하기 위한 DNN 모델을 통합하는 구조로 제안되었다. 이 논문에서 실험에 사용된 데이터베이스는 화남, 지루함, 혐오, 불안, 행복, 슬픔 및 중립 총 7가지 감정 상태를 가진 독일 베를린 감정음성데이터베이스(EMO-DB)이다. 학습 및 검증을 위하여 EMO-DB를 7:3으로 분리하였으며, 특징은 MFCC 39차의 프레임 단위 특징과 2808 차원의 발음 단위 통계 특징을 사용하였다.
    통합음성감정인식시스템은 프레임 단위로 인식한 결과, 발음 단위로 인식한 결과보다 우수한 78.26%의 인식률을 보임을 확인하였다. 감정 분포별 인식률 정확도는 슬픔이 가장 높았으며, 화남, 불안함, 지루함, 중립, 행복, 혐오의 순서로 정확도가 낮아짐을 확인할 수 있었다.
  • There are two types of information delivery channels that are explicit and implicit in the way audio information is transmitted between a person and a person or between a person and a computer. An explicit channel delivers concrete explicit information, such as a message, and an implicit channel carries implicit information such as emotions that can not be conveyed by an explicit message. Speech recognition research had focused on changing voice to text message, and emotion information had not been considered. Nowadays, for a more natural human-computer interface (HCI), emotional recognition technology is needed to convey implicit emotions as well as explicit message delivery.
     Classical speech emotional recognition has been conducted using HMM-GMM, it is a general speech recognition method. It adopts the method of generating the model for each emotion using the MFCC and HMM structure used in the speech recognition system, and includes explicit information and implicit information such as MFCC, energy, and pronunciation speed. It generate emotion specific model by the voice signal of emotion speech database. In the recognition process, the emotion feature is extracted from the input signal and the emotion is recognized by calculating the prepared emotion model and probability.
     After that, as a result of deep learning, emotional recognition studies were carried out using a deep learning method using RNN and DNN, but the recognition rate is about 60% in the EMO-DB or IEMOCAP speech emotion database.
     In this paper, we propose an architecture that merges RNN and DNN in order to improve the recognition accuracy rate. The database used is EMO-DB(the German Berlin Emotional Speech Database) with seven emotional states(angry, boredom, disgust, anxiety, happiness, sadness and neutrality respectively). It divided for learning and validation into 7:3, and the frame level features is used MFCC 39 dimension and the utterance level feature is used 2808 dimension statistical features.
     In this paper, we have confirmed that the merged speech recognition system recognizes 78.26% better than the result of recognition others.
  • 석사논문
    • 프레임 단위 특징과 발음 단위 특징을 통합하는 심층 RNN을 이용한 음성감정인식시스템의 개발
    • Development Of Sound Emotion Recognition based on RNN Combining Frame level features with Utterance level features
  • 주제어
  • 지도교수
    • 김윤중
 
학위논문(석사)-- 한밭대학교 정보통신전문대학원 : 컴퓨터공학과 2018. 8  
  2018-08-25/2019-12-24/김윤중