INFORMATION
탐색 건너뛰기 링크입니다.
RESEARCH
Y.J.KIM,  Dept. of  Computer Engineering, Hanbat National University
   Domestic Journal
 GAN을 이용한 음성감정인식 모델의 성능개선
Performance Improvement of Speech Emotion Recognition Model Using Generative Adversarial Networks
   고유정,김윤중
 

최근 딥 러닝 모델의 발전에 따라 음성 감정 인식 모델의 성능 개선이 이루어지고 있으나 충분한 학습 데이터 확보의 어려움은 여전히 성능 개선의 저하 요인이다. 본 논문은 Generative Adversarial Network(GAN)으로 부정 감정 데이터를 생성하여 부정 데이터 학습을 추가함으로써 음성 감정 인식 모델의 성능을 개선하는 방법을 제안한다. 제안된 시스템은 감정 인식 판별기, 감정 신호 생성기로 구성되어 있다. 생성기는 부정 감정신호와 부정 레이블을 만들어 학습 데이터 셋을 보완하고, 판별기는 실제 감정 신호와 부정 감정 신호가 포함된 학습 데이터 셋으로 훈련된다. 실험은 IEMOCAP 데이터 셋을 사용하였고 다양한 인식 모델을 구성하여 인식률을 비교한 결과 GAN을 추가한 감정 인식기가 BLSTM과 Attention을 이용한 감정 인식 모델에 비해 1.86% 더 정확한 예측을 제공하는 것으로 나타났다.

Recently, with the development of the deep learning model, the performance of the voice emotion recognition system has been improved. However, the difficulty of obtaining sufficient training data is still a deterioration factor of the performance improvement. In this paper, we propose a method to improve the performance of speech emotion recognition model by generating negative emotion data and adding negative data learning using Generative Adversarial Network (GAN). The proposed system consists of emotion recognition discriminator and emotion signal generator. The generator complements the learning dataset by creating negative emotion signals and negative labels. The discriminator is trained with a learning dataset that includes real and negative emotion signals. In the experiment, the IEMOCAP data set was used, and the recognition rate was compared by constructing various recognition models and it was shown that the emotion recognizer with GAN provides 1.86% more accurate prediction than the emotion recognition model using BLSTM and Attention.

https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09263040

 
한국정보기술학회논문지 제17권 제11호(JKIIT, Vol.17, No.11)  
  2019-12-15/2020-01-08/김윤중