INFORMATION
탐색 건너뛰기 링크입니다.
RESEARCH
Y.J.KIM,  Dept. of  Computer Engineering, Hanbat National University
   Phd Dissertation
 Voice Browser용 음성인식 시스템 개발
   홍인숙
 

음성처리기술, 전화기술 및 웹 기술이 발달함에 따라 이를 결합하여 음성 응용 프로그램을 웹에서 처리하고자 하는 Voice Browser의 필요성이 대두되었고 음성 합성 및 인식 기술의 발전으로 Voice Browser의 개발 연구가 가속화되고 있다. W3C에서는 Voice Browser에 대한 표준화를 진행하고 있으며 이를 위한 음성 인터페이스 프레임워크 (Speech Interface Frame work)가 정의되었다.
W3C에서 제안한 SIF에서는 Voice Browser가 음성 엔진을 탑재하도록 되어있다. 그러나 이 방법은 고성능의 인식 효율 및 복수의 음성인식기가 요구되는 경우에는 고비용 저효율 구조가 되고 많은 자원의 소요 및 부하가 생길 수 있다.
본 논문에서는 이러한 문제점을 해결하기 위해 기존의 SIF에 음성인식 웹 서비스를 이용한 음성인식 기능으로 수정하여 음성인식이 분산처리 되는 새로운 형태의 SIF를 제안하였다. ASR 시스템은 한국어 음성인식엔진, 발음사전 생성기 및 동적 SRGS 해석기로 구성되며 웹 서비스 환경에서 동작된다. 제안된 SIF의 ASR을 구현하기 위해 다음과 같이 음성 인식 시스템을 개발하였다.
첫째, HTK를 모듈로부터 새로운 HTK 버전을 생성하였으며, 미리 정의되는 음성인식기의 구조파일을 입력으로 음성 인식기를 일괄 생성할 수 있다. 이 방식으로 한국어 음성인식엔진을 개발하였다.
둘째, 인식 대상의 한국어 단어에 대한 음소열을 자동으로 생성해주는 발음사전 생성기를 개발하였다.
셋째, Voice Browser의 표준에 따른 Grammar Format(XML-SRGS포맷)를 주어진 인식기에서 사용하는 Grammar(EBNF포맷)로 자동으로 변환해 주는 SRGS 동적 해석기를 개발하였다.
넷째, 개발된 음성 인식기, 발음사전 생성기, SRGS 동적 해석기가 웹 서비스 형태로 동작되도록 구현하였다.
실험을 통하여 Voice Browser용 음성인식기 개발을 위한 실행 절차를 보이고 발음사전 생성기와 SRGS 동적 해석기의 입력과 출력을 분석함으로써 올바르게 발음사전과 문법 파일이 생성됨을 확인하였다. 또한 개발된 음성 인식기, 발음사전 생성기, SRGS 동적 해석기가 웹 서비스 환경에서 정상적으로 동작됨을 확인하였다.

http://www.riss.kr/search/detail/DetailView.do?p_mat_type=be54d9b8bc7cdb09&control_no=6fd2e844c39742e3ffe0bdc3ef48d419

 
홍인숙,한밭대학교 정보통신전문대학원 컴퓨터공학과 박사논문 (2011.2.25)  
  2011-02-25/2019-12-24/김윤중