본문 바로가기

WELCON

[CT심층리포트] 음성인식 기술의 동향과 전망
  • 분야일반
  • 장르일반
  • 등록일2011-12-07
  • 조회21823

출처표시 + 상업적 이용금지 + 변경금지

공공누리 제 4유형(출처표시 + 상업적 이용금지 + 변경금지)에 따라 이용 가능 한국저작권위원회가 창작한 저작권 통계 이용 활성화를 위한 통계 컨설팅저작물은 “공공누리” 출처표시-상업적 이용금지-변경금지 조건에 따라 이용할 수 있습니다.

 

 

[CT심층리포트] 음성인식 기술의 동향과 전망 표지

 

 

 

이달의 이슈 : 음성인식 기술의 동향과 전망

 

 

 

1. 들어가며: IT 업계의 ‘Next Big Thing’으로 부상하고 있는 음성인식 기술


  ■ 인간의 말을 인식해 텍스트로 바꿔주거나 해당 명령을 수행하는 ‘음성인식(speech recognition)’ 기술이 IT 업계의

    ‘Next Big Thing’으로 부상하고 있음


   - 음성인식은 사람이 일생생활 속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기 및 정보 서비스의

      이용을 제어할 수 있는 기술로, 1950년대 등장해 지속적인 연구가 진행되어 왔지만 2000년대 중반까지 낮은 음성 인식률로

      대중화되지 못함


   - 지금까지 특수한 용도에만 제한적으로 사용되어왔던 음성인식 관련 기술들은 최근 스마트폰으로 대표되는 휴대용 컴퓨팅

      단말의 확산과 이를 지원해줄 클라우드 인프라의 확충이 맞물려 급속도로 발전하고 있음


   - 특히 얼마 전 애플(Apple)社가 공개한 ‘아이폰 4S(iPhone 4S)’에 탑재된 음성인식 기능 ‘시리(Siri)’가 공개되면서 음성인식

      서비스에 대한 관심이 고조되고 있음


  ■ 음성인식 기술 관련 세계 시장 규모는 2005년 11억 달러에서 2010년 30억 달러로 성장한 데 이어 2013년에는 54억 달러까지

     성장할 것으로 전망됨


   - 국내 음성인식 시장도 2010년 1,800억 원에서 2012년 3,900억 원으로 매년 47%씩 성장할 것으로 기대를 모으고 있음1)

 

Table 1. 세계 음성인식 시장규모 성장 추이 표. 자세한 사항은 첨부파일 참조

 

 

  ■ 아직 인간의 모든 언어 표현을 이해하는 음성인식 기술은 개발되지 못했지만, 비교적 정형화된 문장이나 일정 범위의 어휘로

     한정될 경우 현존 기술로도 높은 정확도를 담보할 수 있다는 측면에서 상당한 수준의 기술적 진보를 달성함


   - 네트워크와 컴퓨팅 기술의 발달로 음성 인식률이 개선되었을 뿐만 아니라 정보기기가 소형화되고 이동성이 중요시되면서

      음성으로 간편하게 제어할 수 있는 음성인식에 대한 수요는 더욱 증가할 것으로 전망됨

 

  ■ 본 보고서에서는 IT 수요의 기폭제로서 빠르게 성장하고 있는 음성인식 기술의 특징 및 시장 동향을 분석하고, 향후 다양한

     분야에서의 활용 가능성과 향후 전망을 모색하고자 함


2. 음성인식 기술의 역사와 특징


 가. 음성인식 기술 연구의 역사 및 발전과정


  ■ 음성인식 기술 연구는 1952년 미국 통신업체 에이티엔티(AT&T) 벨연구소(Bell Laboratories)의 단일 음성으로 말하는 숫자

     인식 시스템 ‘오드레이(Audrey)’ 개발을 통해 시작됨


   - 1963년 IBM은 세계 최초로 음성을 통해 16개의 영어단어를 인식할 수 있고 간단한 숫자 계산이 가능한 ‘슈박스(Shoebox)’

      라는 장비를 공개함

 

Figure 1. IBM의 음성인식 시스템 '슈박스'

 

   - 이후 미국, 영국, 일본, 소련 등의 국가 연구소들이 인간의 발화를 인식하는 전용 하드웨어를 개발해 4개의 모음과 9개의

      자음을 지원하는 수준까지 음성인식 기술을 확장시킴


  ■ 1971년부터 76년까지 美국방부 산하 국방첨단연구사업국(DARPA)은 음성인식 연구역사상 가장 큰 프로젝트 중 음성이해

     연구(Speech Understanding Research) 프로그램을 진행함2)

 

   - 민간에서 연구된 많은 음성인식 프로그램들이 공개되지 않은 반면, 국방과 관련한 음성인식 프로젝트들은 다수가 개방적으

      로 논의됨


  ■ 1980년대 초 음성인식 기술은 인식할 수 있는 단어가 1,000단어에서 1만 단어까지 늘어나면서 군사용, 로봇, 건강 분야 등에

     널리 활용됨


   - IBM은 통계적 기법을 이용한 대규모 음성인식 시스템 ‘은닉 마르코프 모델(Hidden Markov Model, HMM)3)’을 개발하였는

      데, 이 방식을 통해 단순하게 소리의 패턴을 찾기 보다는 음성을 모델링하고 알려지지 않은 소리도 단어가 될 수 있는 가능

      성을 고려하기 시작함


  ■ 1990년대는 음성인식 기술이 최초로 상용화된 시기로, 드래곤(Dragon)社는 낱말단위의 인식과 표현이 가능한 소비자용

     음성인식 제품 ‘드래곤 딕데이트(Dragon Dictate)’를 출시함


   - 1996년에는 벨사우스(BellSouth)社가 최초의 전화번호 안내 서비스를 시작, 다이얼인(Dial-In) 방식으로 소비자가 수화기

      에 대고 말한 내용을 기반으로 정보를 제공함


   - 1997년에는 연속적인 발화를 인식할 수 있는 음성인식 애플리케이션 ‘드래곤 내추럴리스피킹(Dragon NaturallySpeaking)’

      이 출시되기도 함


  ■ 도코 공업대학의 사다오키 후루이(Sadaoki Furui) 박사는 음성인식 기술의 발전 동향을 1세대에서 5세대로 구분하고 세대별

     특징을 아래와 같이 기술함

 

Table 2. 음성인식 기술의 발전과정

 

 

 

※ 자세한 내용은 첨부(PDF)화일을 참고하시기 바랍니다.