WELCON < 한국콘텐츠진흥원

WELCON

WELCON

단축 URL

안내

현재 페이지의 URL 주소입니다. Ctrl+C를 눌러 클립보드에 복사하세요.

QR 코드

생성된 QR코드는 스마트폰 앨범 또는 PC에저장됩니다.

QR코드저장

[CT심층리포트] 음성인식 기술의 동향과 전망

분야일반
장르일반
등록일2011-12-07
조회22058

2011_CT심층리포트_11월호.pdf

출처표시 + 상업적 이용금지 + 변경금지

공공누리 제 4유형(출처표시 + 상업적 이용금지 + 변경금지)에 따라 이용 가능 한국콘텐츠진흥원의 창작물과 대상 저작물은 "공공누리4유형(출처표시+상업적 이용금지+변경금지)" 조건에 따라 저작물의 출처를 표시하여야 하며, 비상업적 이용만 가능하고 변형등 2차적 저작물 작성을 금지합니다.

[CT심층리포트] 음성인식 기술의 동향과 전망 표지

이달의 이슈 : 음성인식 기술의 동향과 전망

1. 들어가며: IT 업계의 ‘Next Big Thing’으로 부상하고 있는 음성인식 기술

￭ 인간의 말을 인식해 텍스트로 바꿔주거나 해당 명령을 수행하는 ‘음성인식(speech recognition)’ 기술이 IT 업계의

‘Next Big Thing’으로 부상하고 있음

- 음성인식은 사람이 일생생활 속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기 및 정보 서비스의

이용을 제어할 수 있는 기술로, 1950년대 등장해 지속적인 연구가 진행되어 왔지만 2000년대 중반까지 낮은 음성 인식률로

대중화되지 못함

- 지금까지 특수한 용도에만 제한적으로 사용되어왔던 음성인식 관련 기술들은 최근 스마트폰으로 대표되는 휴대용 컴퓨팅

단말의 확산과 이를 지원해줄 클라우드 인프라의 확충이 맞물려 급속도로 발전하고 있음

- 특히 얼마 전 애플(Apple)社가 공개한 ‘아이폰 4S(iPhone 4S)’에 탑재된 음성인식 기능 ‘시리(Siri)’가 공개되면서 음성인식

서비스에 대한 관심이 고조되고 있음

￭ 음성인식 기술 관련 세계 시장 규모는 2005년 11억 달러에서 2010년 30억 달러로 성장한 데 이어 2013년에는 54억 달러까지

성장할 것으로 전망됨

- 국내 음성인식 시장도 2010년 1,800억 원에서 2012년 3,900억 원으로 매년 47%씩 성장할 것으로 기대를 모으고 있음1)

Table 1. 세계 음성인식 시장규모 성장 추이 표. 자세한 사항은 첨부파일 참조

￭ 아직 인간의 모든 언어 표현을 이해하는 음성인식 기술은 개발되지 못했지만, 비교적 정형화된 문장이나 일정 범위의 어휘로

한정될 경우 현존 기술로도 높은 정확도를 담보할 수 있다는 측면에서 상당한 수준의 기술적 진보를 달성함

- 네트워크와 컴퓨팅 기술의 발달로 음성 인식률이 개선되었을 뿐만 아니라 정보기기가 소형화되고 이동성이 중요시되면서

음성으로 간편하게 제어할 수 있는 음성인식에 대한 수요는 더욱 증가할 것으로 전망됨

￭ 본 보고서에서는 IT 수요의 기폭제로서 빠르게 성장하고 있는 음성인식 기술의 특징 및 시장 동향을 분석하고, 향후 다양한

분야에서의 활용 가능성과 향후 전망을 모색하고자 함

2. 음성인식 기술의 역사와 특징

가. 음성인식 기술 연구의 역사 및 발전과정

￭ 음성인식 기술 연구는 1952년 미국 통신업체 에이티엔티(AT&T) 벨연구소(Bell Laboratories)의 단일 음성으로 말하는 숫자

인식 시스템 ‘오드레이(Audrey)’ 개발을 통해 시작됨

- 1963년 IBM은 세계 최초로 음성을 통해 16개의 영어단어를 인식할 수 있고 간단한 숫자 계산이 가능한 ‘슈박스(Shoebox)’

라는 장비를 공개함

Figure 1. IBM의 음성인식 시스템 '슈박스'

- 이후 미국, 영국, 일본, 소련 등의 국가 연구소들이 인간의 발화를 인식하는 전용 하드웨어를 개발해 4개의 모음과 9개의

자음을 지원하는 수준까지 음성인식 기술을 확장시킴

￭ 1971년부터 76년까지 美국방부 산하 국방첨단연구사업국(DARPA)은 음성인식 연구역사상 가장 큰 프로젝트 중 음성이해

연구(Speech Understanding Research) 프로그램을 진행함2)

- 민간에서 연구된 많은 음성인식 프로그램들이 공개되지 않은 반면, 국방과 관련한 음성인식 프로젝트들은 다수가 개방적으

로 논의됨

￭ 1980년대 초 음성인식 기술은 인식할 수 있는 단어가 1,000단어에서 1만 단어까지 늘어나면서 군사용, 로봇, 건강 분야 등에

널리 활용됨

- IBM은 통계적 기법을 이용한 대규모 음성인식 시스템 ‘은닉 마르코프 모델(Hidden Markov Model, HMM)3)’을 개발하였는

데, 이 방식을 통해 단순하게 소리의 패턴을 찾기 보다는 음성을 모델링하고 알려지지 않은 소리도 단어가 될 수 있는 가능

성을 고려하기 시작함

￭ 1990년대는 음성인식 기술이 최초로 상용화된 시기로, 드래곤(Dragon)社는 낱말단위의 인식과 표현이 가능한 소비자용

음성인식 제품 ‘드래곤 딕데이트(Dragon Dictate)’를 출시함

- 1996년에는 벨사우스(BellSouth)社가 최초의 전화번호 안내 서비스를 시작, 다이얼인(Dial-In) 방식으로 소비자가 수화기

에 대고 말한 내용을 기반으로 정보를 제공함

- 1997년에는 연속적인 발화를 인식할 수 있는 음성인식 애플리케이션 ‘드래곤 내추럴리스피킹(Dragon NaturallySpeaking)’

이 출시되기도 함

￭ 도코 공업대학의 사다오키 후루이(Sadaoki Furui) 박사는 음성인식 기술의 발전 동향을 1세대에서 5세대로 구분하고 세대별

특징을 아래와 같이 기술함

Table 2. 음성인식 기술의 발전과정

※ 자세한 내용은 첨부(PDF)화일을 참고하시기 바랍니다.

이전글 CT심층리포트 다음글 [CT심층리포트] 3D입체영상은 홀로그램으로 진화 중, 관련 기술동향과 활용사례