시리(Siri), S보이스, Q보이스 등 스마트폰의 음성인식 경쟁이 갈수록 치열해지고 있습니다. 단순히 검색어를 또박또박 말하던 시대를 지나서 문장을 얘기하면 그에 상응하는 답이 돌아오고, 웹과의 연동이나 길찾기 같은 문제도 해결해줍니다.

 기존보다 발전 된 단계이다 보니 신기하다거나 혹은 비교 차원에서 여러 음성인식들을 비교해보기도 하는데요, 이것을 단순히 스마트폰에 포함 된 '기능'으로 과거와 같은 선상에서 비춰지는 것이 필자는 안타깝습니다.






음성인식, 새로운 인터페이스로 봐야 할 단계


 일반 사용자들에게는 '내가 지금 얼만큼 사용할 수 있는 단계'의 수준에 밖에 미치지 못할 것입니다. 그러나 IT블로거이기에 바라보는 시점은 이 음성인식이 앞으로 어떤 영역에 들어가게 될까입니다.

 음성인식은 이제 새로운 인터페이스로 봐야합니다.




인터페이스




 우리는 현재 스마트폰에서 터치 인터페이스를 사용하고 있습니다. 이 터치 시스템은 벌써 세상에 나온지 40년이나 된 기술입니다. 이 터치 스크린에 알맞게 그래픽 요소를 배치하고 버튼을 만들어 놓은 것이 현재 사용하고 있는 터치 인터페이스입니다. 인터페이스가 시스템과 융합하여 하나의 사용 경험을 제공하게 된 것이죠.

 이 터치스크린을 이용해 키보드 타이핑도 하며, 조이스틱으로 게임도 즐길 수 있습니다. 물론 터치 인터페이스의 특성상 타이핑이 틀리는 경우도 있습니다. 그래서 화면을 직시하고 사용해야하는 단점도 존재합니다. 터치 인터페이스에 물리적인 조작감을 더하는 진동 기술은 이미 적용되어 있고, 감각을 전달하는 기술들도 현재 개발이 되고 있습니다. 이는 인터페이스를 보강하기 위한 것입니다.


 그래서 과정으로 본다면 '터치 시스템 -> 터치 인터페이스 -> 터치 인터페이스 보강'이라고 얘기할 수 있습니다.


 더 거슬러가면 마우스도 별반 다르지 않습니다. 처음 마우스가 나왔고, 이를 적용할 수 있는 그래픽 인터페이스의 컴퓨터가 등장했으며, 이후 그립감이나 휠기능, 터치 기능, 보조 키 등의 기능들이 보강되었죠.


 이런 과정을 음성인식도 똑같이 밟아가고 있습니다. '음성인식 시스템 -> 음성인식 인터페이스', 그리고 지금은 이 음성인식을 보강하는 단계입니다.




음성인식




 음성인식의 기원을 찾아가는 것은 매우 힘듭니다. 정확한 사료가 남아있질 않기 때문이죠. 이유는 애초 인간의 언어를 인식하는 수준이 아니였기 때문입니다.

 초창기 음성인식은 그냥 그 어떤 소리건 소리가 나면 파악할 수 있는 시스템이였습니다. 사람소리건 동물소리건 악기소리건 간에 소리가 나면 인식을 하는 것이였죠. 이런 기술이 지금의 데시벨 측정기 등으로 이어져 온 것입니다. 그리고 이런 인식들이 가능하자 사람의 음성을 인식하는 기술을 상상하기 시작한 것이죠.


 그렇게해서 단어의 음장을 이용하여 음성 커맨드를 인식 할 수 있는 기술이 나오게 됩니다. 현재와는 다르게 '전화 해주세요'라고 또박또박 커맨드를 입력해야 인식 할 수 있는 수준이였죠. 여기까지가 인간 언어의 음성 인식 시스템이 나오게 된 과정입니다. 즉, 이전까지의 음성인식은 단순히 기반 시스템에 불과했다는 것입니다. 스마트폰에 터치 시스템을 사용하기 전에도 은행 ATM기에 터치 스크린이 있었던 것처럼 존재하고 있었습니다.


 이제는 이 음성인식이 인터페이스의 단계를 거쳤습니다. 문장과 문맥을 인식하고, 이를 바탕으로 커맨드를 재구성 한 뒤 답을 내놓게 되었죠. 그래서 또박또박 커맨드를 입력하지 않아도 알아듣게 되었습니다. 예를 들어 과거 검색창에는 정확한 단어를 타이핑해야 했지만, 지금은 약간의 오타가 있어도 찾고자 하는 단어를 찾아주는 것처럼 변모했다는 것입니다.


 이는 음성인식이라는 인터페이스를 내놓는데에 굉장히 중요한 시점입니다. 현재 터치스크린 사용자들은 스크린이 작아서 타이핑도 힘들고 메세지를 읽는 것도 힘들다고 하자 더 큰 스크린의 스마트폰이 등장했습니다. 그렇다고해서 고질적인 터치 스크린의 단점이 사라지는 것은 아닙니다. 보강이 되긴 했지만요. 그러나 이 음성인식이 가능해지면서 타이핑도 음성으로, 메세지를 읽어주는 것도 음성이 할 수 있도록 바뀌었습니다.


 블루투스를 연결하기만 하면 굳이 커다란 휴대폰을 주머니나 가방에서 꺼내들지 않아도 일들을 수행할 수 있는, 터치 스크린을 직시하지 않아도 되도록 만드는 그런 인터페이스가 바로 '음성인식'이라는 것입니다. 이는 '인식률이 어떻니', '쓸 수 있는 기능이 몇개나 되니'보다 더욱 중요한 부분입니다.




기능으로 볼 단계를 넘어




 예전에는 '터치 기능'이라고 표현했었습니다. 지금에야 스마트폰이 터치 스크린이라는게 당연시되는 것처럼 보이지만, 과거에는 그렇지 못했다는겁니다. 그래서 '터치 기능'이 있다라고 광고를 하곤 했죠. 터치 스크린이 통용되는 시점에서는 이제 인터페이스 경쟁으로 돌입하게 됩니다. 그것은 기능의 단계를 넘어 새로운 사용자 경험을 창출하는 단계로 넘어왔다는 것이죠.


 음성인식도 이제는 그런 단계입니다. 단순히 음성인식 기능이 포함된 것이 아니라 이를 어떤 인터페이스 구조로 만들어 낼 것인가를 제조사들은 고민을 해야하고, 사용자들이 이 인터페이스의 가능성을 보고 제품을 선택 할 수 있어야 할 것입니다.


 애플은 이번 Mac OS X 마운틴 라이언에 음성인식을 활용한 타이핑 기술인 딕테이션을 추가하였고, 자동차와 시리를 연결하는 등의 'Eyes Free'를 중점에 두고 있습니다. 눈으로 스크린을 보지 않고, 혹은 키보드에 손을 올려 두들기지 않아도 타이핑을 하거나 내비게이션을 검색하는 등을 가능하게 하는 인터페이스로써의 가능성을 최우선에 두고 있다는 것이죠.

 구글은 이를 검색에 활용합니다. 구글 나우는 완전히 새로운 검색 서비스로써 다양한 개인의 쿠키 정보를 활용하여 추려내 음성 명령에 대한 답을 제공합니다. 또한 젤리빈부터는 타이핑의 경우 클라우드 서버를 거치지 않고 사용할 수 있는 오프라인 기능을 선보이기도 했습니다.

 삼성은 S보이스를 가전 제품과 융합하여 홈 보이스 시스템을 구축하는 것도 가능하겠죠.



 이런 가능성은 얼만큼 음성 데이터를 쌓아나갈 수 있느냐가 중요하기에 많이 사용하고 수정하고 하다보면 점점 더 나은 경험을 제공 받을 수 있게 됩니다. 터치 인터페이스가 갈수록 나아지고 있듯이 말이죠. 이런 가능성을 열어두고 단순히 기능이 아니라 터치 스크린처럼 통용되지만 얼만큼의 데이터, 어떤 경험의 제공이 가능한지가 앞으로 우리가 음성인식을 바라보는 관점으로 되어야하지 않을까 생각합니다.




저작자 표시 비영리 변경 금지
신고