실시간 뉴스



VXML(1)-음성 인터넷 환경과 VoiceXML


음성 인터넷 환경과 VoiceXML (상)

20세기는 미국이 기존 강대국과 신흥 경쟁자들을 제치고 세계 유일의 초강대국으로 발돋움한 백년이었다. 미국의 역량이 이처럼 만개할 수 있었던 가장 중요한 요인은 정보통신의 발달로 무진장한 천연자원 및 인적자원을 체계적이고 유기적으로 결합할 수 있었던 점으로 생각된다.

미국의 광활한 국토는 천혜의 혜택이긴 하지만 자원의 결합에는 적지 않은 장애 요인이었다. 전신, 전화, 매스커뮤니케이션 등 정보통신의 발전으로 이러한 장애를 넘어설 수 있었다. 특히 20세기를 목전에 두고 발명된 전화는 산업 구조와 국제 질서를 바꾼 것은 물론 개개인의 생활 방식이나 사고 방식에도 큰 영향을 미쳤다.

흔히 역사는 반복된다고 한다. 21세기를 목전에 두고 등장한 인터넷과 휴대전화는 새천년 정보통신의 총아로서 산업 구조와 개개인의 생활 방식에 큰 변화를 몰고 오고 있다. 나아가 21세기의 국제 질서도 결국은 이 인터넷과 휴대전화를 각국이 지닌 기존의 자원과 얼마나 잘 결합시켜 최대의 시너지 효과를 얻어내는가에 따라 변모해 가게 될 것이다.

이러한 시너지 효과의 극대화를 위해 먼저 정보통신 혁명의 두 주역인 인터넷과 휴대 전화를 결합하여 음성 인터넷 환경으로 발전시키려는 노력이 활발해지고 있다. PC에 버금가는 수준의 해상도를 갖는 액정 화면을 갖춘 인터넷 폰이 곧 등장할 전망이며 WAP, IMT-2000 등 음성 인터넷 환경과 관련된 여러 분야의 연구개발도 활기를 띠고 있다.

이런 가운데 세계 인터넷 환경을 주도하고 있는 W3C 컨소시엄에서는 지난 5월 22일 VoiceXML 포럼이 제안한 VoiceXML을 월드 와이드 웹의 대화형 마크업 언어 표준으로 공인하였으며 이에 따라 VoiceXML이 음성 인터넷 환경의 새로운 주역으로 떠오르고 있다.

VoiceXML은 줄여서 VXML이라고도 하며 대화형 음성 어플리케이션 개발을 위해 고안된 XML 문서 형식의 일종이다. XML(eXtensible Markup Language)이란 응용 분야의 성격에 맞추어 문서 형식을 자유롭게 정의하여 다양한 정보 컨텐츠를 쉽게 표현할 수 있도록 설계된 언어다. 마이크로소프트의 야심찬 닷컴 제국 계획에서 드러나는 것처럼 앞으로 컨텐츠 정보 표현 양식의 천하통일마저 예상되는 정보 표현 형식이다.

VXML은 바로 이 XML 문법을 이용하여 정의된 문서 형식으로, 이 문서 형식에 맞추어 작성된 이른바 VXML 문서는 음성 어플리케이션에서 대화의 진행 방식을 지정하는 일종의 시나리오 역할을 하게 된다.

VXML 문서 형식에 정의된 47가지의 태그들은 사전에 녹음된 음성 메시지의 출력이나 음성 입력의 녹음은 물론 문자 정보로부터 즉석 음성 합성이나 음성 인식에 의한 음성 입력의 문자 정보로의 변환 등의 음성 입출력 기법들을 총동원한다. 사용자의 입력에 따른 후속 대화 내용의 선택, 다른 문서로의 전환, 웹 컨텐츠의 선택적 다운로드 등을 통하여 이제까지 볼 수 없었던 자연스럽고 높은 수준의 대화형 어플리케이션 시나리오의 작성을 가능하게 한다.

VXML이 실제로 활용되기 위해서는 음성 플랫폼, VXML 컨텐츠, VXML 인터프리터의 세 가지 구성 요소가 필요하다.

우선 음성 플랫폼은 음성 입출력 및 인터넷 통신 등의 H/W 기능과 음성 합성, 음성 인식 등의 S/W 기능을 갖춘 단말 장치를 말하며 이들 기능 가운데 음성 합성 및 음성 인식 기능은 단말 장치가 아닌 원격 서버에 의해 대신 지원될 수도 있다.

당장은 휴대전화, 개인용 컴퓨터 등이 가능하지만 가까운 시일 안에 다양한 가전제품이나 자동차 등 각종 기계 장치의 제어 패널에서 홈 오토메이션 설비, 아이들의 장난감에 이르기까지 주위의 수많은 것들이 음성 플랫폼으로 자리잡아 우리에게 음성 인터넷 환경을 제공하게 될 것이다.

VXML 컨텐츠는 VXML 문서 형식으로 작성된 문서들과 이들 문서에 인용되는 부수적 정보 파일들을 말한다. VXML 컨텐츠는 음성 플랫폼과 분리되어 별도의 서버에 구축될 수 있으며 현재 대중화된 웹 서버가 문서 서버 역할을 겸하게 될 전망이다.

원격 문서 서버의 이용은 음성 플랫폼의 경량화와 음성 서비스의 가변화 및 유연화, 주식 시세와 같은 실시간 정보에의 접근 등을 가능하게 하며 음성 입출력 관련 기술에 문외한인 사람이라도 VXML 문서 형식을 익히는 약간의 수고만으로 음성 서비스의 제작을 가능하게 한다.

VXML 인터프리터는 VXML 문서로 표현된 음성 서비스 시나리오를 해석하여 음성 플랫폼의 각종 음성 입출력 기능들을 호출하면서 사용자와의 대화 흐름을 제어하고 대화 내용에 따라 다른 문서로의 전환, 각종 정보의 업로드 및 다운로드를 총괄 지휘하는 지휘자 혹은 사령탑에 비견할 수 있는 기능을 하는 소프트웨어 요소이다.

음성 플랫폼에 내장될 수도 있지만 별도의 원격 서버로부터 네트워크를 통한 지원도 가능하다. VXML 음성 서비스를 가능하게 하는 가장 핵심적인 요소라고 할 수 있다.

이들 세 가지 요소가 결합되면서 지금까지 보아온 음성 서비스와는 차원이 다른 다양하고 편리한 대화형 음성 서비스들이 우리의 정보 접근을 돕는 한편 생활 전반을 편리하게 해 줄 것이다.

현재 음성 플랫폼은 음성 입출력 등 관련 기술이 충분히 개발되어 실용화가 가능한 상태이며 VXML 인터프리터도 국내의 경우 인터넷 솔루션 전문 업체인 코난테크에 의하여 개발이 완료된 상황이다.

또한 음성 처리 전문 업체인 L&H Korea가 금년 내로 시범 컨텐츠를 구축하여 VXML 기술을 이용한 음성 서비스 시범 사업들을 다양하게 펼칠 예정이어서 곧 음성 인터넷 환경의 새로운 장이 열릴 전망이다.

한편 VXML은 누구든지 자신이 직접 작성한 VXML 문서를 기존의 웹 서버를 이용해 음성 플랫폼을 갖춘 타인에게 제공할 수 있도록 하고 있기 때문에 앞으로는 네티즌들이 자신의 홈페이지를 구축하던 것과 비슷한 방법으로 손쉽게 자신만의 음성 서비스를 개발할 수 있는 길이 열리게 되어 폭발적인 VXML 붐이 조성될 가능성도 높다.

/윤덕호 코난테크놀로지 이사(공학박사) dhyoon@konantech.co.kr







alert

댓글 쓰기 제목 VXML(1)-음성 인터넷 환경과 VoiceXML

댓글-

첫 번째 댓글을 작성해 보세요.

로딩중
포토뉴스