채행석 공학박사, KT Customer 부문
채행석 공학박사, KT Customer 부문

제4차 산업혁명은 인공지능(AI), 사물인터넷(IoT), 빅데이터 등 기존 정보통신기술(ICT)이 사람-사물(human-things), 사물-사물(things-things) 그리고 사람-사람(human-human)간의 초연결(beyond Connectivity) 융합적 특징을 바탕으로 사회전반에 영향을 주며 기존과 다른 패러다임을 형성하고 있다. 제4차 산업혁명 시대에는 상품과 서비스가 초연결을 바탕으로 초지능(beyond Intelligence)적 진화가 이루어질 것이며, 궁극적으로 인간수행(human performance) 강화가 이루어질 전망이다. 하지만 현재 흐름은 사람에 대한 물리적, 인지적, 감성적인 특성에 대한 고려 없이 기술 중심적인 방향으로 진행되고 있어 다소 우려 된다.

4차산업혁명을 이야기 할 때 일반 사람들에게 가장 먼저 다가서는 것이 인공지능이고 이의 대중화를 이끈 것은 음성인식 기술의 진보라고 해도 과언이 아니다. 많은 기업들이 내놓는 인공지능을 기반으로 제공되는 음성정보 서비스들이 과거에 비해 인식률, 맥락이해 등이 향상돼 사용자가 활용할 수 있는 수준이 되었다. 그러나 인간과 대화하듯 자연스러운 음성서비스를 받으려면 아직도 많은 사전 설정(setting)이 필요하고 제약된 환경에서만 유용한 경우가 많다. 그래서 전통적인 과학기술 대비 사람의 중요성을 강조하고 근본적으로 사람의 메커니즘에 대한 연구를 기반한 인지융합과학기술이 필요하다.

일상 생활에서 사람과 사람이 대화하는 것도 쉽지 않은데 사람이 기계를 매개로 대화 및 정보를 공유하려면 고려해야 할 것들이 많다. 연령, 성별과 같은 기본적인 정보 이외에 인식과 태도, 성격, 감정상태 등도 파악할 수 있어야 한다. 따라 음성정보시스템을 구성하려면 사람에 대한 물리적, 인지적, 감성적 이해가 우선돼야 하고 이를 바탕으로 사람과 기계의 상호작용에 대한 이해가 필요하다.

음성인식은 화자가 의도하는 의미와 청자가 지각하고 이해하는 의미를 포함한다. 최근 인공지능 기반 서비스의 경우 이전보다 발전된 것은 분명하나 화자의 기본적인 명령어 혹은 설정된 상황에 대해 반응하는 정도이다. 화자의 의도대로 의사 소통하는 것은 현재로는 갈 길이 멀다. 음성인식의 기술적인 진화와 더불어 반드시 병행해야 할 것은 화자의 성대 모양과 크기 등과 같은 물리적요소, 지각, 주의, 기억, 문제해결과 같은 인간 정보처리 기제(Mechanism) 기반으로 하는 인지적요소, 감정 등 인간의 삶의 질에 영향을 줄 수 있는 감성적요소를 고려한 설계가 중요하다. 또한 동시조음, 발화속도와 관련 음향정보로부터 고정된 음소의 표상을 추출하는 작업도 개발돼야 한다. 사람이 대화를 위해 필요한 요소가 무엇인지, 말의 산출 과정에서 필요한 음성정보 제시가 무엇인지 분석해야 한다. 억양 윤곽이 생성되는 문장의 슬롯에 대한 강세값 지정, 관련 범위의 어휘 인출 및 삽입, 문장의 구조에 대한 결정 등을 고려한 설계가 필요하다.

의미 있는 음성정보시스템을 디자인하려면 음성보다 포괄적인 언어에 대한 이해가 필요하다. 언어는 크게 문자언어와 음성언어로 구분된다. 언어는 인간의 상호작용에 있어 중요한 요소이며, 이 중 음성은 즉각적인 상호작용에 중요한 역할을 하며 문자는 정보전달 이외에 해석과 성찰의 영역까지 확장된다. 상호작용의 관점에서 보면 비언어 또한 중요한 도구이므로 음성정보 시스템에서도 비언어적인 요소에 대한 더 깊은 연구가 필요하다. 사람간의 의사소통 과정에서 대화 및 맥락의 이해를 돕기 위해 반복, 확인, 표현변경, 이해확인, 설명요구 등 다양한 방식이 사용된다. 4차 산업혁명시대의 초연결, 초지능적인 음성정보 시스템의 구현은 사람의 대화 방식의 메타포(metaphor)를 적용할 수 있는 디자인이 무엇보다 중요하다.

사람은 인지적인 과정을 통해서 감정, 사고 그리고 행동에 영향을 미치게 된다. 음성인식은 단순 언어에 대한 이해의 수준이 아닌 의사소통의 도구로이며, 일방이 아닌 양방의 커뮤니케이션이다. 또한 이러한 커뮤니케이션은 기술의 발전과 더불어 사회적 진화는 필요하다. 음성은 상황의존적이며 비선형적으로 연계가 불분명하며, 의미와 문법정보를 전달시 운율, 제스처를 사용하기도 한다. 무엇보다 산출계획이 충분하지 않다는 것이다. 이러한 단점을 고려하여 설계하는 것이 필요하며 사용자 요구파악, 사용자의 이용상황에 대한 이해 등을 고려하여 인식성능, 관측되는 성능, 설계제약 등을 고려해야 한다. 음성정보시스템 구축시 풍부한 감성적 콘텐츠를 확보하는 것도 중요한 과정이 될 것 이다.

지금까지 언급한 인지융합과학기술에 기반한 사람 중심의 음성정보 설계는 다음의 다섯 가지가 기본 지침이 되어야 할 것이다. 첫째, 사람의 음성적 정보를 고려한다. 둘째, 음향적 단서를 활용한다. 셋째, 음성반응의 정보를 긍정적으로 설계한다. 예를 들면 피드백을 향상시키기 위해 인식단어에 대한 확인대화(word confirmation dialogue)를 이용하는 것이 있을 수 있다. 넷째, 음성정보를 보완하는 매체를 활용한다. 주의(attention) 및 기억(memory)을 유지 확장 할 수 있는 문자정보 설계를 결합하면 유용하다. 마지막으로, 음성정보는 사회적 상호작용을 고려하여 친숙하게 설계하는 것이 무엇보다 중요하다.

그렇다면 인지융합과학기술은 왜 사람 중심의 설계를 표방하는가? 모든 제품과 서비스가 더 강력한 네트워크로 연결되고 사물의 지능화 되어 진화가 가속되는 과정에서 사람 중심의 설계가 바탕이 되면 더욱 강력한 예측이 가능해지고 이를 통해 산업혁신이 가능하기 때문이다. 이 중 제4차 산업혁명 시대에 인공지능, 빅데이터, 사물인터넷 등의 혁신 기술의 진정한 융합의 중심에 사람이 있다면, 가장 중요한 모달리티(modality)를 다루는 음성정보시스템은 가치(value)를 지니고 바람직한 방향으로 진화할 것이다.

사람에 대한 이해가 기본 바탕이 된, 사람을 위한 음성정보시스템, 이제 시작이다.

채행석 hs.chae@kt.com 현재 KT에서 UX(사용자경험) 업무를 진행하고 있다. 연세대에서 인지공학 전공으로 박사학위를 받았으며, 인지융합과학기술포럼 이사, 국제언어인문학회 정보이사, 성균관대 심리학과 겸임교수, KT Tech 전략기획본부 UX팀장을 수행했다. 스마트폰 UX 설계, 이통사 서비스 UX 업무를 수행하였으며, 웨어러블컴퓨터, IPTV, 게임, e-Learning 등 인지공학 & HCI 관련 다수 연구를 진행했다.

관련기사

저작권자 © 넥스트데일리 무단전재 및 재배포 금지