노인, 장애인 등 사회적 약자 위한 AI 개발 박차
인공인간, 살아있는 아바타 등 유사 인간 추구
융합기술로 단순 데이터사이언스 뛰어넘어야

코로나 바이러스감염증(코로나19) 펜데믹은 고작 2년도 채 되지 않은 기간 동안 사회의 많은 부분을 바꿔놓았다. 사람 간의 접촉에 의해 감염되는 특성은 사람과 사람 사이의 거리를 멀어지게 했으며 그 사이를 기계들이 채워가고 있는 형국이다.

사실상 코로나19의 종식이 불가능해 지면서 위드(with)코로나가 거론되고 있다. 코로나 이전 상황으로의 회귀가 어려워지면, 코로나19 위기 극복을 위한 D.N.A(Data, Network, AI) 생태계 강화와 비대면 산업 육성, SOC(Social Overhead Capital, 사회 간접자본)의 디지털화는 자칫 디지털격차를 가속화하고 일상과 산업에서 불평등과 양극화를 심화시킬 수 있다.

유통업계의 경우 비대면·언택트 기조와 최저임금 인상에 의한 인건비에 대한 부담에 키오스크를 통한 무인화가 이뤄지면서 가장 빠른 변화를 보이고 있다. 디지털에 익숙한 젊은 세대들이야 키오스크 정도는 컵에 물을 따라 마시듯 적응이 쉽지만 그렇지 않은 노령층이나 몸이 불편한 장애인들에게는 거대한 장벽으로 느껴질 수 있다.

실제로 한국소비자원이 지난해에 전자상거래나 키오스크로 비대면 거래를 한 65세 이상 노인 300명을 대상으로 설문 조사를 실시한 결과, 50% 이상이 키오스크를 이용하면서 복잡한 조작 방법에 좌절을 겪었다는 답변이 나왔다. 점원에게 말로 하면 너무나도 쉽게 할 수 있는 주문이 기계의 조작법이라는 디지털 장벽에 막혀버린 것이다.

이런 문제를 해결하기 위해서는 ‘조작법’, 즉 인터페이스(Interface)에 대한 혁신이 필요하다. 기계를 조작하는 것에 불편함을 느끼는 이들에게는 평소 점원이나 상담원에게 하듯 ‘말’을 통한 조작방법이 가장 이상적이다. 따라서 사람이 하는 말을 기계가 알아듣고 수행할 수 있는 인터페이스가 구성되어야 하는데, 이를 가능케 하는 혁신의 중심에는 AI(인공지능)가 있다.

AI를 통해 일상에서 사용하는 언어를 기계가 충분히 알아듣고 수행하는 데에는 음성인식(STT·Speech-to-Text), 음성합성(TTS·Text-to-Speech), 자연어 이해(NLU·natural language understanding) 등의 고도의 기술들이 사용되고 있다.

또 머신러닝과 딥러닝 등 데이터를 기반으로 한 학습을 통해 더욱 자연스럽고 복잡한 명령도 수행하는 것이 가능해져 가고 있다. 사용자들이 불편함 없이 비대면 서비스를 받을 수 있도록 사람과 대화하듯이 제공되는 AI 서비스는 현재 어디까지 와 있을까.

◇ 행원 대신 가상인간이 서비스하는 은행

(구)평촌남 지점에 오픈한 디지털라운지에서 신한은행 관계자가 AI Banker와 생체인증 등록업무를 시연하고 있다.
(구)평촌남 지점에 오픈한 디지털라운지에서 신한은행 관계자가 AI Banker와 생체인증 등록업무를 시연하고 있다.

최근 은행들은 비대면 업무 처리를 위한 혁신을 거듭해 오고 있다. 신한은행은 ‘AI Banker’를 대고객 서비스에 도입한다. 실제 영업점 직원을 모델로 구현한 ‘AI Banker’는 영상합성과 음성인식 기술을 적용한 가상 직원으로 디지털 기기를 통해 맞이인사 후 고객이 원하는 업무까지 안내한다.

또 ‘AI Banker’는 고객이 얼굴과 손바닥(장정맥)의 생체정보를 디지털 기기에서 간편하게 등록하고 이를 통해 손쉽게 출금ㆍ이체 등 업무가 가능하도록 도와주는 역할도 수행한다.

‘AI Banker’는 (구)평촌남 지점의 ‘디지털라운지’에 시범 적용 후 10월 중 디지털 기기가 배치된 모든 영업점으로 확대할 예정으로, 축적된 인공지능 학습 데이터를 통해 고객 응대 범위가 본격적으로 확장되면 다양한 니즈를 가진 고객에게 보다 쉽고 편안한 디지털 금융서비스를 제공할 수 있다.

국민은행은 이미 지난 3월 AI 은행원 도입을 금융권 최초로 도입했다. 서울 여의도동에 있는 국민은행 ‘AI 체험존’에는 김현욱 전 KBS 아나운서가 AI 은행원으로서 금융 상담을 해준다. 현재는 통장 개설 등 간단한 업무밖에 수행하지 못하지만 시범 운영이 끝나면 언어 처리와 지식 기반 상담 기능의 완성도를 높여 키오스크 또는 스마트텔러머신(STM, 지능형 자동화기기) 형태로 영업점에 배치한다는 계획이다.

이와 같은 AI 행원들은 불완전판매 차단에도 도움을 줄 것으로 기대되고 있다. AI 금융상담 시스템은 금융투자 상품을 판매할 때 고객에게 정확한 상품을 설명할 수 있도록 데이터를 음성 파일로 변환하는 ‘음성합성 시스템(TTS)’ 기술을 적용하기 때문이다.

◇ 인간과 유사한 사고를 하는 살아있는 아바타

디엠랩의 살아있는 아바타 ‘보보’
디엠랩의 살아있는 아바타 ‘보보’

온라인과 오프라인의 비중과 중요도가 거의 비슷한 은행이 최대한 사람이 제공하는 것과 최대한 비슷한 AI 서비스를 제공하기 위해 열을 올리는 와중에 비대면 AI 인터페이스를 개발하고 있는 ㈜디엠랩 역시 좀 더 사람에 가까운 AI를 개발하는데 온 힘을 쏟고 있다. 자사의 강점인 차별화된 음성 및 영상 처리 및 판독 기술을 통해 AI가 이를 지각하고 이해하며 반응할 수 있는 융합 기술을 개발하고 이를 시연할 수 있는 시제품까지 내놨다.

일명 ‘살아있는 아바타(Living Avatar)’로 불리는 이 기술은 대화 품질 개선과 교감 능력을 제공해 인간 유사 수준의 서비스를 제공한다.

아바타와 홈트레이닝을 하는 모습
아바타와 홈트레이닝을 하는 모습

시연을 통해 공개된 시제품은 주변 상황을 인지해 사용자와 눈맞춤을 하고 다중 화자가 존재하는 경우 화자를 향해 고개를 돌리기도 한다. 일상적인 구어체 언어를 이해하고 사용자와의 대화 선후 인과를 기억해 질답 형식이 아닌 능동적인 대화가 가능했다. 또 사용자의 얼굴 표정과 몸짓, 음성 톤 등 복합적인 요인들을 분석해 사용자의 감정적인 상태를 인지하고 그에 따른 감성 표현을 하기도 했다. 즉 메타버스 안에 존재하고 있는 아바타가 현실 세계를 인지하고 그에 맞게 대응하고 있는 것이다.

이런 일련의 기술들을 가능케 하는 것은 고도의 음향 및 영상신호 분석 기술이다. 음향 분석을 통해 다중의 화자를 인식할 수 있어야 하고 환경의 잡음을 처리해 일상적인 상황에서 충분히 사용할 수 있어야 한다. 또 영상신호 분석은 주변의 상황을 인지하고 개체간 상호 작용을 이해하는 데이터를 수집하게 된다.

음성과 영상을 동시에 입력 받고 이를 동시에 처리, 이해하는 과정을 거쳐 감정 표현을 하거나 대화를 나누는 등의 반응을 하는 융합기술이 이번 시제품에 반영됐다.

디엠랩 이석한 CEO는 “AI가 사람을 대하듯 자연스러운 커뮤니케이션을 가능케 하는 것이 목표”라며 “완벽히 사람을 대체할 수 있는 AI 인터페이스를 구현해 커피숍이나 교육 등 상업적인 기능은 물론 독거노인 등 사회적 약자들을 돌볼 수 있는 사회적인 기능도 기대할 수 있다”고 말했다.

◇ 융합 기술로 데이터 사이언스 뛰어 넘어야

고한석 고려대 전기전자공학 교수
고한석 고려대 전기전자공학 교수

이처럼 AI가 사람들에게 이질감 없이 다가가기 위해 더욱 ‘사람다움’을 추구하고 있는 가운데 2022년 9월 송도에서 개최되는 ‘2022 INTERSPEECH’ 조직위원장이자 음성 처리 분야의 세계적인 권위자인 고한석 고려대 전기전자공학 교수는 “고차원적인 AI 개발을 위해 딥러닝을 뛰어넘어야 할 때”라고 말했다.

고 교수는 “컴퓨터의 처리속도가 엄청나게 빨라지면서 AI 기술 개발도 크게 속도가 붙고 있다”고 말했다. 1980년대 제프리 힌튼 토론토대 교수가 처음 고안했던 딥러닝 모델이 2010년대 들어 컴퓨터 처리능력의 비약적인 증가로 폭발적인 성장을 했다는 설명이다.

그러나 “현재 AI라고 불리며 응용되고 있는 기술들은 대부분 딥러닝을 기초로 하는 데이터 사이언스에 불과하다. AI는 곧 사람의 지능을 모방하는 것인데, 대부분이 수치해석을 응용하고 있어 기계에 머물고 있다”고 평했다.

그는 “대한민국의 미래 먹거리는 단연 AI라고 할 수 있다. 한국처럼 빠르게 신기술을 적용하는 것을 좋아하는 얼리어댑터 기질을 가진 나라도 드물고 세계에서 가장 빠른 인터넷 스피드 등 인프라가 이미 구축돼 있다”라며 “휴대폰 보급률 등도 세계 톱급이다. 새로운 기술을 충분히 수용하고 실험할 수 있는 마인드가 이미 갖춰졌기 때문에 새로운 AI기술들을 가장 먼저 시연하고 사용할 수 있는 민족”이라고 말했다.

이어 “AI가 인간이 사고를 하는 방식과 유사하게 음성과 영상을 동시에 처리하면서 이해하고 반응할 수 있도록 모든 복합적인 요소들을 융합할 수 있는 기술력을 갖추는 것이 다음 단계”라며 “이를 통해 더욱 고차원적인 AI를 개발하는 것이 세계를 이끌 수 있는 ‘메이저 게임 체인저’가 되는 방법”이라고 강조했다.

이호 기자 dlghcap@nextdaily.co.kr

저작권자 © 넥스트데일리 무단전재 및 재배포 금지