SKT는 이용자가 에이닷과 오래 전에 대화했던 내용 중 중요한 정보를 기억해주는 '장기기억' 기술과 다양한 영역에서 수집된 이미지와 한글 텍스트를 동시에 학습해 사람과 흡사하게 생각하고 스스로 표현할 수 있는 '이미지 리트리벌'(Image Retrieval) 기술을 적용한 결과라고 2일 밝혔다.
일례로 고객이 에이닷에게 "배가 고픈데 뭘 먹을까?" 라고 말하면 "너 치즈피자 좋아하잖아"(장기기억 기술)라고 말하며, 수많은 종류의 피자 이미지 중 치즈피자를 찾아내 제시(이미지 리트리벌 기술)한다.
SKT는 이미지 리트리벌 기술 적용을 위해 한국의 Locality를 정확하게 설명 가능한 한국어 기반 10억장의 '이미지-한글 텍스트 쌍' 학습 데이터를 구축, 초거대 멀티모달 AI를 학습시켰다. 이용자가 에이닷에 발화를 하면 제시된 텍스트를 텍스트 인코더를 통해 인식하고관련 이미지를 각각 카테고리로 분류한 후 적합한 이미지를 찾는다.
이미지 인코더는 자연어를 기반으로 정확한 이미지 분류를 수행할 수 있는 일종의 신경망이다. 이를 통해 수 많은 이미지 데이터 중에 명령어와 가장 적합한 이미지를 분류할 수 있다. 예를 들어 '햇살이 비치는 창문'과 '김치가 놓여있는 라면' 식으로 세부 정보가 표현된 이미지를 찾아 제시한다.
SKT 관계자는 "에이닷은 '장기기억' 기술을 통해 오래 전에 대화했던 내용 중 취미, 직업, MBTI 유형 등 중요한 정보를 별도의 메모리에 저장해두고 사람이 마치 뇌 속에서 오래된 기억을 끄집어 내 듯이 대화를 이어갈 수 있다"면서 "이미지 리트리벌 기술로 대화에 관련된 이미지를 제시하면서 이용자의 말에 맞장구를 치거나 재질문하는 등 재미있고 센스 있는 대화가 오고 갈 수 있다"고 설명했다.
뉴스웨이 임재덕 기자
Limjd87@newsway.co.kr
저작권자 © 온라인 경제미디어 뉴스웨이 · 무단 전재 및 재배포 금지
댓글