6일(현지시간) 구글은 온라인 미디어 브리핑을 통해 제미나이 출시를 발표했다. 이미지, 영상, 음성 등을 인식하거나 추론하는 멀티모달 기능이 탑재됐다.
구글은 제미나이가 이미지를 파악하는 것을 넘어 물건의 속성과 특징까지 파악해 이를 바탕으로 추론한다는 설명이다. 순다르 피차이 구글 최고경영자(CEO)는 "문서와 코드, 오디오, 이미지, 동영상 등 다양한 유형의 정보를 일반화해 원활하게 이해하고 작동하며 결합할 수 있다"며 "지금까지 AI 모델 중 가장 유능하다"고 자신했다.
구글은 오픈AI의 GPT보다 우수하다는 점을 수치로 비교하며 강조했다. 구글의 AI 개발 조직인 구글 딥마인드의 데미스 허사비스 CEO는 "수학, 물리학, 역사, 법률, 의학, 윤리 등 57개 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가하는 대규모 멀티태스크 언어 이해(MMLU) 테스트에서 90.04%의 점수를 기록했다"며 "현존하는 LLM 중 처음으로 90%를 넘었다"고 말했다.
이날 설명회에서 제미나이의 멀티모달 성능을 보여주는 데 많은 시간을 할애했다. 일례로 사용자가 종이에 오리를 그리자 완성 단계에 갈 때까지 실시간으로 무엇을 그리는지 추론했다. 오리가 완성된 뒤 사용자가 파란색으로 칠하자 "일반적인 오리 색상은 아니다"는 해석을 내놨다. 이후 사용자가 파란색 오리 인형을 보여주자 "내 생각보다 파란색 오리가 많은 것 같다"고 답했다.
손으로 '가위, 바위, 보'를 보여주자 이 게임을 인식했고 손으로 나비 날갯짓을 표현하면 분석해 설명했다. 하늘색과 분홍색 실타래를 별다른 설명 없이 보여줘도 금방 인식하고 이를 통해 어떤 인형을 만들 수 있는지 그림을 제시했다. 사용자가 기타 그림을 그리자 기타 연주를 들려줬고 그 옆에 앰프 스피커를 그리자 "일렉트릭 기타가 됐다"며 록 음악으로 변경했다.
수학 문제 해석 능력도 향상됐다. 사용자가 수학 문제를 푼 이미지를 보여주자 문제와 답을 인식한 뒤 정·오답을 판별했다. 올바른 해답 풀이와 함께 틀린 부분을 보완할 수 있는 수학 문제를 새로 제시하는 등 맞춤형 수학 선생님 역할을 했다.
일라이 콜린스 구글 딥마인드 부사장은 "자연스러운 이미지와 음성, 영상의 이해부터 수학적 추론까지 제미나이 성능은 업계에서 LLM 연구개발 평가 시 주로 사용되는 32개 벤치마크 중 30개에서 기존의 최신 기술을 뛰어넘는 결과를 보여줬다"고 설명했다.
뉴스웨이 강준혁 기자
junhuk210@newsway.co.kr
저작권자 © 온라인 경제미디어 뉴스웨이 · 무단 전재 및 재배포 금지
댓글