업무 상황 반영·다국어 지원 통해 기존 벤치마크와 차별화AI를 통한 검증과 자동 평가 방식으로 객관성 확보
'트루벤치'는 삼성전자 DX부문 선행 연구개발조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 벤치마크용 AI모델이다. 총 2485개의 평가기준으로 사용자의 짧은 요청부터 최대 2만자의 긴 문서 요약까지 업무 생산성 성능을 평가한다.
이번 벤치마크는 기존 모델과 차별화해 업무 생산성에 대한 집중 평가를 진행하는 것이 특징이다. 한 번에 최대 5개 모델을 선택해 비교할 수 있어 다양한 AI모델 성능을 한눈에 파악할 수 있다. 전체 평가 점수뿐 아니라 10개 카테고리에 대한 세부 항목 점수도 공개한다.
삼성전자는 많은 기업들이 업무 전반에 AI를 도입하고 있지만, 기존 벤치마크로는 AI 모델의 업무 생산성 성능을 정확히 측정하기 어렵다는 점에 주목했다. 실제 시중에 공개되어 있는 대부분의 AI 벤치마크는 영어를 중심으로, 연속 대화가 아닌 한 번 혹은 제한된 횟수로 대화를 평가하고 있다. 이에 트루벤치는 영어·한국어·일본어·중국어·스페인어 등 총 12개 언어를 지원한다. 특히 글로벌 비즈니스 환경을 고려해 영어와 한국어 등 여러 언어가 혼합된 교차 언어의 번역 기능 평가도 가능하다.
트루벤치는 답변의 정확성은 물론 겉으로 드러나지 않는 사용자의 의도나 맥락까지 평가가 가능하도록 설계됐다. 평가 항목을 검증하는 방식에는 AI가 활용된다. 사람이 구축한 평가 기준을 AI가 검토해 오류나 모순, 불필요한 제약이 없는지 확인하며 지속적인 교차 검증의 반복을 통해 더욱 정교한 평가 기준을 완성하게 된다. 이러한 기준으로 완성된 AI 모델 자동 평가는 주관적 편향을 최소화하고 일관성 있는 결괏값을 제공하게 된다는 설명이다.
전경훈 DX부문 최고기술책임자(CTO) 겸 삼성리서치장 사장은 "삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다"며 "트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것"이라고 말했다.

뉴스웨이 고지혜 기자
kohjihye@newsway.co.kr
저작권자 © 온라인 경제미디어 뉴스웨이 · 무단 전재 및 재배포 금지
댓글