AI가 똑똑해질수록 더 신경 쓰게 되는 이유

사람들이 LLM(대형언어모델)을 통한 생성형 AI를 활용하게 된 초기부터 가장 많이 부딪히게 되는 전형적인 문제는 '할루시네이션'(환각)이었다. 할루시네이션은 질문을 이어가다 보면 빈번하게 등장하곤 했다. 세종대왕이 살아서 맥북 던짐 사건을 일으킨 인물로 묘사되거나, 아직 한 번도 쓰이지 않은 글과 책이 버젓이 존재한다고 여겨지기 일쑤였다.

언젠가 나는 미국 주립대 교수이면서 사회학자이면서 싱가포르에 사는 사람이 되어 있었다. 애초 대형 언어 코퍼스(말뭉치) 안에서 상관관계가 높은 '그럴듯한 것들'을 보여주는 것이 모델의 본령이므로 AI가 잘못하고 있던 건 아니다. 엉뚱한 소리를 하는 경우도 많았다. 욕을 따라 하거나, 패륜적인 말을 채팅창에 뱉는 경우도 있었다. 이미지 생성에서도 유사한 문제가 있었다.

오픈AI, 앤트로픽, 구글과 같은 AI 업체들은 두 가지 방법으로 대응책을 강구해 왔다. 우선 환각을 막기 위해 RAG(검색증강생성) 같은 기법을 발전시켰다. Claude Opus 4.x나 ChatGPT 5.x처럼 새로운 모델이 나왔다는 것은 온라인의 새로운 코퍼스로 훈련했다는 말인데, 모델이 생긴 뒤 만들어진 정보는 반영되지 않는다. 유저가 질의를 할 때마다 다시 웹을 검색해 사실관계를 보강하는, 일종의 '팩트 체크'다.

문제는 생성형 AI의 '찰떡 같은 답변'이 가능하려면, 대용량 코퍼스를 '여러 차례' 추론해서 '심층 학습'을 해야 하는데, 검색해서 들어온 정보를 그렇게 학습시킬 수 없다는 거다. 글을 예쁘게 잘 쓰던 AI의 문장이 딱딱해지는 경우가 종종 발생한다. 두 번째로 채팅 세션 내부 맥락을 넓히기 위해 KV(key, value) 캐시 메모리를 늘리면서 동시에 캐시 데이터를 압축하는 대응을 하고 있다. 메모리 반도체 수요가 급증했다. 삼성전자, SK 하이닉스 성과급이 전사회적 이슈가 될 만큼 매출과 이익이 올라간 이유다.

동시에 AI 업체들은 CAPEX 지출이 늘어나니 소비자에 대한 '과금'을 계속 늘려가고 있다. 휴대폰 요금 10만 원처럼 AI 구독료 20만 원대가 지식노동자의 기본 과금처럼 자리 잡힐지도 모른다. 그럼에도 대화의 '맥락'을 고작 수십만~수백만 토큰 범위에서 파악하는 수준이라 내가 궁금한 세상의 모든 것을 깔아두고 대화하는 건 사실상 불가하다.

우리는 매크로로 생성되는 "분명하다", "~가 아니라 ~다", "핵심을 찔렀다" 등의 AI 말투에 이미 피로감을 느끼고 있다. AI-humanizer 같은 서비스가 범람하고 있지만, AI-humanizer에서 나온 결과물을 사람이 손대서 고치지 않으면 "AI인 듯 AI 아닌 AI 같은" 불만족스러운 결과를 피하기 어렵다. 행정용 '페이퍼워크'야 그렇다 치더라도, 글 자체가 중요한 모든 분야에서는 평판과도 연결될 수 있다. KV 캐시의 한계를 넘기 위해 노션이나 옵시디언 같은 노트 앱을 MCP로 연결하여 '세컨 브레인'이라며 끝없는 메모리를 만들어 내고 있지만, 앞서 RAG의 경우처럼 출력물에 대한 심층적인 사고를 해내지 못할 수 있다. 역시나 글쓰기의 문제는 결국 남는다.

물론 '알파고 쇼크' 이후 업계의 믿음이 된 '양질전환', 즉 양이 쌓이면 질적 전환이 일어난다는 믿음에 금이 가지는 않을 것이다. 양이 질을 만든다는 업계의 신념은 흔들리지 않겠지만, 그 질을 떠받치는 사람의 '손'을 타는 노동은 줄지 않았다. 전체 업무량이 늘어나는 생산성 향상만큼 '신경'을 써야 하는 일도 늘고 있다.

당장 특정 주제의 키워드 몇 개만 주고 가장 최신의 AI 모델에게 작문을 시켰을 때, 이걸 가지고 충분한 설득력 있는 글이거나 읽기 좋은 글이라고 공유할 수 있을까? 양질의 독해력, 양질의 글쓰기 역량, 양질의 판단력이 여전히 쓸모가 있는데, 업무량의 증가로 발생하는 '피로한' 상태에서 그 과업을 집중력 있게 해내야 한다. 우리의 논쟁이 바뀌는 방향이 이런 게 아닐까 싶다.

양승훈 경남대 사회학과 교수