'망각'을 배우는 AI···구글 터보퀀트 등장의 진짜 의미

AI 효율화 기술이 새로운 성장 기회로 부상메모리·연산 자원 최적화가 시장의 핵심으로CXL·HBM·TPU 등 차세대 인프라 기술 각축전

그래픽=이찬희 기자

과연 삼성전자와 SK하이닉스에 베팅해도 될까? 새로운 AI(인공지능) 기술의 등장은 언제나 투자 이야기로 귀결된다. 반도체, 데이터센터와 같은 전방산업부터 소재, 설계, 패키징 등 후방산업에 이르기까지 시장의 관심은 온통 기업의 '실적'으로 쏠린다. 변화의 국면에서 각각의 플레이어가 자신의 파이를 얼마나 잘 지키고 키워낼 수 있는지가 판단의 기준이 된다.

구글 터보퀀트가 공개됐을 때도 마찬가지였다. '메모리 사용량을 줄일 수도 있다'는 한 줄의 평가에 시장은 충격에 휩싸였고, 바로 글로벌 기업을 놓고 계산기를 두드리기 시작했다. 결과적으로 주가는 크게 출렁였다. 투자금 회수 여부에 대한 눈앞의 걱정이 AI가 만들 장밋빛 미래를 덮어버린 장면이었다.

하지만 터보퀀트가 시사하는 바는 따로 있다. AI의 중심 축이 '얼마나 많이 기억하느냐'에서 '어떻게 기억하고 꺼내느냐'로 옮겨가고 있다는 대목, 사람처럼 사고하던 AI가 이제 생각하는 방식마저도 사람을 닮아가고 있다는 점이다.

우리 산업도 새로운 시각을 가질 필요가 있다. 터보퀀트가 던진 화두에 발맞춰 다음 AI 시대를 버텨낼 생존 전략과 기회를 모색해야 한다.

그래픽=이찬희 기자

메모리 사용량 6배↓···AI 시장 흔든 터보퀀트

구글 연구진이 지난달 25일(현지시간) 발표한 터보퀀트는 AI 모델이 답변을 생성할 때 사용하는 'KV 캐시' 메모리를 압축하는 기술이다.

모델 내부에서 처리되는 벡터 정보를 보다 작은 크기로 표현해 동일한 작업을 수행하면서도 필요한 메모리 용량을 크게 줄이도록 있도록 설계됐다. 메모리 사용량을 6배 이상 덜어내면서 처리 속도를 8배까지 끌어올린다고 회사 측은 소개했다.

챗GPT나 제미나이와 같은 대규모 언어 모델(LLM)은 이용자가 대화를 걸수록 AI가 기억해야 할 토큰 수(데이터)가 급격히 늘어난다. 이 과정에서 하드웨어의 메모리 자원을 많이 사용하게 되는데, 그 용량이 한계치에 이른다면 피드백이 느려지거나 아예 작동하지 않을 수 있다. 따라서 메모리를 포함한 대규모 컴퓨팅 자원이 필수적이다. 고대역폭메모리(HBM) 수요가 급증해 병목 현상까지 일어나고, 반도체 생산 기업인 삼성전자·SK하이닉스가 세계적으로 주목받는 것도 이런 배경에서다.

구글 연구진은 AI가 처리하는 데이터 용량을 줄이는 방식으로 메모리 병목 현상에 대한 해법을 제시했다. 터보퀀트는 데이터를 두 단계로 압축한다. 1단계에서는 입력 데이터를 무작위로 회전한 뒤 각 요소를 개별적으로 양자화해 압축 효율을 높인다. 2단계에서는 1단계에서 발생한 오차(residual)를 다시 양자화하는 'QJL(양자화 존슨-린덴스트라우스 변환)' 기법을 적용한다. 데이터를 수학적 기호인 '-1'과 '+1'로만 표현해 한 개의 데이터를 1비트 방식으로만 처리하는 식이다. 이를 통해 기존 대비 훨씬 적은 데이터(3~4비트)만으로 핵심 정보를 정확히 표현한다.

그래픽=박혜수 기자

짧게 기억하고 빠르게 판단···사람처럼 '잊는' AI

아직 개념에 불과하지만, 터보퀀트는 AI의 정체성에 큰 변화를 예고하고 있다. 불필요한 정보는 압축해 무게를 낮추고 중요한 내용은 상대적으로 선명하게 유지해 적시에 활용토록 돕는다는 대목에서다. 어쩌면 AI 역시 사람처럼 '깜빡한다'는 의미로도 해석할 수 있다.

'장기 기억(Longterm memory)'과 '작업 기억(Working memory)'으로 연결된 사람의 기억 체계에서 그 원리를 유추해본다. 먼저 장기 기억은 머리에 정보를 저장하는 것, 작업 기억은 소리·이미지 등으로 분산된 정보를 일시적으로 유지·처리·결합하는 기능을 뜻한다. 다만 사람의 기억은 단순 축적이 아닌 선별의 과정이다. 대부분의 정보는 감각 단계에서 버려지고 일부만 단기 기억으로 올라오며, 그 중에서도 극히 적은 양만 장기 기억으로 남는다. 그리고 필요할 때마다 이를 꺼내서 사용한다.

예를 들어 사람들은 대게 '짜장면'이라는 말을 온종일 머릿속에 두고 되새기지 않는다. 그러다 그와 연관된 단서를 접하는 순간 과거의 경험과 지식을 토대로 자연스럽게 관련된 장면을 떠올린다. 찰나에 이뤄지는 이 과정에서 사람은 이 단어의 의미와 형태는 물론, 특정 식당이나 맛, 에피소드 등 개인적 경험까지 한꺼번에 머릿속에 재생한다. 불완전한 단서를 모아 정보를 복원하는 작업 기억 체계의 결과물이다.

터보퀀트는 이 지점을 건드렸다. 모든 정보를 동일하게 유지하는 대신 압축을 통해 표현력을 조절하고 구조적으로 정리한다. 100% 똑같다고 하긴 어려우나, 필요 없는 정보를 의도적으로 덜 남기고 덜 활용하도록 한다는 방향성에서 구글이 AI를 사람에게 한 발 더 가까이 옮겨놨다고 평가할 만 하다.

사실 AI의 형태도 사람의 기억 체계와 다르지 않다. 모델 파라미터가 장기 기억이라면, KV 캐시는 추론 과정에서 이전 정보를 유지하는 단기 기억에 해당한다. 그리고 어텐션 매커니즘은 필요한 정보에 집중해 계산을 수행한다는 측면에서 일종의 선택 장치로 이해할 수 있다.

화웨이 노아의 방주 연구소(Huawei Noah's Ark Lab)는 2025년 논문 '인간의 기억에서 AI의 기억으로(From Human Memory to AI Memory)' 중 AI가 이미 인간과 유사한 기억 구조를 갖추기 시작했다고 분석했다. 모델 파라미터와 KV 캐시, 대화 히스토리, 데이터베이스(DB) 등을 사람의 장기 기억과 단기 기억, 경험 기억, 외부 기록 등으로 정의해 이들이 어떤 방식으로 정보를 저장했다가 꺼내 쓰는지를 제시했다.

다만 AI의 한계도 분명히 짚었다. 기억이 단편적이고, 장기 기억이 약하며, 맥락을 지속적으로 유지하기 어렵다는 점이다. 쉽게 말해 방대한 정보를 저장하고 있음에도 이를 유기적으로 활용하는 능력은 부족하다고 연구진은 지적했다. 현재 주류의 AI가 단기 기억을 '효율적으로 활용'하기보다 가능한 많은 정보를 그대로 유지하는 방식에 가깝다는 데 기인한다.

선택적 처리로 전력·발열·노이즈 해결 한 번에

터보퀀트가 가져올 변화의 의미는 단순한 기술적 진보에 그치지 않는다. AI의 성능이 향상될수록 직면하게 되는 '인프라'의 니즈와도 맞닿아 있다.

대표적인 게 전력 소모 문제다. LLM(대형 언어모델) 기반 AI 모델은 막대한 양의 데이터를 처리하고 저장하는 과정에서 상당한 전력을 소비한다. 데이터 사용량이 늘수록 정보의 이동과 접근이 증가해 에너지 소모는 기하급수적으로 커진다. 이 경우 기업 입장에선 운용 비용 상승과 에너지 효율성 저하라는 이중 부담에 처한다.

그래픽=이찬희 기자

발열도 같은 맥락이다. 메모리와 연산 자원이 과도하게 사용되면 시스템 온도는 상승할 수밖에 없는데, 이 때도 시스템을 보호하기 위한 냉각 비용의 고민이 뒤따른다. 탄소 배출과 직결되는 환경 이슈이기도 하다.

'노이즈'도 간과할 수 없다. 모든 정보를 저장하려는 구조에선 중요도가 낮은 정보까지 함께 쌓인다. 모델의 판단을 흐리게 만들고, 효율적인 추론을 방해하는 요인이 된다.

AI의 선택적 기억, 즉 '망각'이 유용해지는 것은 바로 이 지점이다. 데이터의 불필요한 이동을 줄이면서도 기능과 효율성을 유지한다면 전력·발열·성능 문제에서 한층 자유로워질 것으로 기대된다.

유수의 테크 기업도 여기에 초점을 맞출 공산이 크다. 그간에는 성능 좋은 메모리를 더 많이 확보하는 게 경쟁의 핵심이었다면, 앞으로는 제한된 자원을 얼마나 효율적으로 활용하느냐가 중요한 기준으로 떠오를 수 있다. 단순히 메모리 용량을 늘리는 방식에서 벗어나, 데이터 저장과 이동, 연산 과정을 함께 최적화하는 방향으로 무게 중심이 이동하는 셈이다. AI 시스템 전반의 작동 방식이 재편되는 신호라는 해석도 가능하다.

CXL부터 NPU까지···기회는 누구에게?

따라서 주목받을 기업은 이런 곳이어야 한다. 자원을 더 많이 확보하는 쪽이 아니라, 제한된 재원을 더 효율적으로 나누고 연결하는 기술을 갖추려는 곳이다.

이미 산업계 곳곳에선 하드웨어 영역에서 메모리 효율성을 극대화하기 위한 시도가 이뤄지고 있으며, 성과도 속속 포착되고 있다.

'CXL(컴퓨터익스프레스링크·Compute Express Link)'가 대표적이다. CXL은 CPU, GPU, 메모리 등 데이터센터 내 주요 자원을 고속으로 연결해 공유할 수 있도록 하는 인터페이스 기술을 의미한다. 기존에는 하나의 서버마다 개별적으로 메모리를 탑재해야 했다면, CXL을 활용하면 여러 서버가 메모리를 공동으로 쓸 수 있기 때문에 자원 효율성이 커진다. 터보퀀트가 데이터 용량을 줄여 메모리 사용량을 조율하는 것이라면, CXL은 메모리 효율성을 최대한 끌어올리는 기술인 셈이다.

현재 국내에선 파두와 파네시아, 오픈엣지테크놀로지 등 팹리스(반도체 설계 기업)가 시장 선점을 위해 분주하게 움직이고 있다. 특히 파네시아는 세계 최초로 포트 기반 라우팅(PBR)을 포함한 CXL 3.2 표준의 전체 기능을 구현하는 데 성공했다. PCIe 기반 GPU와 스위치, CPU, 메모리 확장 장치, AI 가속기 등을 하나로 연결할 수 있도록 했다. 이를 활용하면 LLM, 검색증강생성(RAG), 추천시스템(DLRM) 등의 운영 환경에서 유휴자원 낭비를 줄여 비용 절감을 돕는다는 게 회사 측 전언이다.

컴퓨팅 자원을 효율적으로 쓰기 위해 AI에 특화한 반도체를 개발하려는 노력도 이어지고 있다. 엔비디아의 그래픽처리장치(GPU)가 사실상 표준으로 자리 잡았지만, 특정 기업에 집중된 공급 구조로 인해 AI 산업 전반의 인프라 불안정성이 커지고 있다는 지적이 잇따르고 있어서다. GPU의 대안으로 주문형 반도체(ASIC), 신경망처리장치(NPU) 등 다양한 AI 가속기 시장이 빠르게 성장하는 분위기다. 구글은 자체적인 AI 텐서처리장치(TPU)를 개발해 학습과 추론 용도로 특화된 차세대 AI 칩을 밀고 있는 모양새다. 국내에선 리벨리온·퓨리오사AI·모빌린트·하이퍼엑셀 등이 NPU를 개발하며 대항마로 나섰다.

업계에서는 향후 AI 모델 고도화 경쟁이 이어질수록 메모리 효율화 기술과 인프라 혁신이 동시에 필요하다고 본다. 단순한 메모리 용량 확대에서 벗어나, 자원을 얼마나 효율적으로 활용하느냐가 핵심 경쟁력으로 부상하고 있다는 얘기다.

업계 관계자는 "AI 경쟁의 중심이 단순한 인프라 확장에서 효율적인 구조 설계로 이동하고 있다"며 "제한된 자원 안에서 성능을 극대화할 수 있는 기술 기업들이 향후 시장을 주도할 가능성이 크다"고 말했다.