AI 칩은 데이터를 넣어 모델의 틀을 짜는 ‘학습’과 이를 실제 작업에 쓰는 ‘추론’ 두 가지 용도로 쓰이고 있다. 학습 비중이 컸던 AI 초기에서 벗어나 이제 추론이 주목받는 가운데 젠슨 황 엔비디아 최고경영자(CEO)는 16일(현지시간) 두 시간에 걸친 ‘GTC 2026’ 기조연설에서 ‘추론(inference)’을 35번이나 언급했다.
이날 젠슨 황 CEO는 오는 10월까지 자사 AI 칩 주문액을 작년 같은 자리에서 예측한 수치의 두 배인 1조달러(약 1500조원)로 전망하고 있다고 밝혔다. 핵심 동력은 추론용 칩이다. 그는 “지난 2년간 업무에 필요한 컴퓨팅 수요가 1만 배 늘었고 사용량은 100배 정도 증가했을 것”이라고 설명했다.시장에서는 추론 수요가 학습을 이미 뛰어넘었다는 분석이 나온다. 가트너는 지난해 추론용 AI 칩 시장이 학습용을 넘어섰고, 2029년에는 추론 수요가 학습의 두 배에 달할 것으로 내다봤다. AI 에이전트의 등장 때문이다. 사용자 질문에 응답하는 챗봇과 달리 AI에이전트는 문서 작업·코딩 등을 자율적으로 처리함에 따라 더 많은 반복 작업을 한다.
엔비디아의 그래픽처리장치(GPU)는 학습 성능에서 비교 대상이 없지만 추론 효율은 상대적으로 떨어진다는 게 업계의 평가다. 추론 수요가 커지면서 구글과 아마존이 텐서처리장치(TPU)를, 트레이니엄 등이 주문형반도체(ASIC)를 직접 개발하고 나선 상황이다. 이들은 추론 작업 시 엔비디아의 최신 GPU 대비 높은 전력 효율을 내세워 엔비디아의 시장 지배력을 위협하고 있다.
그록3 LPU는 추론에 특화한 AI 칩이다. 특히 GPU 대비 데이터 지연(레이턴시)이 적다는 것이 강점으로 꼽힌다. 엔비디아 AI 가속기 베라루빈은 연산을 담당하는 GPU 루빈과 메모리를 저장하는 6세대 고대역폭메모리(HBM4) 사이를 데이터가 오가면서 병목 현상이 발생한다. 반면 그록3 LPU는 연산 반도체 내부에 정적랜덤액세스메모리(SRAM)을 적용해 지연을 최소화했다. 짧은 데이터 전송 거리는 전력 효율성도 높인다. 그록은 엔비디아에 인수되기 전 2세대 LPU가 GPU보다 전력 효율이 10배가량 높다고 주장했다.
엔비디아는 GPU의 강력한 연산 능력과 LPU의 속도 및 효율성을 결합한다는 계획이다. 그록3 LPU 256개를 장착한 랙 ‘LPX’를 베라루빈 플랫폼에 결합한다는 것이다. 젠슨 황 CEO는 “파라미터(매개변수)가 조(兆) 단위인 최고급 AI 모델 추론 처리량을 35배 늘리고, 지연 시간을 절반으로 줄일 수 있다”고 강조했다.
이어 SK하이닉스 부스에서는 최태원 SK그룹 회장과 환담하며 “당신들이 자랑스럽다”고 덕담했다. SK하이닉스 HBM4와 서버용 저전력메모리 모듈 ‘소캠2(SOCAMM2)’가 장착된 엔비디아 베라루빈 AI 가속기 시제품에 ‘젠슨♡SK하이닉스’라고 영어로 적어 넣었다.
▶AI 학습과 추론
학습은 대량의 데이터를 인공신경망에 투입해 AI 모델을 형성하는 과정. 추론은 학습된 AI 모델을 통해 응답을 생성하는 과정.
실리콘밸리=김인엽 특파원 inside@hankyung.com
관련뉴스








