추론으로 옮겨갈수록 TPU 경쟁력
알파벳 수직 통합 구조 강점
엔비디아 독주 체제 '흔들'
이 기사는 11월 26일 오후 2시48분 '해외 주식 투자의 도우미' GAM(Global Asset Management)에 출고된 프리미엄 기사입니다. GAM에서 회원 가입을 하면 9000여 해외 종목의 프리미엄 기사를 보실 수 있습니다.
[서울=뉴스핌] 황숙혜 기자 = 앞으로 펼쳐질 인공지능(AI) 세상의 최대 병목은 칩이 아니라 전력 부족이라는 주장이 나왔다.
월가는 여전히 최고의 칩 업체에 베팅하는 데 혈안이고, 엔비디아(NVDA)의 GPU(그래픽처리장치)가 시장을 지배하고 있지만 이는 승부의 절반일 뿐이라는 주장이다.
GPU는 데이터를 빠르게 처리하는 데 최적이지만 엄청난 에너지를 소모한다는 사실이 치명적인 단점이다. AI 데이터센터가 전력 먹는 하마라는 얘기는 과장이 아니다.
젠슨 황 엔비디아 최고경영자(CEO)는 최근 전력 공급 문제로 인해 중국이 AI 경쟁에서 미국을 앞지를 것이라고 경고한 바 있다.
AI의 최대 병목이 칩 부족이 아니라 전력 부족이라면 승부는 컴퓨팅 효율성에서 결정 나게 된다고 업계 전문가들은 말한다.
AI 모델의 학습 단계에서 추론(inference) 단계로 무게중심이 이동할수록, 즉 거대언어모델(LLM)을 실제 운영하는 단계에서는 컴퓨팅 효율성의 중요성이 크게 높아진다는 설명이다.
미국 빅테크들은 GPU를 대체할 수 있는 제품 개발에 공격적인 행보를 보이고 있다. 업계에 따르면 엔비디아의 GPU가 AI 칩 시장에서 80~90%의 점유율로 압도적인 1위를 차지하고 있고, 데이터센터의 AI 모델 부문에서 업체의 CUDA 생태계와 하드웨어가 표준으로 자리잡은 상황.
![]() |
| 구글의 최신 아이언우드 TPU [사진=업체 제공] |
엔비디아 GPU의 독주에 도전하는 대체 칩으로 알파벳(GOOGL) 자회사 구글의 TPU(Tensor Processing Unit)와 아마존(AMZN)의 트레이니엄(Trainium), 브로드컴(AVGO)의 ASIC, 퀄컴(QCOM)과 애플(AAPL)의 NPU(Neural Processing Unit) 등이 꼽힌다.
NPU는 주로 스마트폰과 이른바 엣지 기기에 특화된 AI 가속 칩으로, 실시간 추론과 저전력 환경에 적합하고, ASIC과 트레이니엄이 데이터센터와 대규모 추론 환경에서 사용이 확대되는 모양새다.
![]() |
| 엔비디아의 GB200 그레이스 블랙웰 [사진=블룸버그] |
월가는 구글의 TPU에 조명을 집중한다. 구글이 자체 설계한 AI 전용 칩이 LLM 훈련과 대형 데이터센터 환경에 최적화됐다는 평가다. 실제로 TPU v4/v5의 경우 엔비디아의 일부 GPU 대비 가격과 에너지 효율 측면에서 우위를 보인다는 의견이 나오는 가운데 메타 플랫폼스(META)와 오픈AI가 구글 TPU 채택을 저울질한다는 소식이다.
알파벳은 10년 이상 자체적인 AI 칩 TPU 개발에 매달렸다. 판매보다 내부적인 텐서플로(TensorFlow)를 위한 맞춤형 AI 칩을 개발하는 데 무게를 뒀다. 미국 온라인 투자 매체 모틀리 풀은 브로드컴이 고객들을 통해 비즈니스 성과를 내고 있지만 알파벳의 내부 개발 성과가 그 이상의 의미를 갖는다고 주장한다. 기업들이 브로드컴의 ASIC을 도입한다 해도 알파벳의 7세대에 달하는 TPU의 성능을 따라잡기 어렵다는 얘기다.
TPU의 최대 장점은 알파벳의 클라우드 컴퓨팅 인프라와 워크로드에 최적화 돼 있다는 점이다. 이는 성능을 높일 뿐 아니라 에너지 소모를 줄이기 때문에 컴퓨팅 비용 측면에서 커다란 이점이 된다. 이 같은 비용 우위는 앞으로 AI 추론의 수요가 늘어날수록 더욱 크게 부각될 전망이다.
시장 전문가들은 알파벳이 수직 통합 구조의 승자가 될 가능성을 열어 두고 있다. 수직 통합 구조란 구글이 직접 칩 설계부터 제조, 데이터센터 인프라, 소프트웨어 플랫폼까지 모두 자체적으로 통합 운영한다는 의미다.
구글은 GPU를 포함한 타사 칩을 구매하지 않고 TPU를 자체 설계, 생산해 구글 클라우드와 자체 데이터센터에 대규모로 투입한다. 칩 제작부터 공급과 운영까지 외부 의존도가 거의 없기 때문에 성능과 비용 측면의 효율성이 탁월하다는 설명이다.
업체는 TPU를 위한 전용 네트워킹과 전용 서버 및 수냉 인프라 등을 직접 개발, 구축해 수천에서 수 만 개 칩을 묶어 이른바 TPU 팟(TPU Pod) 혹은 AI 하이퍼컴퓨터(AI Hypercomputer) 식의 슈퍼컴퓨터 기반의 운영이 가능하다고 밝혔다.
제미나이(Gemini)와 PaLM(Pathways Language Model) 등 업체의 AI 모델도 TPU에 특화돼 있어 하드웨어부터 소프트웨어, 서비스까지 일원적으로 연동된다고 구글은 설명한다.
미국 경제 매체 CNBC를 포함한 외신들은 수직 통합의 장점으로 대규모, 고효율 클러스터 조성과 유연성을 꼽는다. 필요한 순간에 AI 연산 자원을 확장했다가 작업이 끝나면 곧바로 줄일 수 있다는 얘기다.
아울러 칩별 전력 효율성과 비용 우위, 성능 개선 효과가 뛰어나고 기획부터 출시까지 혁신 속도가 빠르다고 설명한다. 외부 공급망 리스크에 따른 제약이 거의 없다는 점도 수직 통합의 강점으로 꼽힌다.
강세론자들은 AI 훈련에 무게를 두는 단계에서 시장의 다음 단계가 전개되면 알파벳의 수직 통합 전략이 최대 승자로 부상할 수 있다고 주장한다.
DA 데이비드슨은 보고서를 내고 "알파벳만큼 완벽한 AI 기술 스택을 갖춘 기업을 찾기 힘들다"며 "특히 최근 공개된 제미나이 3 모델은 특정 영역에서 동급 모델을 압도하는 능력을 보여주고 있다"고 평가했다.
알파벳의 특이점은 TPU를 단독 제품으로 판매하지 않는다는 사실이다. 고객들은 구글 클라우드(Google Cloud)에서 자신들의 워크로드를 돌려야만 TPU를 사용할 수 있다. AI 관련 매출 기회를 한꺼번에 확보할 수 있는 성장 모델을 구축했다는 얘기다.
알파벳이 TPU를 자체 AI 워크로드에 접목, 제미나이 AI 모델을 개발, 학습, 추론, 운영한다는 점에서 오픈AI와 퍼플렉시티 AI 등 GPU 중심의 경쟁자에 대해 구조적인 비용 우위라고 강세론자들은 주장한다.
알파벳은 버텍스(Vertex) AI 등 최상급 소프트웨어 플랫폼을 제공해 고객들이 제미나이 기반의 AI 모델과 앱을 자체적으로 개발할 수 있도록 한다. 아울러 대규모 광섬유 네트워크도 보유하고 있어 지연(latency)도 줄일 수 있다.
클라우드 보안 부문의 선두로 꼽히는 위즈(Wiz) 인수 추진까지 AI 기술 스택을 대폭 강화하는 움직임이다.
최근 미국 IT 전문 매체 더 인포메이션의 보도에 따르면 메타 플랫폼스가 구글 TPU 사용을 놓고 협상을 벌이고 있다. 오픈AI에 이어 빅테크가 GPU 의존도를 축소하고 공급망을 다변화하는 움직임이다.
일부에서는 엔비디아가 최근 고객 업체 투자에 적극 나서는 것도 오픈AI가 TPU 테스트를 시작했다는 소식에 따른 대응이라는 해석을 내놓았다.
월스트리트저널(WSJ)에 따르면 엔비디아는 오픈AI의 TPU 테스트 소식이 전해진 뒤 곧장 업체와 추가 투자 및 협상에 나섰다. 신문은 AI 칩 대장주로 꼽히는 엔비디아 역시 알파벳의 TPU를 높이 평가한다는 의미로 풀이했다.
shhwang@newspim.com















