미주연 리포트/엔비디아

엔비디아의 미래

주삼부칠 2024. 8. 30. 22:56

(Wedbush, Aug/27/2024)  Nvidia’s Future Relies on Chips That Push Technology’s Limits


AI 칩 분야에서 선두를 유지하기 위해, Nvidia(NVDA)는 ‘더 큰 것이 더 좋다’는 아이디어에 의존하고 있다.

하지만 더 큰 것이 더 어려워지고 있는 것도 사실이다.

회사의 최신 인공지능 칩의 디지털 두뇌는 대략 스크래블 타일 네 개를 정사각형으로 배열한 크기이며, 지난해 초부터 Nvidia의 사업을 폭발적으로 성장시킨 이전 칩들보다 약 두 배 더 크다. 블랙웰(Blackwell)이라고 불리는 이 새로운 칩들은 성능 면에서도 훨씬 더 큰 향상을 자랑하며, 트랜지스터 수가 2.6배 증가했다. 제너슨 황(Jensen Huang) 최고경영자(CEO)는 이 칩들에 대한 수요가 매우 뜨겁다고 말했다.

그러나 Nvidia는 수요일 강력한 분기 매출과 이익을 발표하면서도 새로운 칩을 제조하는 데 따른 어려움이 수익률 감소와 최근 기간에 기록한 9억 800만 달러의 충당금의 주요 원인이라고 밝혔다. 이러한 요인들로 인해 목요일 Nvidia의 주가는 6.4% 하락했다.

Nvidia는 문제의 구체적인 성격을 자세히 설명하지 않았지만, 분석가와 업계 관계자들은 이러한 엔지니어링 문제의 대부분이 블랙웰 칩의 크기에서 비롯된다고 말한다. 블랙웰은 하나의 큰 실리콘 조각 대신, 두 개의 고급 Nvidia 프로세서와 여러 메모리 구성 요소들이 실리콘, 금속, 플라스틱의 섬세한 메쉬로 결합된 디자인으로 설계되어야 하기 때문이다.

칩의 크기 확대 Sizing up

 

Nvidia의 점점 더 커지는 칩은 처리 성능을 제공하는 작은 스위치인 트랜지스터를 점점 더 많이 담을 수 있다.

 

 

 

각 칩의 제조는 거의 완벽에 가까워야 한다. 어느 한 부분에 심각한 결함이 생기면 큰 문제가 발생할 수 있으며, 더 많은 구성 요소가 관여할수록 그 위험은 커진다. 게다가, 이러한 모든 부품에서 발생하는 열은 패키지 내의 다양한 재료를 서로 다른 속도로 변형시킬 위험이 있다.

이러한 문제는 비록 미세한 회로와 관련된 복잡한 문제처럼 들리지만, 결국 회사의 수익에 상당한 영향을 미칠 수 있다. 중요한 결함이 발생하면 4만 달러의 블랙웰 칩이 무용지물이 되고, 칩 제조사의 생산물 중 사용 가능한 비율을 나타내는 중요한 산업 지표인 전체 제조 "수율"에도 부정적인 영향을 미칠 수 있다.

산업 분석 업체인 TechInsights의 부회장 G. Dan Hutcheson은 “문제는 칩들이 함께 작동하고 수율을 맞추는 것”이라고 말했다. 그는 “칩의 개별 부품들의 수율이 충분히 높지 않으면, 모든 것이 빠르게 악화되는 것을 알 수 있다”고 말했다.

블랙웰의 복잡성

엔비디아는 수요일 블랙웰의 수율을 개선하기 위해 설계 변경을 했다고 밝혔다. 칩에 대한 "기능적 변경"은 필요하지 않았다고 황은 애널리스트들과의 통화에서 말했다.

최고 재무 책임자인 Colette Kress는 엔비디아가 블랙웰 생산을 늘릴 준비가 되어 있으며, 1월에 끝나는 분기 동안 몇십억 달러의 매출에 기여할 것으로 기대하고 있다고 밝혔다.

이번 달 초 UBS 애널리스트들은 보고서에서 엔비디아가 블랙웰과 관련해 겪고 있는 주요 문제는 대부분의 엔비디아 칩을 생산하는 계약 칩 제조사인 대만 반도체 제조 회사(TSMC)가 제공하는 새로운 칩 결합 방식을 사용하는 복잡성 때문이라고 말했다. TSMC는 이에 대한 논평을 거부했다.

 

새로운 접근 방식과 도전 과제

블랙웰의 크기 때문에 필요했던 새로운 접근 방식은 제조 복잡성 증가와 신뢰성과 성능에 영향을 미치는 변형 문제 등 여러 장애물을 동반했다고 애널리스트들은 말했다. 이들은 이러한 문제가 블랙웰 출시를 어렵게 하는 주요 요인이라고 지적했지만, 시간이 지나면서 생산 수율이 상승하면 엔비디아가 내년에 계획대로 칩을 생산할 수 있을 것이라고 전망했다.

엔비디아는 최근 2년마다 신제품을 출시하는 대신 매년 새로운 칩을 출시하는 방향으로 전환하면서 제조 문제를 신속하게 해결해야 할 압박이 커졌다.

엔비디아는 수요일 증권 보고서에서 이러한 상황을 인정하며, "새로 도입된 제품의 빈도와 복잡성이 증가하면 품질 또는 생산 문제를 일으킬 수 있으며, 이는 비용 상승이나 지연을 초래할 수 있다"고 밝혔다.

One Giant Chip


이러한 문제는 엔비디아만의 것이 아니며, 업계 내부자들은 칩 제조업체들이 칩 크기를 키워 처리 성능을 높이려 할수록 더 많은 문제가 발생할 가능성이 있다고 말한다. 수율을 개선하거나 결함을 해결하기 위한 칩 설계 변경도 업계에서는 흔한 일이다.

엔비디아의 가장 가까운 칩 제조 경쟁자인 AMD의 CEO 리사 수(Lisa Su)는 미래에 칩을 서로 쌓고 더 많은 실리콘을 사용해 성능을 극대화하려는 시도가 늘어남에 따라 복잡성이 증가할 것이라고 말했다.

“이 모든 것을 제대로 작동시키려면 많은 기술이 필요하다”고 그녀는 말했다. “앞으로 칩이 더 복잡하고 커질 것인가? 당연하다. 그게 바로 우리가 직면한 현실이다.”

그녀는 또한 차세대 칩이 에너지 효율이 더 높고 전력 소모가 적다는 이점도 있다고 말했다. 이는 AI 데이터 센터가 전력망 용량을 잡아먹는 상황에서 점점 더 중요한 문제가 되고 있다.

황 CEO는 블랙웰의 크기를 강조하며 마케팅 포인트로 삼았다. 그는 3월 엔비디아 컨퍼런스에서 “이것은 단지 하나의 거대한 칩일 뿐입니다”라고 말했다. “블랙웰이 물리적 한계를 넘어설 것이라는 이야기를 들었을 때, 엔지니어들은 ‘그게 뭐가 문제죠?’라고 반응했습니다.”

엔비디아의 현재 세대 AI 칩인 호퍼(Hopper)로, 엔비디아는 이미 칩 제조의 크기 한계에 도달했다. 실리콘 위에 미세한 회로를 새기는 가장 진보된 리소그래피 장비는 최대 약 800제곱밀리미터, 즉 약 1.1인치 변의 정사각형 크기까지 칩을 만들 수 있다.

블랙웰로 한계를 넘기 위해 엔비디아는 두 개의 최대 크기 칩을 하나의 칩으로 결합하기로 결정했으며, 이는 자사에서 제작하는 상업용 그래픽 칩에서는 이전에 시도되지 않은 일이었다.

"AI에서 의미 있는 작업을 하려면 엄청난 양의 계산 능력이 필요하며, 이는 단일 칩에 담을 수 있는 것보다 훨씬 더 많은 트랜지스터로 이어진다"고 엔비디아와 경쟁하는 칩 제조 스타트업 Cerebras Systems의 창립자 앤드류 펠드만(Andrew Feldman)은 말했다. "두 개의 [칩]으로 가는 기술을 개발하는 것은 어렵고, 네 개로 가는 것은 더 어렵고, 여덟 개로 가는 것은 훨씬 더 어렵다."

OpenAI의 CEO인 샘 알트먼을 포함한 투자자들이 참여하고 있는 Cerebras는 보통 더 작은 칩으로 자르는 실리콘 웨이퍼를 하나의 거대한 칩으로 연결하고 작동시키는 방법을 개발함으로써 문제에 접근했다.

이번 주에 AI 배포를 위한 클라우드 컴퓨팅 서비스를 출시하여 엔비디아의 지배력에 도전한 이 회사는 AstraZeneca와 Mayo Clinic을 포함한 고객들을 모았다. 최근 미국에서 기업공개(IPO)를 비공개로 신청했다.

728x90