(Economist, Sep/16/2024) How to build more powerful chips without frying the data centre
인공지능(AI) 금rush를 위한 GPU 제조업체인 엔비디아의 블랙웰 칩은 2080억 개의 트랜지스터가 두 개의 "다이"에 분산되어 있다. 각 다이는 약 800 제곱 밀리미터의 면적을 가지며, 프로세서 회로를 포함하고 있다. 두 개의 다이는 초고속 10 테라바이트(즉, 10,000 기가바이트) per second의 칩 간 연결로 연결되어 있다. 각 다이는 192 기가바이트의 데이터를 저장하는 네 개의 고대역폭 메모리(HBM) 칩 블록으로 둘러싸여 있다. 이 메가칩을 제작하는 데 사용된 고급 패키징 기술은 현재 주목받고 있으며, 일부에서는 이로 인해 생산 지연이 발생할 수 있다고 추측하고 있다.
블랙웰의 다양한 부품 조합은 칩 제조업체들이 에너지 소비를 유지하면서 컴퓨팅 파워를 향상시키기 위해 기술을 얼마나 극한으로 끌어올려야 하는지를 보여준다. 이 메가칩 중 하나는 70,000달러의 비용이 들며, 연간 5.2 MWh의 에너지를 소비한다. 이는 평균 미국 가정의 에너지 소비의 약 절반에 해당한다. 더 많은 트랜지스터를 추가하는 것은 칩의 처리 성능을 높이는 가장 좋은 방법이다. 단일 칩 내에서의 통신은 칩 간 데이터 이동보다 천 배 빠르며, 에너지를 백 배 덜 사용한다. 그러나 데나드 스케일링이 2000년대 중반에 벽에 부딪힌 이후로 트랜지스터 크기를 줄이는 것이 에너지 효율성을 크게 향상시키지 못했다. 고든 무어는 더 많은 트랜지스터를 집적할 수 있는 두 가지 방법을 제안했다: 다이 크기를 증가시키고(즉, 칩을 더 크게 만들고) "장치 및 회로의 기발함"을 활용하는 것이다. 1971년 인텔의 4004 프로세서는 12 제곱 밀리미터의 다이 크기를 가졌다. 현재의 리소그래피 도구는 800 제곱 밀리미터보다 큰 칩을 제작할 수 없으며, 이는 각 블랙웰 다이의 크기와 비슷하다. 회로의 기발함이 유일한 다른 대안이다.
하나의 기발한 아이디어는 칩 면적을 더 효율적으로 사용하는 것이다. 반도체 칩을 측면에서 보면 다층 케이크와 같으며, 트랜지스터를 구성하는 층이 맨 아래에 있고, 그 위에 10-20개의 금속 배선 층이 쌓여 있다. 최첨단 칩은 거의 100km의 작은 금속 선을 사용할 수 있으며(이는 수십억 개의 트랜지스터 간 연결의 합계이다), 이로 인해 칩은 데이터와 전력선의 복잡한 고속도로처럼 변모한다. 맨 위층에는 칩 전체에 전력을 분배하는 두꺼운 금속 선이 있다. 이러한 강력한 전력선은 최상층에서 최하층까지 뚫고 들어가 트랜지스터와 연결되기 때문에 전기 신호를 라우팅하는 데 사용되는 면적의 거의 5분의 1을 차지할 수 있다.
Baking the cake
더 많은 공간을 만들기 위해, 주요 파운드리들은 이제 "뒷면 전력 공급(backside power delivery)" 기술을 개발하고 있다. 이 기술은 두꺼운 전력선을 트랜지스터 아래에 위치한 층으로 이동시키며, 이를 칩의 "뒷면"이라고 부른다. 이 방법은 세 가지 이점을 제공한다. 첫째, 공간을 확보하여 트랜지스터 위의 모든 영역을 데이터 라우팅에 사용할 수 있게 한다. 금속 선의 혼잡이 줄어들면서, 트랜지스터 그룹인 게이트를 같은 공간에 더 밀집시킬 수 있다. 둘째, 트랜지스터 아래의 전력선은 트랜지스터와 연결되는 짧은 연결을 필요로 하며, 이러한 연결은 더 두껍게 할 수 있어 전력 공급이 더 에너지 효율적이다. 마지막으로, 이러한 강력한 전력선은 수요 급증 시 전압 스파이크에 덜 민감하여 트랜지스터의 스위칭 속도를 더욱 빠르게 보장한다. 그 결과, 트랜지스터 크기를 줄이지 않고도 더 빠르고 전력 효율이 높은 칩이 만들어진다.
하지만 전력선을 트랜지스터 아래로 이동시키면 제조 과정에 추가 단계가 필요하다. 일반적으로 칩의 다층 구조가 완성되면 웨이퍼를 뒤집고 내부 회로를 외부 세계에 연결하는 패키지에 담는다. 그러나 뒷면 전력 공급을 사용할 경우, 뒤집은 후에 연마와 전력선 추가 작업이 필요하다. 이러한 추가 단계는 번거롭지만 그만한 가치가 있다. 2023년 인텔은 뒷면 전력 공급과 그로 인해 가능한 더 스마트한 구성 요소 배치를 활용하여 트랜지스터 속도를 6% 향상시키고, 이전에 사용하던 것과 동일한 크기의 구성 요소로 10% 더 높은 집적 밀도를 달성했다.
또 다른 전략은 모든 기능을 하나의 칩에 밀어넣는 대신 각 작업에 가장 적합한 제조 기술을 선택하는 것이다. 고성능 프로세서는 가장 최신의 노드가 필요하지만, 외부와 통신하는 모듈과 같은 칩의 다른 부분은 가장 작은 트랜지스터가 필요하지 않다. 칩을 "칩렛"이라고 불리는 더 작은 블록으로 나눈 다음, 이를 함께 패키징하면 칩 제조업체는 처리 유닛에 최대 면적을 사용할 수 있다. 나머지 회로는 다른 칩렛으로 옮겨지기 때문이다. 동일한 패키지 내에서 칩렛 간의 통신은 외부 회로와 비교할 때 훨씬 빠르고 에너지를 덜 소모한다.
패키징은 오랫동안 반도체 제조의 소외된 분야였다. 파운드리는 실리콘 웨이퍼 생산에 집중했지만, 칩렛의 등장으로 패키징이 주목받고 있다. 칩렛은 서로 다른 프로세스 기술로 제작된 여러 다이를 인터포저라는 층 위에 나란히 배치하여 조립된다. 이 다이들은 "마이크로범프"로 인터포저에 접합된다.
인터포저는 일반적으로 유기 수지로 만들어진 기판 위에 위치하며, 높은 밀도의 배선을 통해 다이들 간의 연결과 패키지를 통해 외부 세계와의 연결을 담당한다. 이를 통해 칩렛 간의 빠른 데이터 전송이 가능해지고 전력 효율성이 향상된다. 엔비디아의 블랙웰 프로세서는 TSMC의 이 기술을 사용하여 두 개의 다이와 여덟 개의 HBM 칩을 결합해 슈퍼칩을 만든다. TSMC는 여러 처리 칩렛과 HBM 스택을 수용하기 위해 가장 큰 다이의 여섯 배 크기의 인터포저를 개발할 계획이다.
한편, 인텔은 수지를 버리고 칩렛을 유리 위에 쌓는 계획을 발표했다. 유리는 초평면 구조로 미세 피치의 고밀도 배선에 더 적합하며, 특히 큰 크기에서 열적 및 기계적 안정성이 우수하다. 인텔은 이러한 전환이 유기 인터포저보다 연결 밀도를 열 배 증가시킬 수 있다고 주장한다.
칩렛 기술의 다음 큰 도약은 다이를 직접 위에 쌓아 서로 간의 거리를 줄이는 것이다. 메모리 제조업체들은 이러한 3D 스태킹의 초기 개척자들이다. HBM(고대역폭 메모리)은 전문 AI 칩에서 사용되며, 일반적으로 여덟 개에서 열두 개의 메모리 칩이 고용량 라우팅 라인으로 연결되어 쌓인다. 이는 메모리와 프로세서 간의 대역폭을 증가시킨다.
Training ai models requires hundreds of processors linked together
이제 AI 칩도 이러한 추세를 따르고 있다. 3D 패키징은 제곱 밀리미터당 10,000개의 연결을 제공할 수 있으며, 이는 나란히 배치한 패키징의 25개에 비해 훨씬 많다. 더 많은 연결은 칩렛 간의 데이터 흐름을 원활하게 해준다. 또한, 에너지 효율성이 높아 이전 버전의 1% 이하의 에너지를 사용해 각 비트를 전송할 수 있다. AMD가 제작한 MI300X는 엔비디아의 H100과 경쟁하는 제품으로, 하나의 패키지에 네 개의 인터포저 다이에 여덟 개의 가속기 칩렛과 여덟 개의 HBM 스택을 쌓아 놓고 있다.
이러한 이점은 비용을 동반한다. AMD의 사무엘 나프지거는 여러 칩을 단일 패키지로 결합하기 전에 테스트해야 하므로 3D 패키징이 제조 과정에 시간과 복잡성을 더한다고 언급한다. 칩렛을 함께 포장하면 칩 내의 열 밀도가 증가한다. 열 방산을 원활하게 하기 위해, 칩 설계자들은 가장 많은 열을 발생시키는 층을 스택의 맨 위에 위치시키고, 메모리와 같이 열 발생이 적은 구성 요소는 아래에 배치한다.
AI 모델을 훈련하는 데는 수백 개의 프로세서를 연결한 대규모 시스템이 필요하다. 칩렛을 패키지에 밀어 넣은 후에도, 이러한 개별 프로세서와 연결된 메모리 칩 간에 대량의 데이터가 빠르게 전송되어야 한다. 일반적으로 메인보드에서 구성 요소를 연결하는 구리 선은 느리고 에너지를 낭비한다. 따라서 일부 기업들은 속도를 높이기 위해 빛을 활용하고 있다.
광섬유 케이블은 전 세계 인터넷 트래픽의 99%를 처리하는 인터넷의 중추 역할을 한다. 이러한 케이블은 데이터 센터 내에서도 짧은 거리를 연결하는 데 사용된다. 이 경우, 광섬유 양 끝의 장비가 전기 신호를 빛으로 변환하고, 다시 빛을 전기 신호로 바꾼다. 이제 광통신 기술이 실리콘 칩으로도 진입하고 있다. 미국의 스타트업 Ayar Labs는 프로세서 간 광통신을 제공하는 칩렛을 개발하는 기업 중 하나다. 이 칩렛은 패키지 가장자리에 위치하여 전기 신호를 빛으로 변환한 후 이를 광섬유를 통해 전송한다. 수신단에서는 또 다른 칩렛이 빛을 다시 전기 신호로 변환하여 패키지 내의 프로세서로 데이터를 전달한다. 이 회사는 이 기술이 칩 간 대역폭을 최대 10배 향상시키고, 에너지 효율성은 8배 높인다고 주장한다.
Suburbs and skyscrapers
에너지 효율이 높고 고속의 칩 간 통신에서 궁극적인 도약은 모든 칩렛을 하나의 칩으로 통합하는 것이다. 이 칩은 여러 층의 프로세서, 메모리 및 센서를 포함하게 된다. 이렇게 하면 칩의 다양한 부분 간의 연결 밀도가 더욱 높아진다. 스탠퍼드 대학교의 수바사시 미트라는 이를 넓은 교외 배치에서 높은 마천루로 이동하는 것에 비유한다.
마천루가 사람들을 위아래로 이동시키는 엘리베이터를 갖고 있는 것처럼, 이 메가칩은 여러 층의 컴퓨팅 및 메모리 간에 데이터를 빠르게 전송하는 수백만 개의 연결이 필요하다. 이러한 엘리베이터는 칩을 시원하게 유지하는 데도 도움을 줄 수 있으며, 열을 하층으로 유도하는 역할을 한다. 결국, 칩 제조업체들은 이러한 칩 타워를 나란히 배치할 수 있을 것이다. 미트라는 이것이 에너지 효율성을 천 배까지 향상시킬 수 있다고 믿고 있다.
'미주연 리포트' 카테고리의 다른 글
컨스텔레이션 주가가 22% 급등한 이유 (3) | 2024.09.21 |
---|---|
[Silicon returns to Silicon Valley] 무어의 법칙의 끝이 변화의 속도를 늦추지는 않을 것 (4) | 2024.09.20 |
[Silicon returns to Silicon Valley] 디지털 컴퓨팅을 넘어선 가능성 (3) | 2024.09.20 |
[Silicon returns to Silicon Valley] AI는 칩 아키텍처와 소프트웨어를 밀접하게 결합시키고 있다 (7) | 2024.09.20 |
[Silicon returns to Silicon Valley] 노드 이름이 실제 트랜지스터 크기를 반영하지 않는다 (2) | 2024.09.20 |
[Silicon returns to Silicon Valley] 반도체 산업이 직면한 가장 큰 기술적 난제 (6) | 2024.09.19 |
[Silicon returns to Silicon Valley] AI가 반도체를 컴퓨터 기술의 중심으로 (5) | 2024.09.19 |
연초이후 약 3배 상승한 숨은 AI 수혜주 : 탈런 에너지 (2) | 2024.09.19 |