단순히 데이터 센터만이 아니다. AI의 기반 시설도 업그레이드가 필요하다.
(WSJ, Nov/19/2024) It Isn’t Just Data Centers—AI’s Plumbing Needs an Upgrade
다가오는 인공지능(AI) 사용의 물결은 단순히 데이터 센터와 전력망에만 부담을 주는 것이 아니다. 이는 국가의 네트워크 역량에도 압박을 가할 전망이다.
이는 더 많은 사람들이 AI 챗봇과 에이전트를 사용하게 되고, 이들이 다시 더 많은 AI 에이전트와 상호 작용하게 되면서 더 많은 데이터, 컴퓨팅, 네트워킹과 같은 백엔드 기술 시스템이 필요하기 때문이다.
네트워킹은 데이터 센터 내부와 데이터 센터 간, 그리고 데이터 센터와 인터넷에 연결된 기기 간 데이터를 이동시키는 "기반 시설"로 여겨진다.
"AI와 함께 발생하고 앞으로도 계속 증가할 트래픽은 기계 대 기계 환경에서 엄청난 규모가 될 것입니다,"라고 데이터 센터 운영사 Digital Realty의 최고기술책임자(CTO) 크리스 샤프는 말했다.
반도체 거대 기업 엔비디아, 네트워크 장비 제조업체 시스코, 데이터 센터 제공업체, 그리고 Lumen Technologies와 DE-CIX와 같은 인터넷 캐리어와 교환 사업자들은 네트워크 개편의 기회를 주목하고 있다. 이는 장비 업그레이드, 새로운 소프트웨어 도구 개발, 네트워크 제공업체와 협력해 용량과 역량을 늘리는 작업을 포함할 수 있다.
시스코는 지난주 분기 매출과 이익 감소를 보고했지만, 인프라에 대한 수요가 실적을 뒷받침했다고 밝혔다.
시장조사기관 Straits Research에 따르면, 글로벌 데이터 센터 네트워킹 시장은 현재 346억 1천만 달러 규모에서 2033년까지 1,189억 4천만 달러에 이를 것으로 예상된다. BNP 파리바는 트래픽을 라우팅하는 데이터 센터 스위치의 판매가 향후 몇 년 동안 거의 두 배로 증가하고, AI 칩을 연결하는 백엔드 스위치 판매는 네 배로 증가할 수 있다고 밝혔다.
IDC에 따르면, 전통적인 스위치보다 더 많은 데이터를 처리할 수 있는 업그레이드된 AI 데이터 센터 스위치에 대한 글로벌 사업 투자만으로도 올해 1억 2,720만 달러에서 2027년까지 10억 달러로 성장할 것으로 전망된다.
미국 교직원 연금협회(TIAA)는 AI 중심으로 전환하기 위해 네트워크 업그레이드를 진행 중이라고 TIAA의 최고 운영, 정보 및 디지털 책임자인 사스트리 두르바술라는 밝혔다. 그는 "AI 워크로드의 특성이 이를 요구하며, 경쟁 환경이 이를 필수적으로 만듭니다,"라고 말했다.
생성형 AI 모델을 훈련하고 사용하는 데는 기존 인터넷 트래픽보다 더 많은 데이터 이동(대역폭 요구)과 더 빠른 속도(지연 시간 감소)가 필요하다. “이는 과거의 전송 네트워크가 처리해야 했던 것보다 훨씬 더 많은 데이터를 의미합니다,”라고 데이터 센터 제공업체 Flexential의 최고경영자(CEO) 크리스 다우니는 말했다.
대규모 그래픽 처리 장치(GPU)를 지원하려면 네트워크를 업그레이드하거나 전용 네트워크를 구축해야 한다. GPU는 AI를 훈련하고 실행하는 데 주로 사용되는 고성능 하드웨어로, 전력 소모가 큰 것이 특징이다.
이러한 비용은 새로운 장비의 높은 가격 때문에 더욱 악화된다. 일부 AI 지원 스위치는 기존 데이터 센터 스위치보다 최소 다섯 배 비싸며, 기존 스위치는 몇 백 달러에서 몇 천 달러에 이른다고 분석가들은 추정했다. 네트워크 업그레이드에는 라우터, 소프트웨어, 사이버 보안, 자동화 도구 등도 포함될 수 있으며, 이 모든 것이 AI용 새로운 네트워크를 지원하는 데 필요하다.
엔비디아는 InfiniBand라는 네트워킹 플랫폼도 제작하여 데이터 센터 내부와 데이터 센터 간 엔비디아 GPU 간에 대량의 데이터를 이동할 수 있게 한다. 경쟁 플랫폼인 이더넷(Ethernet)은 AI 네트워킹에는 덜 성숙한 것으로 간주되지만, 모든 유형의 데이터 센터에서 더 널리 사용되며 이를 지원하는 장비를 판매하는 공급업체도 더 많다고 IDC는 밝혔다.
일론 머스크의 xAI는 최근 테네시주 멤피스에 10만 개의 엔비디아 GPU로 구성된 슈퍼컴퓨터 "클러스터"를 구축했다고 발표했다. 이 슈퍼컴퓨터는 AI 모델을 훈련하고 제공하기 위한 것으로, 122일 만에 완성된 데이터 센터는 엔비디아가 이더넷 기반으로 만든 네트워킹 플랫폼인 Spectrum-X를 사용한다고 엔비디아는 밝혔다.
그러나 예상되는 AI 네트워킹 업그레이드가 모든 기업에 즉시 영향을 미치는 것은 아니다.
시스코 네트워킹 그룹의 수석 부사장 겸 총괄 매니저인 케빈 월렌웨버는 "AI를 아직 실험 중인 기업들이 긴 꼬리를 이루고 있으며, 이들 기업은 클라우드에서 시작해 이후 자체 데이터 센터 사용을 늘릴 가능성이 높다"고 말했다.
많은 기업의 기술 리더들은 여전히 자체 데이터 센터가 아닌 클라우드에서 AI 모델을 훈련하거나 사용하고 있다. 이는 네트워크 용량을 업그레이드할 책임이 클라우드 제공업체에 있음을 의미한다. 마이크로소프트와 아마존 같은 클라우드 제공업체들은 자체 데이터 센터를 GPU와 AI 지원 네트워킹으로 구축하기 위해 수십억 달러를 투자했다.
온라인 가구 소매업체 Wayfair는 대부분 구글 클라우드 플랫폼을 이용하기 때문에 AI 전용 조정을 할 필요가 없다고 최고기술책임자(CTO) 피오나 탄은 말했다. 그러나 Wayfair의 필요가 구글이나 다른 제공업체가 제공할 수 있는 범위를 초과한다면, 자체 네트워킹 옵션을 탐색할 수 있다고 그녀는 덧붙였다.
인터넷 캐리어 Lumen의 회장 겸 CEO인 케이트 존슨은 주요 기술 기업들이 먼저 AI 데이터 센터를 구축하는 것은 놀라운 일이 아니라고 말했다. Lumen은 최근 마이크로소프트 AI 데이터 센터에 광섬유 연결을 제공하는 50억 달러 규모의 계약을 체결했다. 또한 Meta Platforms의 AI 인프라를 위한 연결도 제공하고 있다.
존슨은 몇 년 후에는 대기업들이 대형 클라우드 플랫폼을 통해 AI를 사용하는 데서 벗어나 자체 데이터 센터를 구축해 AI를 훈련하고 실행하기 시작할 것으로 예상했다.
일부 기업은 이미 그 단계에 도달했다. 디지털 서비스 및 컨설팅 회사 Infosys는 자체 GPU 클러스터를 보유하고 있어 중소형 AI 모델을 구축하고 훈련한다고 최고기술책임자 라피 타라프다르는 밝혔다. 또한 AI 모델을 실행하기 위해 GPU와 중앙처리장치(CPU)도 소유하고 있다. 이 모든 인프라, 네트워킹을 포함해, 정기적으로 업그레이드가 필요하다고 그는 말했다.
포레스터의 수석 분석가 나빈 차브라는 AI를 비즈니스 프로세스에 진지하게 구현하려는 기업들은 네트워킹 요구 사항에도 진지할 것이라고 말했다. “기업들은 3년 후를 내다볼 때, 이를 초기부터 해결하지 않으면 그것이 그들의 ‘아킬레스건’이 될 수 있음을 분명히 인식하고 있습니다,”라고 그는 말했다.