(HBR, Jan/30/2025) Why DeepSeek Shouldn’t Have Been a Surprise

중국 AI 스타트업 DeepSeek은 이달 많은 사람들을 놀라게 했다.
1월 20일 출시된 DeepSeek의 새로운 모델은 규모가 작고 더 효율적이며, 훈련 및 운영 비용이 훨씬 저렴함에도 불구하고 OpenAI와 Meta 같은 미국의 선도적인 AI 기업들의 모델과 경쟁하고 있다.
그러나 중국 기업의 이러한 성공은 경영 이론, 특히 파괴적 혁신 disruptive innovation 이론을 통해 예측할 수 있었을 가능성이 크다.
결국, 파괴적 혁신은 최첨단 기술은 아니지만, 많은 사용자들에게 충분한 성능을 제공하는 저비용 대안 low-cost alternative에 관한 것이다. DeepSeek이 미국 AI 업계의 기존 가정을 뒤흔들며 기술 및 에너지 관련 주가 폭락을 초래한 것도 바로 이러한 전략에 따른 결과로 보인다.
경영 이론이 이번 사건을 설명할 수 있다면, 앞으로의 전개 방향에 대한 통찰도 제공할 수 있다.
기술 변화 이론들theories of technological change을 바탕으로, 우리는 이번 혁신이 글로벌 기업들에게 어떤 의미를 가지는지 분석하고자 한다. 기업 경영진들은 앞으로 중국 또는 미국의 대형 언어 모델 LLM을 라이선스할 것인지, 아니면 선택지를 열어둘 것인지에 대해 고민해야 할 것이다.
중국의 대형 언어 모델 LLM과 미국의 모델은 두 가지 중요한 차이점이 있다.
첫째, 중국의 LLM은 일반적으로 더 저렴한 하드웨어를 사용하며, 오픈 아키텍처를 활용하여 비용을 절감하는 경향이 있다.
둘째, 많은 중국의 LLM은 일반적인 작업이 아닌 특정 도메인에 맞춰 커스텀화되어 있다. 즉, 보다 좁은 범위의 특정 응용 분야에 최적화된 모델이 많다. 다만, DeepSeek-R1과 같은 모델은 보다 범용적인 추론 모델로 발전하고 있다.
미국의 LLM 모델은 일반적으로 수만 개의 최신 엔비디아 GPU 클러스터에서 훈련되며, 막대한 자본 투자와 클라우드 인프라가 필요하다.
반면, 첨단 칩에 대한 수출 통제 등의 이유로 대부분의 중국 LLM은 여러 개의 성능이 낮은 GPU를 활용한 분산 학습을 기반으로 한다.
그럼에도 불구하고, 더 효율적인 아키텍처를 통해 경쟁력 있는 성능을 구현하고 있다.
예를 들어, DeepSeek의 다중 헤드 잠재 어텐션 Multi-Head Latent Attention MLA 및 전문가 혼합 Mixture of Experts MOE 아키텍처는 메모리 사용량을 줄이는 방식으로 설계되었으며, 이를 통해 컴퓨팅 자원을 보다 효율적으로 활용할 수 있다.
오픈소스 코드베이스를 적극적으로 활용하는 것도 중국의 LLM 개발에서 중요한 역할을 한다.
DeepSeek-V3는 최신 추론 시스템을 지원하는 기반 모델이며, DeepSeek-R1과 함께 MIT 오픈소스 라이선스로 공개되었다.
이 라이선스는 사용자가 소프트웨어를 자유롭게 사용, 수정, 배포할 수 있도록 허용하며, 상업적 용도로도 활용할 수 있는 최소한의 제한만을 두고 있다.
이러한 효율적인 아키텍처와 오픈소스 접근 방식의 장점은 훈련 비용을 비교할 때 더욱 두드러진다. DeepSeek은 V3 모델 훈련에 약 560만 달러를 사용한 것으로 알려졌으며, 이는 OpenAI와 알파벳 같은 미국 AI 기업들이 LLM 개발에 보고한 4000만~2억 달러의 비용과 큰 차이를 보인다.
또한, 미국의 LLM이 광범위한 글로벌 데이터를 기반으로 훈련된 범용 모델을 우선하는 반면, 많은 중국의 LLM은 특정 도메인에 대한 정밀한 최적화를 목표로 설계된다.
알리바바, 텐센트, 바이두, 바이트댄스 같은 중국의 주요 IT 기업뿐만 아니라 DeepSeek과 같은 신생 스타트업들도 자사의 LLM을 활용한 산업별 맞춤형 애플리케이션을 제공하며, 이러한 기술은 중국의 디지털 생태계에 깊이 통합되고 있다.
결론적으로, 중국의 LLM은 상대적으로 덜 발전된 하드웨어를 사용하며, 초기에는 범용성이 낮고 특정 용도에 최적화된 애플리케이션을 중심으로 개발된다. 이러한 모델들은 더 적은 연산 자원을 필요로 하며, 그 결과 가격도 저렴하게 책정되는 경우가 많다.
예를 들어, 알리바바의 Qwen plus와 바이트댄스의 Doubao 1.5-pro는 출력 100만 토큰당 비용이 0.30달러 미만인 반면, OpenAI의 o1과 Anthropic의 Claude 3.5 Opus는 100만 토큰당 60달러 이상으로 큰 가격 차이를 보인다.
이는 전형적인 파괴적 혁신 이론이 적용되는 사례다. 과거 미니밀 mini-mill이 전통적인 일체형 제강소 integrated steel plant를 어떻게 무너뜨렸는지와 유사한 흐름을 보인다.
파괴적 혁신 이론에 따르면, 초기에는 성능이 떨어지는 기술이 특정 저가 시장을 공략하며 등장한다.
예를 들어, 전기로 electric arc furnace는 초기에는 품질이 낮은 철근을 생산하는 데 집중했지만, 점차 기술이 발전하면서 고급 강판을 생산하는 대형 제강소의 시장을 잠식해 나갔다.
마찬가지로, 초기에는 저렴한 특정 용도에 최적화된 중국의 LLM이 점차 성능을 개선하며 고급 시장에서도 경쟁력을 갖추게 되고, 기존의 선도 기업들은 점진적으로 시장 점유율을 잃게 될 가능성이 크다.
파괴적 혁신 이론은 DeepSeek과 같은 기업의 등장과 발전을 예측할 수 있다.
실제로, 향후 몇 개월 내에 또 다른 혁신적인 기업들이 등장하더라도 놀라운 일이 아닐 것이다.
특히, 소형 언어 모델 SLM은 더 적은 데이터와 자원을 활용하며, 상대적으로 낮은 품질의 출력을 제공하지만, 이러한 기술이 미국과 중국의 대형 언어 모델 LLM 모두에게 도전이 될 가능성이 있다.
SLM이 발전하면 기존의 LLM보다 훨씬 저렴한 비용으로 특정 용도에 최적화된 AI 솔루션을 제공할 수 있으며, 이는 AI 산업의 판도를 더욱 빠르게 변화시킬 수 있다.
Where Do We Go from Here?
DeepSeek의 등장은 전 세계 기업 경영진들에게 중요한 질문을 던지고 있다. 기업들은 미국의 LLM을 라이선스해야 할까, 아니면 중국의 LLM을 선택해야 할까? 혹은 두 가지 모두를 도입하는 것이 더 나은 선택일까?
이러한 결정에는 기존의 경영 이론, 특히 기술적 다각화를 고려하는 전략이 유용하게 활용될 수 있다.
기업이 여러 개의 LLM 모델을 도입하는 가장 큰 장점 중 하나는 위험 분산diversification of risk이다.
LLM의 경우, 이는 특정 AI 서비스 제공업체에서 발생할 수 있는 운영 중단 리스크를 완화하는 것과 연결된다. 예를 들어, OpenAI의 서비스에 문제가 생길 경우, 기업이 다른 제공업체의 모델을 병행하여 사용하고 있다면 업무가 중단되지 않고 지속될 수 있다.
또한, 여러 모델을 활용하는 또 다른 장점은 집계 효과benefits of aggregation에서 나온다.
각 LLM은 서로 다른 알고리즘을 사용하므로 동일한 질문에 대해 다양한 답변을 제공한다. 연구에 따르면, 여러 모델의 출력을 결합하는 방식, 즉 앙상블 ensembling 기법을 적용하면 특히 복잡하거나 모호한 작업에서 더 높은 품질의 결과를 도출할 가능성이 크다.
이미 미국 기반의 AI 모델 집계 플랫폼인 Openrouter와 같은 서비스가 등장했으며, 이들은 사용자가 180개 이상의 AI 모델의 성능과 비용을 실시간으로 비교할 수 있도록 하는 통합 인터페이스를 소정의 비용으로 제공하고 있다.
반면, 단일 공급업체와 협력하는 장점도 있다.
단일 공급업체를 사용할 경우 관리 비용이 줄어들고, 파트너십 양측이 서로의 역량을 더 깊이 이해할 수 있다.
반대로, 여러 모델을 병행할 경우 데이터 보안 및 개인정보 보호 리스크가 증가할 가능성이 있다.
데이터가 여러 제공업체와 공유될 가능성이 높아지면서 보안 취약점이 발생할 수 있으며, 특히 미국과 중국처럼 서로 다른 규제 체계를 가진 국가 간의 데이터 접근 및 사용 문제는 더욱 복잡한 요소로 작용할 수 있다.
이는 특히 헬스케어 같은 민감한 분야에서 더욱 문제를 일으킬 가능성이 크다.
경영 이론에서 기술 변화와 다각화를 다루는 기존 연구들은 단일 공급업체 또는 다중 공급업체 전략을 넘어선 또 다른 가능성, 즉 복합 거버넌스plural governance의 개념을 제시한다.
복합 거버넌스는 외부 공급업체와 내부 개발 인력을 함께 활용하여 신기술을 극대화하는 전략을 의미한다.
경제학 연구에서는 오래전부터 특정 기술에 맞는 고유한 내부 인적 자본을 개발하는 기업이 새로운 기술이 등장할 때 가장 큰 혜택을 받을 가능성이 높다고 주장해 왔다.
이러한 개념을 대형 언어 모델 LLM에 적용할 경우, 일반적인 용도의 작업에는 미국의 LLM을 활용하고, 특정 기업 맞춤형 작업에는 중국의 LLM을 활용하는 전략이 가능할 것이다.
예를 들어, 컨설팅 회사나 법률 사무소에서 연구를 지원하는 AI 챗봇을 개발할 때는 미국의 LLM을 활용하고, 신입 직원 온보딩을 지원하는 HR 교육 챗봇에는 중국의 LLM을 활용하는 방식이 될 수 있다.
더 나아가, 비용이 낮고 오픈소스로 제공되는 LLM 모델은 훈련 데이터 요구량이 적으며, 비록 폐쇄형 모델보다 성능이 다소 떨어질지라도 기업이 특정 맥락에 맞춘 맞춤형 모델을 개발할 수 있도록 해준다.
그러나 시간이 지나면서 이러한 저비용, 저품질 모델들이 점점 개선되며, 결국 미니밀 mini-mill이 전통적인 일체형 제강소 integrated steel plant를 시장 전반에서 무너뜨렸던 것처럼 고비용 모델들을 점진적으로 대체할 가능성이 크다.
데이터 보안과 개인정보 보호 문제에도 불구하고, 그리고 최근 틱톡 이슈를 감안하더라도, 미국의 LLM 기업들이 중국 LLM의 혁신적 위협을 무시하는 것은 위험한 선택이 될 수 있다.
적어도, 미국 AI 기업들은 중국의 도전을 경계하는 것이 아니라 미국 내에서 새로운 혁신 기업들이 SLM을 비롯한 대체 기술을 활용해 시장을 뒤흔들 가능성을 더욱 우려해야 한다.
미국의 대형 AI 기업들도 자체적인 혁신을 통해 스스로를 파괴하는 전략을 시도할 수 있다. 예를 들어, GE는 고가의 초음파 장비 시장을 혁신하기 위해 자체적으로 휴대용 초음파 기기를 개발한 바 있다.
그러나 연구에 따르면 자기 혁신 self-disruption은 매우 어려운 과정이며, 특히 기존의 대규모 투자로 인해 기업들이 기존 사업 모델에 묶이는 경우가 많다.
미국 AI 기업들은 이미 고가의 칩, 하드웨어, 훈련 데이터에 막대한 투자를 해왔으며, 이러한 자원들은 사실상 매몰 비용 sunk cost으로 작용할 가능성이 높다.
또한, 높은 수익률을 창출하는 고급 LLM 판매에 대한 인센티브가 강하게 작용하면서, 오히려 비용이 낮지만 "충분히 좋은 good enough" LLM 개발에는 소극적인 태도를 보일 수 있다.
글로벌 기업들이 LLM을 활용하는 상황에서, LLM 시장의 변화는 내부 역량을 강화하고 기업 맞춤형 모델을 개발할 수 있는 기회를 제공한다.
이를 통해 보다 특정한 사용 사례에 최적화된 모델을 구축할 수 있으며, 동시에 비용 절감과 투자 대비 수익률 ROI 개선이라는 두 가지 이점을 얻을 수 있다.
'경영경제이론' 카테고리의 다른 글
딥시크를 제번스의 역설로 볼 수 있는가 (2) | 2025.03.31 |
---|---|
마이크로소프트는 어떻게 혁신을 지속해가고 있는가 (11) | 2024.10.19 |
BofA, 글로벌 주식 매도 신호 발생 (4) | 2024.10.15 |
HBR On Stratege - Disruptive Innovation in the Era of Big Tech (16) | 2024.10.05 |
미국 고성장 기업들의 트렌드 (6) | 2024.09.29 |
IBM 주가 사상 최고가 근접, 투자자들 안정적 기술주 주목 (6) | 2024.09.11 |
미국인들이 미국 경제를 어둡게 보는 이유 (9) | 2024.09.11 |
21세기 글로벌 비즈니스 제국을 건설하는 방법 (6) | 2024.09.09 |