AI 인공지능

AI가 쓸 수 있는 데이터가 사라지고 있다

주삼부칠 2024. 7. 29. 22:20

 

 

(Economist, 07/23/2024) ImageNet의 혁신적인 점은 인터넷이 이미지뿐만 아니라 그것들을 라벨링하는 리소스도 제공했다는 것이다. 검색 엔진이 개, 고양이, 의자 등으로 판단되는 사진들을 제공하면, 이 이미지들은 Amazon의 크라우드소싱 서비스인 Mechanical Turk를 통해 모집된 사람들에 의해 검사되고 주석이 달렸다. Mechanical Turk는 사람들이 단순한 작업을 수행함으로써 돈을 벌 수 있게 해주는 플랫폼이다.

그 결과로 수백만 개의 큐레이션되고 검증된 이미지 데이터베이스가 만들어졌다. 2012년, AlexNet이라는 프로그램이 ImageNet의 일부를 훈련에 사용하여 "딥 러닝"의 놀라운 잠재력을 보여주었다. 여기서 딥 러닝은 이전에 사용되던 것보다 훨씬 더 많은 층을 가진 신경망을 의미한다.

이는 AI 붐의 시작이었고, 동시에 AI 훈련 데이터를 제공하기 위한 라벨링 산업의 시작이기도 했다.

 

인터넷은 이미지뿐만 아니라 그것들을 라벨링하는 데 필요한 자원도 제공했다. 검색 엔진이 개, 고양이, 의자 등으로 여겨지는 사진들을 제공하면, 이 이미지들은 Amazon의 크라우드소싱 서비스인 Mechanical Turk를 통해 모집된 사람들에 의해 검사되고 주석이 달렸다. Mechanical Turk는 사람들이 단순 작업을 수행해 돈을 벌 수 있게 해주는 플랫폼이다.

 

 

이 과정의 결과로 수백만 개의 큐레이션되고 검증된 이미지 데이터베이스가 만들어졌다. 2012년, AlexNet이라는 프로그램이 ImageNet의 일부를 훈련에 사용하여 "딥 러닝"의 놀라운 잠재력을 보여주었다. 여기서 딥 러닝은 이전보다 훨씬 더 많은 층을 가진 신경망을 의미한다.

이는 AI 붐의 시작점이 되었고, 동시에 AI 훈련 데이터를 제공하기 위한 라벨링 산업의 출발점이 되었다.

 

LLM(대규모 언어 모델)의 발전 또한 인터넷 데이터에 의존했지만, 그 방식은 달랐다. LLM의 전형적인 훈련 과제는 이미지 내용을 가장 잘 설명하는 단어를 예측하는 것이 아니라, 주변 단어들을 바탕으로 텍스트에서 잘라낸 단어가 무엇인지 예측하는 것이다.

이런 종류의 훈련에서는 라벨링되고 큐레이션된 데이터가 필요 없다. 시스템이 단어를 가리고, 추측하고, 답을 채점하는 "자기 지도 학습"이라는 과정을 통해 스스로 학습할 수 있다다만 방대한 양의 데이터가 필요하다. 시스템에 주어진 훈련용 텍스트가 많을수록 성능이 좋아진다. 인터넷이 수백 조 단어의 텍스트를 제공한다는 점에서, LLM에게 인터넷은 현대 산업에 대한 퇴적물 속 무작위로 쌓인 탄소와 같은 존재가 되었다. 즉, 기적의 연료로 정제될 수 있는 원료인 셈이다.

50억 개의 웹 페이지를 포함한 개방형 인터넷의 대부분을 아카이브한 Common Crawl이 AI 연구에 널리 사용되기 시작했다. 최신 모델들은 여기에 더해 Books3(수천 권의 책을 모은 널리 쓰이는 컴파일레이션) 같은 더 다양한 출처의 데이터를 보충했다. 하지만 기계의 텍스트에 대한 욕구가 인터넷이 따라갈 수 없는 속도로 증가하고 있다. 연구 기관 Epoch AI는 2028년까지 인터넷상의 고품질 텍스트 데이터 재고가 모두 소진될 것으로 추정한다. 업계에서는 이를 "데이터 벽"이라고 부른다. 이 벽을 어떻게 다룰 것인가가 AI의 큰 과제 중 하나이며, 아마도 AI의 진전을 늦출 가능성이 가장 높은 문제일 것이다.

 

 

 

AI를 발전시키기 위한 한 가지 접근법은 데이터의 양보다 질에 초점을 맞추는 것이다. AI 연구소들은 단순히 전체 인터넷 데이터로 모델을 훈련시키지 않는다. 대신 모델의 학습 효과를 극대화하기 위해 데이터를 필터링하고 순서를 정한다. AI 기업 Databricks의 Naveen Rao는 이것이 시장에 나와 있는 AI 모델들 간의 "주요 차별점"이라고 말한다.

세계에 대한 "진정한 정보"가 중요한 것은 분명하고, 많은 "추론" 능력도 중요하다. 이런 이유로 예를 들어 학술 교과서가 특히 가치 있는 데이터 소스가 된다. 하지만 다양한 데이터 소스 간의 균형을 맞추는 것은 여전히 일종의 비밀스러운 기술로 남아있다.

어떤 모델이 사용되든 소유권 문제가 점점 더 중요하게 인식되고 있다. LLM 훈련에 사용되는 자료는 종종 저작권이 있는 것들로, 권리 소유자의 동의나 지불 없이 사용된다. 일부 AI 모델은 유료 콘텐츠도 들여다본다. 모델 개발자들은 이런 행위가 미국 저작권법의 "공정 사용" 예외에 해당한다고 주장한다. 그들은 AI 모델이 인간처럼 저작권이 있는 자료를 읽으며 학습할 수 있어야 한다고 말한다.


**최고의 라벨러들은 시간당 최대 100달러를 벌 수 있다**

다양한 권리 소유자들이 서로 다른 전략을 취하고 있다. Getty Images는 이미지 생성 기업인 Stability AI를 이미지 저장소의 무단 사용으로 고소했다. New York Times는 수백만 건의 기사에 대한 저작권 침해로 OpenAI와 Microsoft를 고소했다. 다른 신문사들은 자사 콘텐츠 라이선스 계약을 체결했다. Wall Street Journal의 소유주인 News Corp는 5년간 2억 5천만 달러 규모의 계약을 맺었다. (The Economist는 AI 기업들과의 관계에 대해 입장을 정하지 않았다.) 다른 텍스트와 비디오 소스들도 같은 행보를 보이고 있다. 코딩 도움말 사이트인 Stack Overflow, 소셜 미디어 사이트인 Reddit, 그리고 X(전 Twitter)는 이제 훈련을 위한 콘텐츠 접근에 대해 요금을 부과하고 있다.

 

 

**대규모화**

인터넷상의 사전 훈련 데이터가 고갈됨에 따라 사후 훈련이 더욱 중요해지고 있다. Scale AI와 Surge AI 같은 라벨링 기업들은 사후 훈련 데이터를 수집하여 연간 수억 달러를 벌어들이고 있다. Scale은 최근 140억 달러의 기업 가치 평가를 받으며 10억 달러를 조달했다. Mechanical Turk 시대와는 달리 지금은 최고의 라벨러들이 시간당 최대 100달러를 벌 수 있다. 하지만 사후 훈련이 더 나은 모델을 만들고 많은 상업적 응용에 충분하긴 하지만, 궁극적으로는 점진적인 개선에 불과하다.

데이터 벽을 조금씩 밀어내는 대신, 그것을 완전히 뛰어넘는 해결책도 있다. 한 가지 접근법은 기계가 만들어 무한히 생성할 수 있는 합성 데이터를 사용하는 것이다. Google 자회사인 DeepMind가 만든 AlphaGo Zero 모델이 좋은 예다. 회사의 첫 성공적인 바둑 모델은 수백만 건의 아마추어 게임 기보 데이터로 훈련되었다. 반면 AlphaGo Zero는 기존 데이터를 전혀 사용하지 않았다. 대신 3일 동안 자체적으로 490만 번의 대국을 벌이며 승리 전략을 기록하면서 바둑을 학습했다. 이 "강화 학습"은 다수의 가능한 대응을 시뮬레이션하고 승리 확률이 가장 높은 것을 선택함으로써 상대의 수에 대응하는 방법을 가르쳤다.


어려운 점은 이 접근법을 의료나 교육 같은 분야로 확장하는 것이다. 게임에서는 승리에 대한 명확한 정의가 있고 어떤 수가 유리한지에 대한 데이터를 수집하기가 더 쉽다. 다른 분야에서는 더 까다롭다. "좋은" 결정에 대한 데이터는 일반적으로 전문가들로부터 수집된다. 하지만 이는 비용이 많이 들고 시간이 걸리며 부분적인 해결책에 불과하다. 그리고 특정 전문가가 정확한지 어떻게 알 수 있을까?

더 많은 데이터에 접근하는 것이 AI의 빠른 발전을 유지하는 데 핵심이라는 점은 분명하다. 이는 전문 소스에서 수집되거나, 합성적으로 생성되거나, 인간 전문가가 제공하는 데이터일 수 있다. 유전과 마찬가지로 가장 접근하기 쉬운 데이터 저장소는 고갈되었다. 이제 과제는 새로운 저장소를 찾거나 지속 가능한 대안을 찾는 것이다.

728x90