AI에 관한 짧은 역사
1956년 여름, 뉴햄프셔의 다트머스 대학에는 작지만 저명한 그룹이 모였다. 이 그룹에는 정보 이론의 창시자인 클로드 섀넌과 경제학 노벨 기념상과 컴퓨팅 기계 협회가 수여하는 튜링상을 모두 받은 유일한 인물인 허브 사이먼이 포함되어 있었다. 이들은 젊은 연구자인 존 매카시의 초청으로 모였는데, 그는 "기계가 언어를 사용하고, 추상적 개념을 형성하며, 현재 인간만이 해결할 수 있는 문제를 해결하는 방법"에 대해 논의하고자 했다. 이 모임은 매카시가 "인공지능"이라고 명명한 분야에 대한 첫 번째 학술 모임이었다. 그리고 이 모임은 향후 60여 년 동안 이 분야가 그 야심에 걸맞은 성과를 내지 못하는 템플릿을 설정했다.
다트머스 모임이 인간처럼 생각하는 기계에 대한 과학적 탐구의 시작을 알린 것은 아니다. 앨런 튜링과 존 폰 노이만도 매카시에게 영감을 주었다. 1956년에는 이미 이 문제에 대한 여러 접근 방식이 존재했다. 역사가들은 매카시가 자신의 프로젝트를 위해 인공지능이라는 용어를 만든 이유 중 하나가 이 모든 접근 방식을 포괄할 수 있을 만큼 충분히 넓었기 때문이라고 생각한다. 일부 연구자들은 세계에 대한 사실과 기하학 및 기호 논리의 공리들을 결합하여 적절한 반응을 추론하는 시스템을 선호했다. 반면 다른 연구자들은 많은 다른 것들의 확률이 지속적으로 업데이트되는 시스템에서 한 가지의 확률이 종속되는 시스템을 선호했다.
그 후 몇 십 년 동안 인공지능 주제에 대한 많은 지적 활동과 논쟁이 있었다. 하지만 1980년대에 접어들면서 "전문가 시스템"이라는 방향으로 합의가 이루어졌다. 이 시스템은 상징 논리를 사용하여 인간의 전문 지식을 포착하고 적용하는 것이었다. 특히 일본 정부는 이러한 시스템과 필요한 하드웨어에 큰 지원을 아끼지 않았다. 그러나 대부분의 경우, 이러한 시스템은 현실 세계의 복잡성을 처리하기에는 너무 경직된 것으로 드러났다. 1980년대 후반에 이르러 인공지능은 과대 광고와 미흡한 성과의 대명사로 불신을 받게 되었다. 이 분야에 남아 있던 연구자들은 인공지능이라는 용어를 피하기 시작했다.
오늘날의 인공지능 붐은 그러한 끈기 있는 노력의 일환에서 태어났다. 1940년대에 뇌세포, 즉 뉴런이 작동하는 방식을 이해하기 시작하면서 컴퓨터 과학자들은 기계도 동일한 방식으로 연결될 수 있는지 궁금해하기 시작했다. 생물학적 뇌에서는 뉴런 간의 연결을 통해 하나의 뉴런이 다른 뉴런의 활동을 촉발하거나 억제할 수 있으며, 한 뉴런의 활동은 그것과 연결된 다른 뉴런들의 활동에 따라 달라진다. 이러한 모델을 실험실에서 처음으로 시도한 것은 다트머스 회의 참석자인 마빈 민스키로, 하드웨어를 사용하여 뉴런 네트워크를 모델링했다. 그 이후로는 소프트웨어에서 상호 연결된 뉴런 층이 시뮬레이션되었다.
이러한 인공 신경망은 명시적인 규칙을 사용하여 프로그래밍되지 않고, 대신 많은 예제에 노출되어 "학습"한다. 훈련 과정에서 뉴런 간의 연결 강도(즉, "가중치")가 반복적으로 조정되어 결국 주어진 입력에 적절한 출력이 생성된다. 민스키는 이 아이디어를 포기했지만, 다른 사람들은 이를 발전시켰다. 1990년대 초반까지 신경망은 손으로 쓴 숫자를 인식하여 우편물을 분류하는 등의 작업을 수행할 수 있도록 훈련되었다. 연구자들은 뉴런 층을 더 추가하면 더 복잡한 작업도 가능할 것이라고 생각했다. 하지만 이는 시스템을 훨씬 더 느리게 만들었다.
새로운 종류의 컴퓨터 하드웨어가 이 문제를 해결하는 방법을 제공했다. 그 잠재력은 2009년 스탠퍼드 대학교 연구원들이 기숙사 방에서 게이밍 PC를 사용하여 신경망의 속도를 70배나 증가시켰을 때 극적으로 입증되었다. 이는 모든 PC에 있는 "중앙 처리 장치"(CPU) 외에 게임 화면을 생성하기 위해 설계된 "그래픽 처리 장치"(GPU)가 신경망 코드를 실행하는 데 적합하게 설계되었기 때문에 가능했다.
이러한 하드웨어 가속과 더 효율적인 학습 알고리즘을 결합하면 수백만 개의 연결을 가진 네트워크도 적절한 시간 내에 훈련할 수 있게 되었다. 신경망은 더 큰 입력을 처리할 수 있었고, 더 중요한 것은 더 많은 층을 가질 수 있게 되었다. 이러한 "깊은" 네트워크는 훨씬 더 강력한 성능을 보여주었다.
이 새로운 접근법의 힘은 "딥 러닝"으로 알려지게 되었으며, 2012년 이미지넷 챌린지에서 그 위력을 발휘했다. 이미지 인식 시스템은 100만 개 이상의 라벨이 붙은 이미지 파일로 구성된 데이터베이스를 제공받았다. 예를 들어 "개"나 "고양이"와 같은 단어에 대해 데이터베이스에는 여러 장의 사진이 포함되어 있었다. 이미지 인식 시스템은 이러한 예제를 사용해 입력(이미지)을 출력(단어)으로 "매핑"하도록 훈련되었다. 그런 다음 시스템은 이전에 본 적 없는 테스트 이미지를 입력받아 이러한 설명을 생성하는 과제가 주어졌다. 2012년 토론토 대학교의 제프 힌튼이 이끄는 팀은 딥 러닝을 사용하여 85%의 정확도를 달성했다. 이는 즉시 획기적인 성과로 인식되었다.
2015년까지 이미지 인식 분야의 거의 모든 연구자가 딥 러닝을 사용하게 되었고, 이미지넷 챌린지에서의 우승 정확도는 96%에 도달해 평균적인 인간의 점수를 능가하게 되었다. 딥 러닝은 또한 음성 인식(소리를 텍스트로 매핑), 얼굴 인식(얼굴을 이름으로 매핑), 번역 등 다른 많은 "인간만이 해결할 수 있는 문제"에도 적용되기 시작했다.
이 모든 응용 분야에서 인터넷을 통해 접근할 수 있는 방대한 데이터가 성공에 필수적이었다. 더불어 인터넷 사용자가 많을수록 큰 시장이 형성될 가능성도 높았다. 네트워크가 더 크고(즉, 더 깊어지고) 훈련 데이터가 많을수록 성능이 더 향상되었다.
딥 러닝은 곧 다양한 신제품과 서비스에 활용되기 시작했다. 아마존의 알렉사 같은 음성 인식 장치가 등장했고, 온라인 전사 서비스도 유용해졌다. 웹 브라우저는 자동 번역 기능을 제공했다. 이러한 기능들이 인공지능에 의해 가능해졌다고 말하는 것이 멋지게 들리기 시작했으며, 이는 사실상 거의 모든 최신 기술이 딥 러닝에 의존하고 있기 때문이었다.
2017년에는 더 많은 컴퓨팅 파워와 데이터가 제공하는 양적 이점에 질적 변화가 더해졌다. 이는 트랜스포머라는 새로운 방식의 뉴런 연결 배치 덕분이었다. 트랜스포머는 뉴럴 네트워크가 입력 패턴의 요소들이 멀리 떨어져 있어도 이를 추적할 수 있게 해주며, 데이터의 특정 특징에 "주의"를 기울일 수 있도록 한다.
트랜스포머는 네트워크가 문맥을 더 잘 이해할 수 있게 만들어, "자기 지도 학습"이라는 기법에 적합하게 만들었다. 본질적으로, 훈련 중에 일부 단어가 무작위로 공백 처리되고, 모델은 가장 적합한 후보를 채워 넣는 방식으로 스스로 학습한다. 훈련 데이터는 사전에 라벨링될 필요가 없기 때문에, 이러한 모델은 인터넷에서 가져온 수십억 단어의 원시 텍스트를 사용하여 훈련될 수 있다.
언어 모델을 주의하라
트랜스포머 기반의 대형 언어 모델(LLMs)은 2019년 OpenAI라는 스타트업이 GPT-2라는 모델을 출시하면서 더 널리 주목받기 시작했다. GPT는 'Generative Pre-trained Transformer'의 약자이다. 이러한 LLM들은 명시적으로 훈련되지 않은 "발생" 행동을 할 수 있는 것으로 밝혀졌다. 엄청난 양의 언어 데이터를 흡수하면서 요약이나 번역 같은 언어적 과제뿐만 아니라 단순 산술 계산이나 소프트웨어 작성 같은 훈련 데이터에 암묵적으로 포함된 작업에서도 놀라운 능력을 보였다. 하지만 이러한 모델들은 학습 데이터에 포함된 편견을 재생산하기도 하여, 인간 사회의 지배적인 편견이 출력 결과로 나타나는 문제도 있었다.
2022년 11월, OpenAI는 GPT-3.5라는 더 큰 모델을 챗봇 형태로 대중에게 선보였다. 웹 브라우저만 있으면 누구나 프롬프트를 입력하고 응답을 받을 수 있었다. 소비자 제품 중 이렇게 빠르게 인기를 얻은 것은 없었다. 몇 주 만에 ChatGPT는 대학 에세이부터 컴퓨터 코드까지 생성해냈다. AI는 또 한 번의 큰 도약을 이뤘다.
첫 번째 AI 제품군이 인식에 기반한 것이라면, 두 번째 제품군은 생성에 기반하고 있다. 이 시기에 등장한 Stable Diffusion과 DALL-E 같은 딥러닝 모델은 텍스트 프롬프트를 이미지로 변환하는 확산 기법을 사용했다. 다른 모델들은 놀라울 정도로 현실적인 비디오, 음성 또는 음악을 생성할 수 있다.
이번 도약은 기술적 발전에 그치지 않는다. 무언가를 만들어내는 것은 큰 변화를 가져온다. ChatGPT와 그 경쟁자인 Gemini(구글의 제품)와 Claude(이전 OpenAI 연구자들이 설립한 Anthropic의 제품)는 다른 딥러닝 시스템처럼 계산을 통해 출력을 생성한다. 그러나 이들이 요청에 대해 새로운 응답을 생성한다는 사실은 얼굴을 인식하거나 받아쓰기를 하거나 메뉴를 번역하는 소프트웨어와는 매우 다르게 느껴지게 한다. 이들은 정말로 언어를 사용하고 추상화를 형성하는 것처럼 보이며, 이는 매카시가 희망했던 바와 같다.
이 시리즈의 브리핑에서는 이러한 모델들이 어떻게 작동하는지, 그 능력이 얼마나 더 성장할 수 있는지, 그리고 이들이 어떤 새로운 용도로 사용될 수 있는지, 반대로 사용되어서는 안 되는 용도는 무엇인지에 대해 살펴볼 것이다.