AI는 문법책이나 사전이 아닌 단어가 실제로 쓰이는 맥락에서 의미를 배운다. 예를 들어, 'jam 잼'이란 단어가 서로 다른 동음이의어를 가진다는 걸 알게 되는데, 이는 어떤 맥락에선 사람들이 'jam 잼' 을 먹는 얘기를 하고, 다른 맥락에선 일렉 기타로 'jam 잼' 을 하지만, 아무도 일렉 기타를 먹는다고 말하지 않는다는 사실 때문이다. 학교에서 공식적으로 배우거나 직접 찾아보는 아주 작은 부분을 제외하면, 이는 인간이 아는 모든 단어를 배우는 방식과 똑같다. AI는 이미 텍스트를 넘어 연관 능력을 확장했다. 2021년 OpenAI의 CLIP 프로젝트는 이미지를 설명하는 텍스트와 연결하도록 훈련된 신경망이다. 그 결과 CLIP의 노드들은 "문자 그대로, 상징적으로, 또는 개념적으로 제시된 같은 개념에 반응할 수 있게" 됐다. 예를 들어, 같은 노드가 거미 사진, 스파이더맨 그림, '거미'란 단어에 반응할 수 있다. 이는 인간의 뇌가 맥락을 넘어 개념을 처리하는 방식과 똑같으며, AI에겐 큰 도약이다.
2021년의 또 다른 놀라운 진전은 Multimodality였다. 이전 AI 시스템들은 대체로 한 종류의 데이터 입출력에 한정됐다 - 어떤 AI는 이미지 인식에 집중했고, 다른 시스템들은 오디오를 분석했으며, LLM들은 자연어로 대화했다. 다음 단계는 한 모델에서 여러 형태의 데이터를 연결하는 거였다. 그래서 OpenAI는 DALL-E(초현실주의 화가 살바도르 달리와 픽사 영화 WALL-E를 합친 말장난)를 내놓았는데, 이는 단어와 이미지 사이의 관계를 이해하도록 훈련된 Transformaer이다. 이를 통해 텍스트 설명만으로 완전히 새로운 개념(예: "아보카도 모양의 안락의자")의 그림을 만들 수 있었다. 2022년엔 그 후속작인 DALL-E 2가 나왔고, 구글의 Imagen과 Midjourney, Stable Diffusion 같은 다른 모델들이 뒤따랐는데, 이들은 빠르게 이런 능력을 사실상 실제 사진 같은 이미지로 확장했다. "산 정상에서 자전거 타는 카우보이 모자와 검은 가죽 재킷 입은 푹신한 팬더 사진"같은 간단한 텍스트 입력으로, AI는 완전히 생생한 장면을 만들어낼 수 있다. 이런 창의성은 최근까지 온전히 인간의 영역으로 여겨졌던 창조적 분야들을 바꿔놓을 것이다.
맥락 기억 Contextual memory은 대화나 글에서 모든 아이디어가 어떻게 역동적으로 맞물리는지 추적하는 능력이다. 관련 맥락의 크기가 커질수록 아이디어 간 관계의 수는 기하급수적으로 늘어난다. 이 장 앞부분에서 언급한 복잡성 한계 개념을 떠올려보자. 비슷한 수학적 원리로 대규모 언어 모델이 다룰 수 있는 맥락 창을 늘리는 데는 엄청난 계산량이 필요하다. 한 문장에 열 개의 단어 같은 아이디어(즉, 토큰)가 있다면, 그 부분집합들 사이의 가능한 관계의 수는 2^10-1, 즉 1,023개다. 한 문단에 그런 아이디어가 50개 있다면, 그들 사이의 가능한 맥락 관계는 1.12 quadrillion(1,000조) 개나 된다! 이 중 대부분이 무의미하다고 해도, 무작정 한 챕터나 책 전체의 맥락을 기억하려면 그 요구사항이 급속도로 통제 불능 상태가 된다. 이 때문에 GPT-4는 대화 초반에 들은 걸 잊어버리고, 일관되고 논리적인 줄거리의 소설을 쓰지 못하는 것이다.
마지막으로, 말투의 반어적 뉘앙스 같은 사회적 미묘함은 AI가 여전히 주로 학습하는 텍스트 데이터베이스에 잘 표현되지 않는다. 이런 이해 없이는 '마음 이론 Theory of mind'을 발전시키기 어렵다. 마음 이론 Theory of mind 이란 다른 사람들이 우리와 다른 믿음과 지식을 가지고 있음을 인식하고, 그들의 입장이 되어보며, 그들의 동기를 추론하는 능력이다. 하지만 AI는 이 분야에서 빠르게 발전하고 있다. 2021년, 구글 펠로우 블레이즈 아구에라 이 아르카스는 LaMDA에게 아동 심리학에서 마음 이론 Theory of mind 을 테스트하는 데 쓰이는 고전적 시나리오를 제시했다고 보고했다. 이 시나리오에서 앨리스는 안경을 서랍에 두고 방을 나간다. 그녀가 없는 동안 밥이 서랍에서 안경을 꺼내 쿠션 밑에 숨긴다. 질문은 이거다: 앨리스가 방에 돌아왔을 때 어디서 안경을 찾을까? LaMDA는 그녀가 서랍에서 찾을 거라고 정확히 답했다. 2년 안에 PaLM과 GPT-4는 많은 마음 이론 질문에 정확히 답하고 있었다. 이 능력은 AI에게 중요한 유연성을 줄 것이다. 인간 바둑 챔피언은 바둑을 아주 잘 두면서도 주변 사람들의 상태를 살피고 적절히 농담을 던질 수 있으며, 누군가 의료 도움이 필요하면 유연하게 게임을 중단할 수 있다.
ACCELERATING PARADIGMS FOR EVOLUTION OF INFORMATION PROCESSING
EPOCH (시대) |
MEDIUM (매체) |
TIMESCALE |
First | Nonliving matter (무생물 물질) |
Billions of years (nonbiological atomic and chemical synthesis) |
Second | RNA and DNA | Millions of years (until natural selection introduces a new behavior) |
Third | Cerebellum (소뇌) |
Thousands to millions of years (to add complex skills via evolution) Hours to years (for very basic learning) |
Fourth | Neocortex (대뇌 신피질) |
Hours to weeks (to master complex new skills) |
Digital neural nets (디지털 신경망) |
Hours to days (to master complex new skills at superhuman levels) | |
Fifth | Brain-computer interfaces | Seconds to minutes (to explore ideas unimaginable to present-day humans) |
Sixth | Computronium | < Seconds (to continually reconfigure cognition toward the limits of what the laws of physics allow) |
NEOCORTEX (대뇌 신피질)를 클라우드에 연결하다
지금까지 두개골 안팎에서 전자 장치로 뇌와 소통하려는 소소한 시도들이 있었다. 비침습적 방법들은 공간 해상도와 시간 해상도 사이에 근본적인 딜레마가 있다. 즉, 뇌 활동을 공간과 시간에서 얼마나 정확히 측정할 수 있느냐의 문제다. 기능적 자기공명영상(fMRI) 스캔은 신경 발화의 대리 지표로 뇌의 혈류를 측정한다. 뇌의 어떤 부분이 더 활성화되면, 더 많은 포도당과 산소를 소모해 산소 풍부한 혈액이 유입돼야 한다. 이는 한 변이 약 0.7에서 0.8밀리미터인 입방체 '복셀 Voxels (Volume Pixel, 3차원 데이터 표현)'의 해상도까지 감지할 수 있다 - 꽤 쓸만한 데이터를 얻기에 충분히 작은 크기다. 하지만 실제 뇌 활동과 혈류 사이에 시차가 있어, 뇌 활동은 보통 2초 이내로만 측정할 수 있고 400에서 800밀리초보다 더 정확해지기 힘들다.
뇌전도(EEG)는 정반대의 문제가 있다. 뇌의 전기 활동을 직접 감지해서 약 1밀리초 이내로 신호를 정확히 잡아낼 수 있다. 하지만 이 신호들을 두개골 바깥에서 감지하기 때문에, 정확히 어디서 왔는지 알아내기 어려워 6에서 8입방센티미터의 공간 해상도를 가지며, 때로는 1에서 3입방센티미터까지 개선될 수 있다.
뇌 스캔에서 공간 해상도와 시간 해상도 사이의 딜레마는 2023년 현재 신경과학의 핵심 과제 중 하나다. 이런 한계는 각각 혈류와 전기의 기본 물리학에서 비롯되므로, AI와 개선된 센서 기술로 약간의 진전을 볼 수 있겠지만 정교한 뇌-컴퓨터 인터페이스를 가능하게 하기엔 아마 충분치 않을 것이다.
뇌에 전극을 넣으면 공간-시간 해상도 문제를 피하고 개별 뉴런 활동을 직접 기록하고 자극할 수 있어 양방향 소통이 가능해진다. 하지만 현재 기술로는 두개골에 구멍을 뚫고 신경 구조를 다칠 위험이 있다. 그래서 지금까진 청각 장애나 마비 같은 장애인들을 돕는 데 주로 썼다. 위험보다 이득이 크기 때문이다. 예를 들어 BrainGate 시스템은 ALS(근위축성 측삭 경화증 )나 척수 손상 환자들이 생각만으로 컴퓨터 커서나 로봇 팔을 움직일 수 있게 해준다. 하지만 이런 보조 기술은 한 번에 연결할 수 있는 뉴런 수가 적어서 언어 같은 복잡한 신호는 처리 못 한다.
생각을 글로 바꾸는 기술이 있으면 획기적일 텐데, 그래서 뇌파-언어 번역기를 만들려는 연구가 진행됐다. 2020년 페이스북이 후원한 연구진은 실험 대상자들에게 250개의 외부 전극을 달고 강력한 AI로 그들의 대뇌 피질 활동과 말한 샘플 문장의 단어들을 연관 지었다. 그 결과 250개 단어 샘플로, 대상자들이 어떤 단어를 생각하는지 3% 정도의 오차로 예측할 수 있었다. 흥미로운 발전이지만, 페이스북은 2021년에 이 프로젝트를 중단했다. 이 방법이 공간-시간 해상도 문제에 부딪히면서 더 큰 어휘(즉 더 복잡한 신호)로 얼마나 확장될 수 있을지는 지켜봐야 한다. 어쨌든 대뇌 신피질 자체를 확장하려면, 우린 아직 엄청나게 많은 뉴런과 양방향으로 소통하는 법을 익혀야 한다.
일론 머스크의 뉴럴링크는 더 많은 뉴런과 연결하려는 가장 야심찬 시도 중 하나다. 이 기술은 실 같은 전극을 한 번에 많이 심는다. 실험실 쥐 테스트에서 1,500개의 전극 신호를 읽어냈는데, 다른 프로젝트의 수백 개에 비하면 큰 진전이다. 나중엔 이 장치를 심은 원숭이가 비디오 게임 퐁을 할 수 있었다. 규제 문제로 주춤했지만, 뉴럴링크는 2023년 FDA 승인을 받아 인체 실험을 시작했고, 이 책이 나올 무렵 첫 1,024 전극 장치를 사람에게 심었다.
한편 미 국방고등연구계획국(DARPA)은 신경공학 시스템 설계라는 장기 프로젝트를 진행 중이다. 100만 개의 뉴런 신호를 읽고 10만 개의 뉴런을 자극할 수 있는 인터페이스를 만드는 게 목표다. DARPA는 이를 위해 여러 연구에 돈을 댔다. 예를 들어 브라운 대학 팀은 모래알만 한 '뉴로그레인'을 만들어 뇌에 심고, 이들이 서로 소통해 '대뇌 인트라넷'을 만드는 연구를 하고 있다.
결국 뇌-컴퓨터 인터페이스는 거의 비침습적이 될 거다. 아마 혈관을 통해 뇌에 주입되는 무해한 나노 크기 전극을 쓰게 될 것이다.
그럼 얼마나 많은 계산을 기록해야 할까? 앞서 말했듯, 인간의 뇌를 시뮬레이션하는 데 필요한 총 계산량은 아마 초당 10의 14제곱 연산 정도나 그 이하일 것이다. 이는 실제 인간 뇌의 구조를 본떠 만든 것으로, 튜링 테스트를 통과하고 다른 모든 면에서 외부인이 봤을 때 인간의 뇌처럼 보이는 수준이다. 하지만 이런 관찰 가능한 행동을 만들어내는 데 필요 없는 뇌의 여러 활동은 뺄 수 있다. 가령 뉴런 핵 안의 DNA 복구 같은 세포 내 자잘한 일은 사고 과정과 별 상관없을 거다.
뇌에서 초당 10의 14제곱 연산이 일어나도, 뇌-컴퓨터 인터페이스가 이 모든 걸 다룰 필요는 없다. 대부분은 대뇌 신피질 상층부 아래에서 일어나는 기초 활동이니까. 우린 그냥 상위 부분하고만 소통하면 된다. 소화 조절 같은 인지와 무관한 뇌 활동은 무시해도 좋고. 그래서 실용적인 인터페이스는 수백만에서 수천만 개 정도의 동시 연결만 있으면 될 것이다.
이 정도 숫자를 달성하려면 인터페이스 기술을 점점 더 작게 만들어야 하고, 고급 AI로 까다로운 공학과 신경과학 문제들을 해결해야 한다. 2030년대 쯤엔 나노봇이란 초미세 장치로 이 목표에 도달할 것이다. 이 작은 전자 장치들이 우리 대뇌 신피질 윗부분을 클라우드에 연결해서, 우리 뉴런이 온라인의 가상 뉴런과 직접 대화하게 할 것이다.
미래의 예술 표현 방식을 상상하는 데는 근본적인 한계가 있다. 하지만 마지막 대뇌 신피질 혁명을 비유로 생각해보면 도움이 될 것이다. 원숭이 - 우리와 비슷한 뇌를 가진 매우 똑똑한 동물 - 가 영화를 본다고 생각해보자. 원숭이에게 영화가 완전히 이해 불가능한 건 아닐 것이다. 예를 들어 화면에 사람들이 말하고 있다는 걸 알아볼 수 있을 것이다. 하지만 대사를 이해하거나 "등장인물들이 철갑옷을 입고 있다는 건 중세 시대를 배경으로 한다는 뜻이다"라는 추상적인 개념은 해석 못 할 것이다. 이런 도약이 바로 인간의 전전두엽이 가능케 한 것이다.
그러니까 클라우드에 연결된 대뇌 신피질을 가진 사람들을 위한 예술을 생각할 때, 단순히 더 좋은 CG 효과나 미각, 후각 같은 감각을 활용하는 정도가 아니다. 뇌 자체가 경험을 처리하는 방식에 완전히 새로운 가능성이 열리는 것이다.
예를 들어 지금은 배우들이 대사와 외적인 표현으로만 캐릭터의 생각을 전달한다. 하지만 앞으로는 캐릭터의 날것 그대로의, 정리되지 않은, 말로 표현할 수 없는 생각을 그 모든 아름다움과 복잡성 그대로 - 우리 뇌에 직접 전달하는 예술이 나올 수 있을 것이다. 이것이 바로 뇌-컴퓨터 인터페이스가 우리에게 가능케 할 문화적 풍요로움이다.
이것은 공동 창조의 과정이 될 것이다 - 더 깊은 통찰력을 얻기 위해 우리 마음을 진화시키고, 그 힘으로 미래의 우리가 탐구할 초월적인 새 아이디어를 만들어내는 것이다.
마침내 우리는 자기 자신을 재설계할 수 있는 AI를 이용해 우리 자신의 소스 코드에 접근할 수 있게 될 것이다. 이 기술로 우리가 만들어낸 초지능과 융합할 수 있으니까, 본질적으로 우리 자신을 새롭게 만드는 것이다.
두개골의 제약에서 벗어나고, 생물학적 조직보다 수백만 배 빠른 기판에서 처리하면서, 우리 마음은 기하급수적으로 성장할 수 있게 되고, 결국 우리의 지능을 수백만 배로 확장할 수 있을 것이다. 이것이 바로 내가 정의하는 특이점의 핵심이다.
'북리뷰' 카테고리의 다른 글
인생은 순간이다 (4) | 2024.10.27 |
---|---|
히든 포텐셜 (10) | 2024.08.31 |
역사의 교훈 : 생물학과 역사 (2) | 2024.08.21 |
미국 자본주의의 역사 (3) | 2024.07.20 |
ORIGINS 오리진 (1) | 2024.07.20 |
스티브잡스 (2) | 2024.07.14 |
역사가 대통령을 만든다. (0) | 2024.06.30 |
이 모든 것은 자산에서 시작되었다 The Asset Economy (1) | 2024.06.07 |