OpenAI o1의 의미
(TheInformation, Sep/16/2024) Why OpenAI’s Reasoning Model Is Special
OpenAI는 마침내 지난주 Strawberry 추론 인공지능을 출시했다—정확히는 o1-preview라고 알려진 초기의, 덜 완성된 버전을 출시했다. 우리는 10개월 전 Strawberry의 획기적인 발전에 대해 처음 보도했는데, 당시에는 Q*라고 불렸다. 최근에는 우리가 o1-preview보다 더 영감을 주는 이름을 기대했음에도 불구하고, 무엇이 나올지 여러분에게 알려드렸다!
이 추론 모델은 GPT-4와 같은 이전의 대규모 언어 모델과 한 가지 핵심적인 면에서 다르다: 추론 모델을 훈련할 때, 이미 검토한 데이터를 이해하거나 "생각하는" 방식 덕분에 더 많은 컴퓨팅 파워를 투입할수록 그 능력이 더 높은 비율로 성장한다. 본질적으로, 이전 모델만큼 많은 정보를 필요로 하지 않고 새로운 데이터나 생각을 만들어낸다.
ChatGPT 사용자를 포함한 OpenAI 고객들의 질문에 추론 모델이 답변할 때도 같은 일이 일어난다. o1-preview가 질문에 답하는 데 더 많은 시간이나 컴퓨팅 파워를 사용할 때, 다른 LLM들에 비해 답변이 더 높은 비율로 개선된다.
AI 용어로 이러한 개선 유형을 로그 선형 컴퓨팅 스케일링이라고 한다.
OpenAI 리더들 자신도 이러한 개선에 대해 다양한 방식으로 언급했다. OpenAI의 응용 연구 책임자인 Boris Power는 X에서 이 새로운 출시가 "모든 사람에게 쉽게 새로운 가치를 제공하는 대중적 제품이 아니다"라고 말하며 기대를 낮추려 했다. CEO Sam Altman과 회사의 프론티어 모델 연구 부사장인 Mark Chen은 각각 자부심과 도발적인 반응을 보였다.
어떤 면에서, Power가 말한 "새로운 가치"는 명확히 보인다: o1-preview는 복잡한 수학 및 코딩 문제 해결과 더 많은 세부 사항이 필요할 때 사용자에게 명확한 질문을 하는 데 더 뛰어나다.
가장 높은 찬사 중 하나는 UCLA의 저명한 수학자이자 교수인 Terence Tao에게서 나왔다. 그는 o1-preview가 "평범하지만 완전히 무능하지는 않은 대학원생에게 조언하는 것 같다. 하지만 이는 이전 모델들보다 개선된 것인데, 이전 모델들의 능력은 실제로 무능한 대학원생에 가까웠다"고 말했다.
그는 미래의 모델들이 유능한 대학원생처럼 행동할 수 있을 것으로 보았고, "그 시점에 이 도구가 연구 수준의 작업에서 상당한 유용성을 발휘할 수 있을 것"이라고 말했다.
이는 큰 의미가 있다.
기존 OpenAI 고객들 중 일부도 찬사를 보냈다. 예를 들어, 보험 회사인 Oscar Health는 o1-preview가 복잡한 서류 작업과 건강 규칙을 처리하여 신생아 출산과 같은 특정 의료 서비스의 비용을 결정하고, 의료비 청구서의 사기나 낭비를 식별하며, 의료 기록 차트에서 데이터를 추출하는 데 도움이 될 것이라고 말했다. Oscar의 게시물은 부분적으로 자사의 AI 제품을 마케팅하는 것일 수 있지만, 그 게시물에는 뒷받침하는 증거가 있었다.
건강에 대해 말하자면, o1-preview는 AI 모델이 시뮬레이션된 의료 클리닉에서 환자를 진단하려 시도하는 테스트에서도 좋은 점수를 받은 것으로 보인다.
o1에 아직 부족한 점 Where o1 Falls Short
다른 면에서 o1-preview는 부족함을 보인다. 한 초기 테스터는 긴 질문에 어려움을 겪어 질문을 여러 부분으로 나눠야 한다고 말했다. OpenAI 자체도 o1-preview가 글쓰기나 텍스트 편집과 같은 일부 경우에 GPT-4와 비슷하거나 심지어 더 나쁘다고 인정했다. 그리고 o1-preview는 여전히 중학생도 풀 수 있는 간단한 퍼즐에 막히기도 한다.
새 모델과 그 "미니" 버전에는 제품에서 기대할 법한 여러 기능이 빠져 있다. OpenAI의 다른 모델들과 달리, 새 모델들은 현재 텍스트 전용이어서 사용자들이 사진이나 파일을 업로드하여 그것들에 대해 질문할 수 없다. ChatGPT 구독자들은 o1-preview 모델에 대해 주당 30개, 미니 버전에 대해 50개의 메시지로 제한되는데, 주의하지 않으면 한두 시간 만에 쉽게 소진할 수 있는 양이다. (회사는 나중에 제한을 연장한다고 말했다.)
그리고 이는 비싸다. OpenAI의 API를 통해 o1-preview 모델을 사용하는 개발자들에게, 새 모델은 이전 주력 LLM인 GPT-4 모델보다 6배 이상 비싸다. 따라서 o1-preview는 모든 개발자에게 재정적으로 가장 합리적인 선택이 아니다.
이 모든 것은 o1-preview 출시가 회사의 지속적인 자금 조달 노력이나 경쟁사들로부터의 압박 때문에 서두른 것일 수 있음을 시사한다. OpenAI가 출시하지는 않았지만 평가 결과를 발표한 o1-preview의 더 완전하고 나은 버전(단순히 o1이라고 불림)이 있다는 점도 지적해야 한다.
OpenAI는 개발자들이 새 모델을 효과적으로 사용하는 방법을 이해하도록 추가 작업을 해야 할 것이다. 예를 들어, 내가 대화를 나눈 한 법률 AI 스타트업의 창업자는 추론에 더 뛰어나더라도 o1-preview를 모든 고객 질문에 사용하지는 않는다고 말했다. 대신 그 창업자는 다양한 법률 문서 초안 작성 과정의 각 단계를 어떤 더 작은 LLM이 처리해야 할지 결정하는 데 이 모델을 사용한다. (이는 관리자가 부하 직원들에게 업무를 위임하는 것에 비유할 수 있다.)
그 창업자는 또한 이전에 변호사들이 며칠이 걸렸을 작업에 o1-preview를 사용하므로 고객들이 모델의 더 긴 응답 시간에 불편해하지 않는다고 말했다.
OpenAI의 Altman은 이미 앞을 내다보고 있다. 금요일 늦게 그는 자신이 자란 세인트루이스의 아름다운 "밤하늘"을 돌아보고 "겨울 별자리"를 기대하는 것처럼 보였다.
하지만 ChatGPT의 도움으로, 우리는 그가 회사의 다음 주력 LLM의 코드명인 Orion에 대한 은유적 언급을 하고 있다고 추론했다. 우리가 이전에 설명했듯이, Strawberry/o1은 Orion을 더 나아지게 할 것이다.