Open AI 비밀 프로젝트 'Strawberry'
(Reuter) OpenAI가 'Strawberry'라는 코드명으로 인공지능 모델에 대한 새로운 접근 방식을 연구 중이다.
정보제공자에 따르면, 이 문서는 Strawberry 모델을 사용하여 회사의 AI가 단순히 쿼리에 대한 답변을 생성하는 것뿐만 아니라 OpenAI가 '심층 연구 Deep Research'라고 부르는 작업을 수행하기 위해 자율적이고 안정적으로 인터넷을 탐색할 수 있도록 충분히 미리 계획을 세우는 것을 목표로 하는 프로젝트를 설명한다. 12명 이상의 AI 연구자들과의 인터뷰에 따르면, 이는 지금까지 AI 모델이 달성하지 못한 것이다.
Strawberry와 이 기사에 보고된 세부 사항에 대해 질문을 받은 OpenAI 회사 대변인은 성명에서 다음과 같이 말했다:
'우리는 AI 모델이 우리처럼 세상을 보고 이해하기를 원한다. 새로운 AI 능력에 대한 지속적인 연구는 업계의 일반적인 관행이며, 이러한 시스템이 시간이 지남에 따라 추론 능력이 향상될 것이라는 공통된 믿음이 있다.'
'We want our AI models to see and understand the world more like we do. Continuous research into new AI capabilities is a common practice in the industry, with a shared belief that these systems will improve in reasoning over time'
이에 대해 잘 아는 사람에 따르면, OpenAI는 이 혁신이 AI 모델의 추론 능력을 극적으로 향상시키기를 희망하고 있으며 OpenAI hopes the innovation will improve its AI models’ reasoning capabilities dramatically, Strawberry는 매우 큰 데이터셋에 대해 사전 훈련된 후 AI 모델을 처리하는 특별한 방법을 포함한다고 한다.
로이터가 인터뷰한 연구자들은 추론이 AI가 인간 수준 또는 초인간 수준의 지능 super-human-level intelligence을 달성하는 데 핵심이라고 말한다."
"대규모 언어 모델이 이미 인간보다 훨씬 빠르게 복잡한 텍스트를 요약하고 우아한 문장을 작성할 수 있지만, 이 기술은 종종 논리적 오류를 인식하거나 틱택토를 하는 것과 같이 사람들에게는 직관적으로 보이는 상식적인 문제에서 부족함을 보인다. 모델이 이러한 종류의 문제를 만나면 종종 거짓 정보를 '환각 hallucinates '한다.
로이터가 인터뷰한 AI 연구자들은 일반적으로 AI 맥락에서의 추론이 AI가 미리 계획을 세우고, 물리적 세계가 어떻게 작동하는지 반영하며, 복잡한 다단계 문제를 안정적으로 해결할 수 있게 하는 모델의 형성을 포함한다는 데 동의한다.
AI 모델의 추론 능력 향상은 주요 과학적 발견부터 새로운 소프트웨어 애플리케이션의 계획 및 구축에 이르기까지 모든 것을 수행할 수 있는 능력을 열어주는 핵심으로 여겨진다.
OpenAI CEO Sam Altman은 올해 초 AI에서 '가장 중요한 진전 영역은 추론 능력 reasoning ability에 관한 것일 것'이라고 말했다.
Google, Meta, Microsoft와 같은 다른 회사들도 마찬가지로 AI 모델의 추론을 개선하기 위한 다양한 기술을 실험하고 있으며, AI 연구를 수행하는 대부분의 학술 연구소도 그렇다. 그러나 연구자들은 대규모 언어 모델(LLM)이 아이디어와 장기 계획을 예측 방식에 통합할 수 있는지에 대해 의견이 다르다. 예를 들어, Meta에서 일하는 현대 AI의 개척자 중 한 명인 Yann LeCun은 LLM이 인간과 같은 추론 능력이 없다고 자주 말해왔다.
AI Challenges
이 문제에 정통한 정보제공자에 따르면, Strawberry는 이러한 도전과제를 극복하기 위한 OpenAI의 계획의 핵심 구성 요소이다. 로이터가 확인한 문서는 Strawberry가 무엇을 가능하게 하려는지는 설명했지만, 어떻게 그렇게 할 것인지는 설명하지 않았다.
최근 몇 개월 동안, 회사는 개발자들과 다른 외부 관계자들에게 상당히 더 발전된 추론 능력을 가진 기술을 출시할 준비가 되어 있다는 신호를 비공개적으로 보내왔다고 회사의 설명을 들은 4명의 사람들이 말했다. 그들은 비공개 사안에 대해 말할 권한이 없기 때문에 신원을 밝히지 않기를 원했다.
정보제공자 중 한 명에 따르면, Strawberry는 OpenAI의 생성형 AI 모델을 '사후 훈련 post-training'하는 것으로 알려진 특별한 방법을 포함한다. 이는 모델이 이미 일반화된 데이터에 대해 '훈련'된 후 특정 방식으로 성능을 향상시키기 위해 기본 모델을 조정하는 것이다.
모델 개발의 사후 훈련 단계는 '미세 조정'과 같은 방법을 포함하는데, 이는 오늘날 거의 모든 언어 모델에 사용되는 과정으로 모델의 응답에 기반하여 인간이 피드백을 제공하고 좋은 답변과 나쁜 답변의 예를 제공하는 등 다양한 형태로 나타난다.
이 문제에 대해 알고 있는 정보제공자 중 한 명에 따르면, Strawberry는 2022년 스탠포드에서 개발된 'Self-Taught Reasoner' 또는 'STaR'라는 방법과 유사점이 있다. STaR의 창시자 중 한 명인 스탠포드 대학의 Noah Goodman 교수가 로이터에 말한 바에 따르면, STaR은 AI 모델이 반복적으로 자체 훈련 데이터를 생성함으로써 더 높은 지능 수준으로 '자가 부트스트랩'할 수 있게 하며, 이론적으로는 언어 모델이 인간 수준의 지능을 초월하도록 하는 데 사용될 수 있다."
"Goodman은 '이는 흥미롭고 동시에 두려운 일이라고 생각한다... 만약 상황이 계속 그 방향으로 나아간다면 우리 인간들은 심각하게 고민해야 할 것들이 있다'고 말했다. Goodman은 OpenAI와 관련이 없으며 Strawberry에 대해 잘 모른다.
OpenAI는 특히 이러한 능력을 사용하여 모델이 자율적으로 웹을 탐색하면서 연구를 수행하기를 원하며, 이는 발견한 내용을 바탕으로 행동을 취할 수 있는 '컴퓨터 사용 에이전트(CUA)'의 도움을 받는다. OpenAI는 또한 소프트웨어 및 기계 학습 엔지니어의 작업을 수행하는 데 있어 그 능력을 테스트할 계획이다."