구글, Gemini 3.1 Pro 공개 — 주요 벤치마크에서 GPT-5.2 및 Claude Opus 4.6 능가

Google, Gemini 3.1 Pro 출시와 함께 AI 패권 탈환

Google은 추상적 추론과 과학적 문제 해결에서 세대적 도약을 의미하는 모델인 Gemini 3.1 Pro의 출시를 통해 생성형 AI(Generative AI) 분야에서의 지배력을 공식적으로 재확인했습니다. 2026년 2월 19일 목요일에 공개된 이 새로운 모델은 "AI 군비 경쟁"의 결정적인 시점에 등장하여 OpenAI의 GPT-5.2 및 Anthropic의 Claude Opus 4.6을 포함한 주요 경쟁사들을 결정적으로 앞지르는 성능 지표를 제공합니다.

Creati.ai의 편집팀에게 있어 이번 출시의 가장 놀라운 점은 단순히 표준 언어 작업에서의 점진적인 향상이 아니라, 추상적 추론 능력의 한계를 깨뜨렸다는 점입니다. 초기 독립 테스트를 통해 검증된 Google의 내부 데이터에 따르면, Gemini 3.1 Pro는 암기보다는 새로운 시각적 퍼즐을 통해 일반 지능을 측정하도록 설계된 테스트인 악명 높은 ARC-AGI-2 벤치마크에서 77.1%의 점수를 기록했습니다. 이 수치는 이전의 최첨단 모델들에 비해 비약적인 향상을 나타내며, 우리가 진정한 "핵심 추론(core reasoning)"이 가능한 시스템에 더 가까워지고 있음을 시사합니다.

추상적 추론 및 과학적 지식의 새로운 표준

Gemini 3.1 Pro의 핵심 기능은 의심할 여지 없이 그 추론 엔진입니다. 최근 몇 달 동안 AI 업계는 성공의 척도를 파라미터 수 측정에서 "테스트 시간 연산(test-time compute)" 및 추론 깊이 평가로 전환해 왔습니다. Google의 3.1 버전 접근 방식은 이러한 철학을 더욱 강화한 것으로 보입니다.

성능 격차는 ARC-AGI-2 벤치마크에서 가장 확연히 드러납니다. 역사적으로 대규모 언어 모델(LLM)은 명확한 사전 학습 데이터 없이 새로운 패턴 매칭 문제를 해결해야 하기 때문에 이 테스트에서 어려움을 겪어왔습니다. GPT-5.2가 준수한 52.9%를 기록했고 최근 업데이트된 Claude Opus 4.6이 68.8%를 기록한 반면, Gemini 3.1 Pro의 77.1% 점수는 업계의 새로운 이정표를 세웠습니다. 이러한 능력은 보지 못한 시나리오에 적응할 수 있는 더 신뢰할 수 있는 자율 에이전트와 복잡한 의사 결정 시스템으로 직접 이어질 것으로 기대됩니다.

나아가 기초 과학 분야에서도 Gemini 3.1 Pro는 계속해서 앞서나가고 있습니다. 생물학, 물리학, 화학 분야의 전문가 수준 지식을 평가하는 GPQA Diamond 테스트에서 이 모델은 94.3%의 정확도를 달성했습니다. 이는 GPT-5.2(92.4%)와 Claude Opus 4.6(91.3%)을 근소하게 앞지르는 수치로, 학술 및 연구 중심 애플리케이션에서의 Google의 입지를 공고히 합니다.

비교 성능 분석

다음 표는 출시 행사에서 공개된 주요 벤치마크 결과를 요약한 것입니다. 이 수치들은 Google이 주요 경쟁사들과의 격차를 넓히는 데 성공한 특정 영역들을 강조합니다.

지표|Gemini 3.1 Pro|GPT-5.2|Claude Opus 4.6
---|---|---
ARC-AGI-2 (추상적 추론)|77.1%|52.9%|68.8%
GPQA Diamond (과학적 지식)|94.3%|92.4%|91.3%
우승한 주요 벤치마크 총합|19개 중 12개|해당 없음|해당 없음
가용 상태|지금 이용 가능|이용 가능|이용 가능

크리에이티브 코딩 및 멀티모달 기능

단순한 수치를 넘어, Google은 Gemini 3.1 Pro의 향상된 멀티모달(Multimodal) 이해력을 활용하는 실질적인 애플리케이션을 시연했습니다. 이번 주기에 도입된 핵심 혁신은 "네이티브 SVG 애니메이션 생성(native SVG animation generation)"입니다. 확장 가능한 벡터 그래픽(SVG)에 필요한 좌표 정밀도 때문에 어려움을 겪었던 이전 모델들과 달리, Gemini 3.1 Pro는 웹 배포가 가능한 깨끗하고 애니메이션화된 SVG 코드를 생성할 수 있습니다.

출시 시연 도중, Google은 소설 *폭풍의 언덕(Wuthering Heights)*의 가상 인물을 위한 완전한 기능을 갖춘 포트폴리오 웹사이트를 생성함으로써 모델의 "크리에이티브 코딩(Creative Coding)" 능력을 선보였습니다. 이 모델은 HTML과 CSS를 작성했을 뿐만 아니라 미적 방향을 구상하여 요청된 분위기에 맞는 코드 기반 비주얼을 생성했습니다.

또 다른 눈에 띄는 예시는 인터랙티브 디자인과 관련이 있습니다. 이 모델은 새 떼의 움직임을 복잡하게 시뮬레이션하는 "3D 인터랙티브 찌르레기 군무(3D interactive starling murmuration)" 제작 과제를 수행했습니다. Gemini 3.1 Pro는 무리의 움직임을 제어하는 로직을 성공적으로 생성하고, 사용자의 마우스 상호작용에 동적으로 반응하는 생성형 사운드스케이프와 결합했습니다. 이는 이제 모델을 복잡하고 인터랙티브한 프런트엔드 엔지니어링 작업을 위한 협업 파트너로 사용할 수 있게 된 개발자와 디자이너들에게 중요한 변화를 의미합니다.

에이전트 간극: 개선이 필요한 영역

발표의 축하 분위기에도 불구하고, Google의 기술 논문은 모델의 한계에 대해 솔직한 견해를 제공했습니다. Gemini 3.1 Pro는 추론 및 지식 검색에는 뛰어나지만, 특정 "에이전트(agentic)" 코딩 워크플로우에서는 경쟁사에 뒤처지는 것으로 알려졌습니다.

실제 GitHub 문제를 자율적으로 해결하는 AI의 능력을 테스트하는 SWE-Bench Verified 평가에서 Gemini 3.1 Pro는 Claude Opus 4.6을 기반으로 구축된 전문 코딩 에이전트에 비해 약간 뒤처졌습니다. 이는 Google의 모델이 뛰어난 사고가이자 설계자이기는 하지만, 개입 없이 장기적인 소프트웨어 엔지니어링 작업을 수행하는 데에는 여전히 사람의 감독이나 전문 도구가 필요할 수 있음을 시사합니다.

Google 경영진은 언론 브리핑에서 이를 언급하며 "에이전트 간극(agentic gap)"이 다가오는 Gemini 3.5 업데이트 주기의 주요 초점이라고 밝혔습니다. 현재 API를 통해 모델을 사용하는 개발자들은 실행 전 모델의 계획 능력을 극대화하기 위해 "생각의 사슬(chain-of-thought)" 프롬프팅을 사용할 것을 권장받습니다.

배포 및 가용성: NotebookLM에서 Antigravity까지

Google은 에코시스템 전반에 Gemini 3.1 Pro를 배포하는 데 시간을 낭비하지 않고 있습니다. 이 모델은 Gemini Advanced 및 AI Ultra 플랜 구독자에게 즉시 제공됩니다.

소비자용: 모델이 표준 Gemini 앱에 통합되었습니다. 사용자는 "Pro" 모드를 활성화하여 고급 수학 및 코딩 기능에 액세스할 수 있습니다.
연구자용: Google의 AI 기반 연구 보조 도구인 NotebookLM은 이제 유료 사용자를 위해 Gemini 3.1 Pro에서 실행됩니다. 이번 업그레이드를 통해 복잡한 문서를 합성하고 더 높은 사실적 정확도로 팟캐스트 스타일의 오디오 요약을 생성하는 도구의 능력이 크게 향상될 것으로 기대됩니다.
개발자용: API는 Google AI Studio 및 기업용 Vertex AI 플랫폼을 통해 액세스할 수 있습니다. 흥미롭게도 Google은 새로운 SVG 및 인터랙티브 디자인 기능을 활용할 것으로 보이는 크리에이티브 전문가용 미공개 제품군인 "Antigravity"와의 새로운 통합도 예고했습니다.

시장 영향: 2026년 AI 지형

Gemini 3.1 Pro의 출시는 AI 업계의 불안정한 시기에 이루어졌습니다. 불과 며칠 전, Anthropic은 컴퓨터 사용 능력으로 찬사를 받은 Claude 라인의 업데이트 버전인 Sonnet 4.6을 출시했습니다. 한편 OpenAI는 GPT-5.2의 후속 모델과 관련하여 비교적 조용하지만, 2026년 말에 "GPT-6" 발표가 예정되어 있다는 소문이 돌고 있습니다.

기업 고객에게 있어 Google의 ARC-AGI-2 벤치마크 승리는 가장 중요한 지표입니다. 비즈니스가 단순한 챗봇에서 복잡한 의사 결정 에이전트로 이동함에 따라, 새로운 문제를 통해 추론하는 능력은 매우 중요합니다. 77.1%의 점수는 Gemini 3.1 Pro가 현재 법률 조사, 제약 연구, 금융 예측과 같이 위험 부담이 큰 문제 해결이 필요한 산업에서 가장 실행 가능한 옵션임을 시사합니다.

Creati.ai는 앞으로 몇 주 동안 Gemini 3.1 Pro의 창의적인 글쓰기 뉘앙스와 긴 문맥 유지 능력에 초점을 맞추어 광범위하게 테스트할 예정입니다. 하지만 현재로서는 벤치마크 결과가 스스로를 증명하고 있습니다. Google은 성공적으로 선두를 탈환했으며, 인공지능의 새로운 표준에 대응하도록 경쟁사들을 자극하고 있습니다.