![]()
2026년 2월, Google이 발표한 Gemini 3 Deep Think가 AI 업계를 놀라게 했다. ARC-AGI-2 벤치마크에서 84.6%를 달성하며 인간의 평균 점수(60%)를 넘어섰기 때문이다. 지난 몇 년간 AI 모델들이 20%대에서 벗어나지 못했던 걸 생각하면 믿기 어려운 도약이다.
YouTube에서 WorldofAI 채널의 테스트 영상을 보다가 진짜 놀란 건 손그림 스케치를 3D 프린팅 파일로 바꾸는 장면이었다. 단순 변환이 아니라 복잡한 형상까지 제대로 모델링하더라. 처음엔 과장 광고인 줄 알고 댓글을 먼저 확인했는데, 실제 테스트 결과라는 걸 알고 다시 봤다. 기존 AI들이 대부분 실패하던 작업이었는데.
Gemini 3 Deep Think란 무엇인가
Google이 개발한 특수 목적 AI 추론 모델이다. 일반 대화용이 아니라 과학, 수학, 코딩처럼 복잡한 논리가 필요한 문제에 특화됐다. 기존 Gemini 3 Pro와 달리 "다단계 사고 과정"을 거친다. 사람이 어려운 수학 문제를 풀 때 여러 가설을 세우고 하나씩 검증하듯, Deep Think도 병렬로 가설을 탐색한다.
속도는 느리다. 답변 하나에 보통 수 분이 걸린다. 일상적인 질문("내일 날씨 어때?")엔 과한 성능이지만, 박사급 논문의 논리 오류를 찾거나 리튬 배터리 열분포를 시뮬레이션하는 작업엔 탁월하다.

벤치마크 성능은 얼마나 나올까
ARC Prize Foundation이 공식 검증한 ARC-AGI-2 점수는 84.6%다. 2위인 Claude Opus 4.6(68.8%)과 비교해도 15.8%p 격차가 벌어진다. 표준 Gemini 3 Pro가 31.1%였던 걸 생각하면 53.5%p나 올라간 셈이다.
Humanity's Last Exam에선 48.4%를 기록했다. GPT-5.2(34.5%), Claude Opus 4.6(40.0%)보다 높은 수치다. 이 시험은 도구 사용 없이 순수 추론만으로 푸는 문제라 AI한테 까다롭다.
코딩 실력을 재는 Codeforces에선 Elo 3,455를 찍었다. 경쟁 프로그래밍 대회 수준인데, 이 정도면 상위권 개발자와 비슷한 알고리즘 문제 해결 능력이다. 국제 수학/물리/화학 올림피아드에서도 금메달 수준 성적을 냈다.
| 벤치마크 | Gemini 3 Deep Think | Claude Opus 4.6 | GPT-5.2 |
| ARC-AGI-2 | 84.6% | 68.8% | 54.2% |
| Humanity's Last Exam | 48.4% | 40.0% | 34.5% |
| Codeforces Elo | 3,455 | - | - |
출처: Google 공식 발표 자료, ARC Prize Foundation 검증 결과
GPT-5와 비교하면 어떨까
논리 추론 테스트에서는 Gemini 3 Deep Think가 앞선다. ARC-AGI-2에서 GPT-5.2가 54.2%인데 비해 84.6%니까 격차가 크다. Humanity's Last Exam도 마찬가지로 Gemini가 높다.
하지만 속도는 GPT-5가 훨씬 빠르다. Gemini는 답 하나에 몇 분씩 걸리지만 GPT-5는 보통 10초 안에 끝낸다. 일상적인 업무에서는 속도가 체감된다.
전문성 차이도 있다. Gemini는 과학 논문 검증이나 물리 시뮬레이션처럼 전문 연구 작업에 강하다. GPT-5는 범용적이라 글쓰기, 번역, 요약 같은 일상 작업을 더 잘 처리한다. 선택 기준은 간단하다. 복잡한 과학 문제나 전문 코딩이 필요하면 Gemini, 일반 업무나 빠른 응답이 필요하면 GPT-5.
가격도 다르다. Gemini 3 Deep Think는 Google AI Ultra 구독($250/월)이 필요하다. ChatGPT Plus는 $20/월이니까 12배 이상 차이가 난다. 비용 대비 효율을 따지면 일반 사용자한테는 부담스러운 가격이다.
실제로 어떻게 쓰이고 있나
Rutgers 대학의 수학자 Lisa Carbone 교수는 Deep Think로 박사급 논문을 검토했다. 인간 동료 평가에서 3명이 놓친 논리적 결함을 AI가 찾아냈다. 특정 정리의 증명 과정에서 조건이 누락된 부분이었는데, 훈련 데이터가 거의 없는 분야라 더 놀랍다.
Duke 대학 Wang Lab에서는 반도체 연구에 활용 중이다. 복잡한 결정 성장 공정을 최적화하는 작업인데, 기존에는 실험을 수십 번 반복해야 했다. Deep Think가 물리 모델을 분석해서 조건을 제안하니 시행착오가 줄었다고 한다.

앞서 말한 3D 모델링 기능도 실용적이다. 손으로 그린 간단한 스케치를 입력하면 3D 프린팅 가능한 STL 파일을 만든다. 형상 분석, 모델링, 파일 생성까지 한 번에 처리한다. 프로토타입 제작 시간이 크게 단축된다.
코딩 자동화도 인상적이다. "2C 충전 속도에서 리튬이온 배터리 팩의 열분포를 모델링해줘"라고 입력하면 유한 요소 모델을 설계한다. 양극, 음극, 분리막 재료 속성부터 열 생성 방정식, 경계 조건까지 포함한 Python/MATLAB 시뮬레이션 코드를 만든다. 온도 구배 시각화까지 자동이다.
가격과 이용 방법
Google AI Ultra 구독이 필요하다. 월 $250인데 처음 3개월은 프로모션으로 $125다. 구독하면 Deep Think 외에도 Veo 3.1 비디오 생성, Deep Research 기능, 음성 개요 등을 쓸 수 있다.
API 접근은 연구자나 기업 대상으로 조기 접근 프로그램을 운영 중이다. Google AI 사이트에서 신청할 수 있는데, 선발된 팀만 이용 가능하다. 무료 체험은 없다.
장단점은 뭘까
과학, 수학 분야에서는 현존 최고 수준이다. 복잡한 다단계 문제를 풀 때 정확도가 높다. 실제 연구 환경에서 검증됐다는 점도 신뢰를 준다. 코딩 자동화 능력도 뛰어나서 엔지니어링 작업이 빨라진다.
단점도 명확하다. 구독료 $250/월은 개인이 쓰기엔 부담스럽다. 응답 속도가 느려서 빠른 피드백이 필요한 작업엔 안 맞는다. 간단한 질문에 쓰기엔 오버스펙이다. 접근성도 제한적이라 Ultra 구독자나 API 선발자만 쓸 수 있다.
누구한테 맞을까
수학, 물리, 화학 분야 연구자나 대학원생한테는 가치가 있다. 복잡한 알고리즘을 설계하는 개발자, 엔지니어링 시뮬레이션이 필요한 엔지니어도 해당된다. 논문 검토나 이론 검증 작업을 자주 하면 고려할 만하다.
반대로 일반 사용자한테는 비추천이다. 비용 대비 효율이 안 나온다. 빠른 응답이 필요한 업무나 기초적인 코딩 질문엔 과한 성능이다. ChatGPT Plus나 Claude가 더 적합하다.
핵심 정리
- ARC-AGI-2 벤치마크 84.6% 달성 (인간 평균 60% 초과)
- 과학, 수학, 코딩 특화 AI 추론 모델
- 월 $250 Google AI Ultra 구독 필요
- 복잡한 연구 문제 해결에 최적화됐으나 일상 업무엔 과함
Gemini 3 Deep Think는 AI 추론 능력의 새로운 기준점을 제시했다. 인간 수준을 넘어선 벤치마크 결과는 AGI(범용 인공지능)로 가는 과정에서 의미 있는 진전이다. 다만 전문가가 아니라면 비용과 속도 측면에서 신중하게 선택해야 한다. 연구나 전문 개발 작업이 아닌 이상, 기존 범용 AI 모델이 더 실용적이다.
'정보 > AI' 카테고리의 다른 글
| 바이브코딩 시작하는 법 완벽 가이드 (Claude Code 활용) (0) | 2026.02.16 |
|---|---|
| 아마존 감원 50%, 한국 직장도 위험하다 - AI 일자리 대체 현실화 (0) | 2026.02.16 |
| Claude Opus 4.6 vs GPT 5.3 코덱스, 같은 날 출시된 두 AI 코딩 모델 실전 비교 (0) | 2026.02.15 |
| 클로드코드 vs AI 코딩 도구 완벽 비교 (2026년 최신) (0) | 2026.02.14 |
| NotebookLM으로 API 문서 없이 앱 만들기 (바이브 코딩 실전 가이드) (0) | 2026.02.14 |
