
GPT 5.4가 한국 시간으로 2026년 3월 6일 새벽 3시, 조용하지만 강렬하게 출시됐습니다. 이번에는 GPT-5.4, GPT-5.4 Thinking, GPT-5.4 Pro 세 가지 버전이 동시에 공개됐는데요. 1M 토큰 컨텍스트 윈도우, 직접 마우스를 잡는 Kua(Computer Use), 깊이 생각하는 Thinking 모드까지, 이번 업데이트는 단순한 버전 올림이 아닙니다.
BridgeBench 코딩 벤치마크에서는 Claude Sonnet 4.6과 Claude Opus 4.6을 제치고 1위를 차지했다는 결과도 나왔어요. 뭐가 얼마나 달라진 건지, 개발자라면 바로 써봐야 하는 건지, 지금 바로 정리해 드릴게요.
새벽 3시, 조용히 터진 AI 역대급 업데이트
미국 시간으로는 3월 5일이었지만, 한국에서는 새벽 3시에 알림이 뜨기 시작했습니다. OpenAI가 GPT 5.4 출시를 공식 발표하면서 "가장 유능하고 효율적인 프론티어 모델"이라고 표현했는데요. 말이 좀 거창하긴 하지만, 개발자 커뮤니티와 기술 미디어를 중심으로 이번에는 실제로 그 말이 허언이 아닌 것 같다는 평가가 나오고 있습니다.
이번에 출시된 버전은 세 가지입니다. 일반 업무용 GPT-5.4, 복잡한 추론에 특화된 GPT-5.4 Thinking, 그리고 최고 성능을 원하는 분들을 위한 GPT-5.4 Pro. Codex에 기본으로 탑재됐고, API와 Open Router에서도 출시 직후 즉시 사용 가능한 상태로 올라왔습니다.
개발자들 반응도 꽤 빨랐어요. 출시 직후 바로 라이브 테스트가 시작됐고, 몇 시간 안에 구체적인 벤치마크 결과가 올라오기 시작했습니다. AI 커뮤니티에서는 이미 분석글들이 쏟아지는 중입니다.

GPT 5.4의 핵심 3가지 변화
이번 업데이트에서 실질적으로 달라진 부분을 딱 3가지로 정리하면 이렇습니다. 컨텍스트 윈도우의 대폭 확장, 직접 컴퓨터를 조작하는 Kua, 그리고 추론 성능을 높인 Thinking 모드. 각각 어떤 의미인지 하나씩 살펴볼게요.
컨텍스트 윈도우, 400K에서 1M으로 (소설 3권을 한 번에 기억한다)
GPT-5.3은 컨텍스트 윈도우가 400K 토큰이었는데, 5.4에서는 1M 토큰(100만 토큰)으로 2.5배 늘었습니다. 숫자만 들으면 감이 잘 안 오는데, 75만 단어에 해당하는 분량이에요. 장편소설 3권을 한꺼번에 펼쳐놓고 이야기하는 수준입니다.
개발자 입장에서 더 직관적으로 말하면, 대규모 코드베이스 전체를 컨텍스트에 통째로 집어넣을 수 있다는 뜻입니다. 복수 출처 교차 확인 기준으로, Open Router에서도 1M 이상이 확인됐습니다. 여러 분석에서는 이 정도 크기가 되면 기존에 RAG 아키텍처로 처리하던 일부 작업이 사실상 불필요해질 수 있다고 보고 있습니다.
속도나 품질을 크게 희생하지 않으면서 컨텍스트를 이 정도로 늘렸다는 게 포인트입니다. 긴 문서를 계속 잘라서 넣던 번거로움이 많이 줄어들 것 같습니다.

Kua, AI가 직접 마우스를 잡다 (Computer Use)
Kua는 GPT-5.4 Thinking에 탑재된 Computer Use 기능의 공식 이름입니다. 이전 GPT-5.3 Codex처럼 별도 가상 환경을 새로 띄우는 방식이 아니라, 사람처럼 직접 화면을 클릭하고 조작할 수 있습니다. OpenAI 공식 채널에서 모델 트레이너 SQ가 직접 시연한 내용입니다.
특히 Persistent Kua가 인상적인데요. AI가 자신이 짠 코드를 직접 실행하고, 클릭해보고, 스크린샷으로 결과를 비교하면서 스스로 검증하는 방식입니다. 이 과정에서 일부 케이스는 토큰 사용량이 기존 대비 2/3 감소했다고 OpenAI가 공식 설명했습니다. 토큰을 줄이면서 오히려 더 꼼꼼하게 확인한다는 셈이에요.
OS World 벤치마크에서는 GPT-5.2 대비 약 60% 향상됐습니다. OpenAI Applied Evals 팀의 Carter가 직접 발언한 수치인데요. "5.2에서 퀀텀 리프 수준의 도약"이라고 표현했습니다. 실제 시연에서는 디자인 이미지 1장을 주면 실제 작동하는 웹사이트를 구현하고, 4개 이미지를 병렬로 생성한 뒤 원본과 나란히 비교해서 스스로 수정까지 했습니다.
체스 게임을 직접 빌드하고 캐슬링, 앙파상 같은 복잡한 룰까지 Kua가 직접 플레이하면서 테스트하는 장면도 공개됐어요. 보고 있으면 꽤 신기합니다.

Thinking 모드, 정말 '생각하는' AI가 왔다
Extreme Thinking Mode는 과학적 추론에 최적화된 확장 추론 모드입니다. 답을 바로 내놓는 대신, 응답 전에 한 번 더 깊이 생각하는 단계를 거칩니다. 복잡한 코딩 문제, 수학적 추론, 멀티스텝 비즈니스 분석 같은 상황에서 효과가 두드러진다는 평가입니다.
Codex에서는 Low / Medium / High / Extra High 네 가지 레벨 중에서 고를 수 있습니다. 작업 성격에 따라 직접 선택하거나, 자동으로 맡길 수 있어요. 이 자동 조절 기능이 Adaptivity인데요.
Carter에 따르면 "모델이 프롬프트를 보고 적절하다고 판단하는 수준의 컴퓨팅을 스스로 결정한다"고 합니다. 간단한 질문에는 토큰을 아끼고, 복잡한 문제에는 충분히 투자하는 방식입니다. Medium/Hard 코딩 태스크에서 GPT-5.2와 동일한 결과를 얻는 데 토큰이 20% 덜 든다는 수치도 나왔습니다.
GPT 5.4 코딩 성능, 솔직한 성적표
개발자들이 가장 궁금해하는 부분이죠. 수치로 먼저 보면 이렇습니다. SWE-bench Pro에서 57.7%를 기록했는데, GPT-5.3 Codex의 56.8%에서 0.9% 올라간 수치입니다. GPT-5.2에서 5.3으로 넘어갈 때 1.2% 향상됐던 것과 비교하면 향상 폭이 살짝 줄었어요. 솔직히 말하면 "폭발적 개선"이라기보다는 꾸준한 누적에 가깝습니다.
그런데 실제 벤치마크 테스트 결과인 BridgeBench는 좀 다릅니다. 실전 바이브 코딩 벤치마크에서 GPT 5.4가 95.5점을 기록하며 1위에 올랐습니다. Claude Sonnet 4.6(94.8점)과 Claude Opus 4.6(94.9점)을 모두 제쳤어요. 완성률도 94.6%로 확인됐습니다. 평균 응답 레이턴시는 BridgeBench 기준 총 실행 시간 704ms, 태스크당 평균 5.42초였습니다.
실전 테스트에서도 인상적인 장면이 많았습니다. 20분 동안 멈추지 않고 코딩을 이어가며 웹 앱을 완성했고, Blender 파일 직접 작업이나 SVG 생성 성능도 향상됐다는 시연이 있었습니다. RPG 게임 스프라이트까지 포함한 10개 내외 프롬프트로 완성도 높은 게임을 만드는 장면도 공개됐어요.
멀티 에이전트 오케스트레이션도 주목할 부분입니다. 코디네이터 에이전트가 다수의 서브 에이전트를 병렬로 지휘하고, 별도 검증 에이전트(Adversarial Verification Agent)가 결과를 독립적으로 검토합니다. 막힌 상황에서 스스로 다른 경로를 찾아가는 자기 복구 에이전트도 포함됩니다.

가격은? 어디서 쓸 수 있나?
API 가격부터 정리하면, GPT-5.4는 입력 $2.50 / 출력 $15(1M 토큰 기준)입니다. Claude Sonnet과 비슷한 수준이에요. GPT-5.4 Pro는 입력 $30 / 출력 $180으로, 고성능인 만큼 가격도 상당히 올라갑니다. 일반 업무에는 GPT-5.4 기본 버전으로도 충분할 것 같습니다.
ChatGPT 5.4를 어디서 써볼 수 있는지 궁금하신 분도 많을 텐데요. Codex에서는 최신 버전으로 업데이트하면 바로 사용 가능합니다. Open Router에도 출시 직후 즉시 등록됐습니다. 일부 플랫폼에서는 출시 이후 한시적으로 신규 가입자를 포함해 무료로 제공하고 있다는 정보도 있으니, 관심 있으신 분은 확인해보세요.
빠르게 정리하면
- GPT-5.4 API: 입력 $2.50 / 출력 $15 (1M 토큰)
- GPT-5.4 Pro: 입력 $30 / 출력 $180 (1M 토큰)
- 사용처: Codex, Open Router, 주요 플랫폼 (한시적 무료 제공처 확인 필수)
AI 삼파전, Claude vs Gemini vs GPT 지금 어디가 앞서나?
솔직히 이게 제일 궁금하죠. 공식 벤치마크 기준으로 살펴보면, GPT 5.4 성능이 항목마다 다릅니다. Computer Use와 Web browsing에서는 Claude Sonnet 4.6, Opus 4.6을 앞서는 것으로 나왔고, GDPVal에서는 Opus 4.6을 크게 웃돌았습니다. 수학 영역도 GPT 5.4가 매우 우수하다는 평가입니다.
반면 agentic browsing을 측정하는 BrowseComp에서는 Claude Opus 4.6에 밀리는 결과가 나왔습니다. GPQA Diamond(대학원 수준 과학 문제)는 Opus 4.6을 넘어섰지만 Gemini 3.1 Pro에는 미치지 못했어요. 균형 잡힌 평가가 필요합니다.
SWE-bench Pro 기준으로는 GPT 5.4가 57.7%, Gemini 3.1 Pro가 54.2%로 GPT 5.4가 높습니다. 각 모델의 특징을 정리하면 이렇습니다.
| 모델 | 강점 영역 | 특징 |
|---|---|---|
| GPT-5.4 | Computer Use, 수학, 코딩 | BridgeBench 1위, 1M 토큰 |
| Claude | 추론, 대화 자연스러움 | 개발자 선호도 높음 |
| Gemini | 디자인, 멀티모달 | Google 생태계 연동 강세 |
커뮤니티에서는 ChatGPT 5.4의 출시를 Anthropic과 Google의 공격적인 모델 출시에 대한 OpenAI의 대응으로 해석하는 분위기입니다. 어쨌든 이 경쟁 덕분에 사용자들은 더 강력한 도구를 더 합리적인 가격에 쓸 수 있게 됩니다. 좋은 방향이죠.
월 1회 업데이트 시대가 열렸다, OpenAI의 선언
이번 GPT 5.4 출시와 함께 OpenAI가 공식적으로 선언한 게 하나 더 있습니다. 바로 월 1회 정기 업데이트 체계로의 전환입니다. 처음에는 연 1회, 그 다음엔 6개월, 3개월로 점점 짧아지더니 이제 매달 새 버전을 내놓겠다는 거예요.
개발자 입장에서는 반갑기도 하고 조금 부담스럽기도 합니다. 새 기능이 매달 추가되는 건 좋지만, 그만큼 테스트와 마이그레이션 주기도 빨라진다는 뜻이니까요. 품질 안정성을 유지하면서 GPT 5.4 같은 새로운 버전의 출시 속도를 높이는 게 쉬운 일은 아닌데, OpenAI가 어떻게 균형을 잡는지 지켜봐야 할 것 같습니다.
앞으로는 AI 모델 선택이 연간 이벤트가 아니라 월간 루틴이 될 수 있습니다. 어떤 모델이 이번 달 가장 잘하는지 계속 확인해야 하는 시대가 열린 셈입니다.
GPT 5.4, 쓸 가치가 있을까?
1M 토큰 컨텍스트, Kua의 Computer Use, Thinking 모드까지, 이번 GPT 5.4는 방향성이 분명한 업데이트입니다. SWE-bench Pro 향상 폭이 이전보다 살짝 줄었다는 아쉬움은 있지만, BridgeBench 1위라는 실전 결과와 Computer Use의 60% 향상은 의미 있는 수치입니다.
지금 바로 써보고 싶다면 Codex를 최신 버전으로 업데이트하거나 Open Router에서 접근하면 됩니다. 주요 플랫폼에서 한시적 무료 제공 중이니 개발자라면 지금이 테스트해볼 좋은 타이밍이에요.
GPT, Claude, Gemini가 매달 치고받는 상황이 이어지면서 개발 도구 시장이 정말 빠르게 바뀌고 있습니다. 이 글이 도움이 됐다면 주변 개발자 친구나 AI 관심 있는 분들에게 공유해 주세요. 여러분은 GPT 5.4 써보셨나요? 어떤 기능이 가장 기대되시나요?
'정보 > AI' 카테고리의 다른 글
| Codex CLI vs Codex 앱 차이점 총정리 | 어떤 걸 써야 할까? (0) | 2026.03.07 |
|---|---|
| ChatGPT 5.4 출시! 코딩부터 웹조작까지 5가지 신기능 (0) | 2026.03.06 |
| GPT-5.4 출시: 컴퓨터 제어 기능과 성능 완전 분석 (0) | 2026.03.06 |
| AI뉴스 정리 - 나노바나나2, 클로드, Qwen 최신 업데이트 (0) | 2026.03.05 |
| Claude Code 하니스 완벽 가이드: AI를 전담 직원으로 만드는 법 (0) | 2026.03.05 |