
ChatGPT 최신 버전인 GPT-5.4가 드디어 나왔어요. 한국 시간 기준 2026년 3월 6일 새벽 3시, OpenAI가 ChatGPT 5.4를 전격 공개했는데요. 100만 토큰 컨텍스트 윈도우부터 컴퓨터를 직접 조작하는 Computer Use까지, 일반인과 개발자 모두가 꼭 알아야 할 핵심 변화들을 정리해봤어요.
솔직히 말씀드리면, 이번 업데이트는 단순한 버전 숫자 올리기가 아니에요. 코딩 환경인 Codex에서 출시 5분 만에 바로 사용 가능했고, 라이브 스트림 데모에서도 꽤 인상적인 장면들이 나왔거든요. 어떤 부분이 진짜로 달라졌는지 같이 살펴볼게요.
잠깐, GPT-5.4가 뭐예요? 일반인도 이해하는 30초 요약
GPT는 OpenAI가 만든 대화형 AI 프로그램이에요. 질문하면 답해주고, 글 써달라면 써주고, 코드 짜달라면 짜주는 그 ChatGPT가 맞아요. 버전이 4에서 5로 넘어오면서 성능이 크게 올랐고, 지금은 5.x 시리즈가 업데이트되는 중이에요.
이번에 나온 GPT-5.4는 세 가지 버전으로 나뉘어요. 기본인 GPT-5.4, 추론 능력에 특화된 GPT-5.4 Thinking(ChatGPT Plus 이상 구독자에게 제공), 그리고 최고 성능인 GPT-5.4 Pro(ChatGPT Pro, 월 $200 이상)로 구성되어 있어요.
| 버전 | 특징 | 사용 가능 플랜 |
|---|---|---|
| GPT-5.4 | 기본 버전, 범용 작업 최적화 | API / Codex |
| GPT-5.4 Thinking | 추론 특화, 복잡한 문제 해결 | ChatGPT Plus 이상 |
| GPT-5.4 Pro | 최고 성능, 엔터프라이즈급 | ChatGPT Pro / Enterprise |
GPT-4에서 GPT-5로 넘어온 게 불과 얼마 전 같은데, 벌써 5.4까지 왔네요. OpenAI가 올해부터 월간 업데이트 정책으로 전환했거든요. 수개월에 한 번씩 큰 업데이트를 내던 예전 방식에서 매달 새 버전을 내는 방식으로 바꿨어요.

GPT-5.4의 가장 큰 변화, 기억력이 2.5배 늘었다 (1M 토큰 컨텍스트)
이번 GPT-5.4에서 가장 직관적으로 와닿는 변화는 컨텍스트 윈도우 확장이에요. 이전 GPT-5.3의 40만 토큰에서 이번엔 무려 100만 토큰으로 늘었거든요. 2.5배 증가한 셈이에요.
컨텍스트 윈도우가 뭔지 잘 모르시는 분들을 위해 쉽게 설명하면, AI가 한 번의 대화에서 기억할 수 있는 분량이에요. 100만 토큰은 약 75만 단어, 장편소설 3권 분량을 동시에 기억하면서 대화하는 것과 비슷해요. 긴 보고서 전체를 붙여넣고 "이 문서에서 A와 B를 비교해줘"라고 해도 처음부터 끝까지 다 기억한다는 뜻이에요.
이런 분께 특히 유용해요
- 일반인: 긴 계약서, 논문, 보고서 전체를 넣고 요약·분석 요청 가능
- 개발자: 대형 코드베이스 전체를 한 세션에 유지하며 리팩토링 가능
- 연구자: 문서 전체를 직접 삽입해 RAG(검색 보강) 없이도 분석 가능성 높아짐
개발자들 사이에서는 이 1M 컨텍스트가 RAG(Retrieval-Augmented Generation, 외부 검색을 통해 정보를 보강하는 방식)의 필요성을 줄여줄 거라는 이야기가 나와요. 물론 지금 당장 RAG를 완전히 대체하기는 어렵겠지만, 타이밍상 그쪽으로 흘러갈 여지가 충분히 있다는 거죠.
컴퓨터를 직접 조종한다, Computer Use(Kua)의 놀라운 능력
GPT-5.4에서 가장 눈길을 끄는 신기능이 바로 Computer Use예요. 내부 코드명으로 "Kua"라고 부르는 이 기능인데, 마우스 클릭, 드래그, 파일 열기까지 인간처럼 컴퓨터를 직접 조작해요.
성능 수치가 꽤 인상적이에요. OpenAI Applied Evals 팀이 공유한 OSWorld-Verified 벤치마크 기준으로, GPT-5.4 Thinking이 75.0% 성공률을 기록했어요. GPT-5.2의 47.3%에서 약 60% 향상된 수치고, 인간 평균(72.4%)도 넘어섰거든요. OpenAI 측에서 직접 "퀀텀 리프(quantum leap)"라고 표현했을 만큼 이 팀이 자신 있게 내세우는 기능이에요.
실제로 출시 당일 라이브 데모에서 보여준 장면들이 인상적이었어요. Mac 시스템 설정을 직접 열어 문서 폴더 용량을 분석하고, Wordle 게임을 직접 플레이해서 성공하는 모습도 시연했어요. 가장 놀라웠던 건 3D 체스 게임을 직접 클릭하며 캐슬링, 앙 파상 같은 복잡한 규칙까지 실제로 구현하고 테스트하는 장면이었는데, AI가 마우스를 움직여 정확히 말 한 개씩 이동시키고 게임이 올바르게 진행되는 걸 보면서 기술 수준의 격차를 체감했거든요.
퍼시스턴트 Kua가 특히 유용한 이유
이전에는 Computer Use 기능을 쓸 때마다 새 환경을 따로 띄워야 했어요. GPT-5.4부터는 별도 환경 없이 바로 실행되고, 모델이 자신이 만든 코드를 직접 열어서 테스트까지 해요. OpenAI에서 공개한 자료에 따르면 이 방식으로 토큰 사용량이 최대 2/3까지 줄었다고 해요.
일반인 입장에서 쉽게 풀면, "내가 매일 반복하던 작업을 GPT가 대신 마우스 클릭해서 해준다"는 거예요. 파일 이름 일괄 변경, 웹사이트에서 데이터 긁어오기, 스프레드시트 정리 같은 작업들이요.

개발자라면 지금 바로 써봐야 할 이유, AI 코딩 성능 완전 분석

SWE-bench Pro 57.7%, 성능 지표 솔직하게 읽기
코딩 AI 성능을 평가하는 대표 벤치마크인 SWE-bench Pro(AI가 실제 소프트웨어 이슈를 얼마나 잘 해결하는지 측정하는 기준)에서 GPT-5.4 Thinking이 57.7%를 기록했어요. 이전 GPT-5.3 Codex와 동급 수준을 유지하면서 레이턴시(응답 속도)는 더 낮아진 거예요.
수치 변화만 보면 5.2에서 5.3으로 올 때 1.2% 상승, 5.3에서 5.4로 올 때 0.9% 상승으로 증분은 소폭 줄었어요. 이 부분은 솔직하게 말씀드리는 게 맞겠죠. 다만 이번 업데이트의 핵심은 성능 수치 자체보다는 어댑티브 추론과 토큰 효율성 개선에 있다고 봐요.
어댑티브 추론이란, 복잡한 문제에만 추론 토큰을 집중하고 단순한 작업에는 불필요한 추론을 하지 않는 방식이에요. Augment Code 라이브 스트림에서 OpenAI가 직접 공개한 수치로는, 동일한 결과를 내면서도 20% 더 적은 토큰으로 해결한다고 해요. "Hello World 출력하는 Python 코드에 과도한 추론 토큰을 낭비할 필요가 없다"는 설명이 인상적이었어요.
Vibe Coding 실전, Codex에서 바로 쓸 수 있다
Vibe Coding은 코드 문법을 몰라도 자연어로 대화하듯 개발하는 방식이에요. "로그인 페이지 만들어줘", "이 기능 추가해줘"처럼 말하면 AI가 알아서 코드를 짜주는 거예요. GPT-5.4는 출시 5분 만에 Codex에서 바로 사용 가능했고, 실제로 여러 채널에서 즉시 라이브 테스트를 진행했어요.
멀티 에이전트 코디네이션도 주목할 만해요. 4개의 서브 에이전트를 병렬로 실행해서 복잡한 작업을 분산 처리하는 방식이에요. 예를 들어 디스크 공간 분석 같은 작업을 동시에 여러 경로로 탐색하는 데모를 직접 시연했어요. 막힌 경로가 나오면 다른 경로를 자동으로 탐색하는 자기 회복 능력도 이전 모델보다 눈에 띄게 개선됐다는 반응이에요.
OpenAI 공식 영상에서는 Codex와 GPT-5.4 Thinking을 조합해 3D 체스 게임 Electron 앱을 만드는 데모도 나왔어요. 유리와 대리석 질감 효과까지 포함한 앱이었는데, 캐슬링이나 앙 파상 같은 복잡한 체스 규칙도 실제로 작동하는 수준으로 구현했더라고요. 개발자 커뮤니티에서는 프론트엔드보다 백엔드 코딩에서 성능이 더 두드러진다는 의견이 많이 나오는 편이에요.
일반인도 쓸 수 있어요, 엑셀과 구글 시트 직접 연동
개발자가 아닌 분들에게 가장 실용적인 변화를 꼽으라면, Microsoft Excel과 Google Sheets 직접 연동 플러그인이에요. 스프레드시트 안에서 GPT에게 바로 말을 걸 수 있게 된 거예요. "이 표에서 매출이 전달 대비 감소한 항목 찾아줘"처럼요.
전문 업무 벤치마크(GDPval) 기준으로 44개 직군 실무 태스크에서 사무직 근로자 대비 83% 우위를 기록했다는 수치도 있어요. 그리고 개별 주장의 오류율이 GPT-5.2 대비 33% 감소, 전체 응답 오류율은 18% 감소했다고 해요. 이전 버전과 비교해서 할루시네이션(AI가 틀린 정보를 자신 있게 말하는 현상)이 줄었다는 뜻이기도 해요.
가격 정보
API 사용 기준으로 입력 $2.50/1M 토큰, 출력 $15/1M 토큰이에요. Claude Sonnet과 비슷한 가격대라는 이야기가 나오고 있어요. ChatGPT Plus 구독자라면 Thinking 버전을 따로 비용 추가 없이 사용할 수 있어요.
OpenAI 측 표현을 빌리자면 "전문가 업무에 최적화된 가장 효율적인 프런티어 모델"이라고 하는데요. 실제 업무에서 어디까지 활용할 수 있는지는 써보면서 가늠해야겠지만, 엑셀 연동 하나만으로도 사무직 분들에게는 꽤 의미 있는 변화일 것 같아요.
GPT-5.4 vs 경쟁 AI, 솔직한 비교 구도

GPT-5.4 이야기를 하다 보면 자연스럽게 "그래서 Claude나 Gemini랑 비교하면 어때요?"라는 질문이 나오죠. 현재 주요 경쟁 모델은 Anthropic의 Claude Opus 4.6인데, 각 영역별로 꽤 명확하게 갈려요.
| 비교 항목 | GPT-5.4 Thinking | Claude Opus 4.6 |
|---|---|---|
| 코딩 성능 (SWE-bench) | Pro 기준 57.7% | Verified 기준 79.4% |
| Computer Use (OSWorld) | 75.0% (인간 초과) | 72.7% |
| 대화 자연스러움 | 좋음 | 우위 (커뮤니티 평가) |
| 오피스 통합 | Excel·Sheets 직접 연동 | 별도 플러그인 필요 |
| API 입력 가격/1M 토큰 | $2.50 | 유사 가격대 |
코딩 벤치마크 수치만 보면 Claude Opus 4.6이 여전히 앞서 있어요. 다만 벤치마크 기준 자체가 달라서(SWE-bench Pro vs SWE-bench Verified) 직접 비교에는 한계가 있어요. 대화의 자연스러움이나 복잡한 멀티스텝 일관성은 커뮤니티에서 Claude를 선호한다는 평가가 많은 편이고, Computer Use와 오피스 통합에서는 GPT-5.4가 앞서는 구도예요.
OpenAI가 이번에 월간 업데이트 정책으로 전환한 것도 눈여겨볼 부분이에요. Anthropic과 Google이 빠르게 치고 올라오는 상황에서, 잦은 업데이트로 대응하는 전략으로 볼 여지가 있거든요. 사용자 입장에서는 경쟁이 치열할수록 더 좋은 모델이 더 자주 나온다는 의미니까, 나쁜 소식은 아니죠.
앞으로 어떻게 될까, AI 시대의 속도와 우리의 선택
불과 한 달 전인 2월 5일에 GPT-5.3이 나왔는데, 3월 6일에 이미 5.4가 나왔어요. 이게 월간 업데이트 정책의 첫 번째 결과예요. AI 발전 속도가 더 빨라진다는 신호를 이번 출시가 분명하게 보내고 있어요.
ChatGPT Plus 구독자라면 지금 바로 Thinking 버전을 써볼 수 있어요. 특별한 설정 없이 모델 선택 화면에서 GPT-5.4 Thinking을 고르면 돼요. 개발자 분들은 Codex에서 이미 사용 가능한 상태고요. 1M 컨텍스트 윈도우와 퍼시스턴트 Kua가 실무에 어떻게 작용하는지는 직접 써봐야 체감이 되는 부분이에요.
"AI 레이스는 끝이 없다. 사용자 입장에서는 좋은 소식이다."
결국 GPT-5.4든 Claude Opus 4.6이든, 경쟁이 치열할수록 선택지는 더 좋아지는 구조예요. 지금 가장 실용적인 접근은 자신이 주로 어떤 용도로 AI를 쓰는지에 따라 고르는 거예요. 컴퓨터 자동화가 필요하다면 GPT-5.4, 복잡한 대화와 문서 작업 중심이라면 Claude, 이렇게 나눠보는 게 일단은 가장 현실적인 기준이 되지 않을까 싶어요.
어떤 기능이 가장 기대되세요? 개발자 분들에게는 Vibe Coding이나 1M 컨텍스트가 가장 관심 가는 부분일 것 같고, 일반인 분들께는 엑셀 연동이나 Computer Use가 일상에서 제일 먼저 쓰임새가 생길 것 같아요. ChatGPT Plus 구독 중이라면 오늘 바로 체험해보는 것도 좋은 방법이고, 주변 개발자 동료들과 이야기 나눠보거나 SNS에서 실제 사용 후기를 찾아보는 것도 재미있을 것 같아요.
'정보 > AI' 카테고리의 다른 글
| Claude Code Schedule 기능 완벽 정리: 크론잡 자동화까지 (0) | 2026.03.09 |
|---|---|
| Codex CLI vs Codex 앱 차이점 총정리 | 어떤 걸 써야 할까? (0) | 2026.03.07 |
| GPT 5.4 출시! 코딩부터 AI 추론까지 한 번에 (3가지 변화) (0) | 2026.03.06 |
| GPT-5.4 출시: 컴퓨터 제어 기능과 성능 완전 분석 (0) | 2026.03.06 |
| AI뉴스 정리 - 나노바나나2, 클로드, Qwen 최신 업데이트 (0) | 2026.03.05 |