GPT-5.4 출시: 컴퓨터 제어 기능과 성능 완전 분석

2026년 3월 6일 새벽 3시, OpenAI가 GPT-5.4를 출시했어요. 컴퓨터를 직접 조종하는 기능부터 지식 근로 벤치마크 83% 달성까지 굵직한 변화들이 담겨 있어요. GPT-5.4의 핵심 내용을 살펴볼게요.

GPT-5.3을 건너뛴 이유가 뭘까?

GPT 시리즈 버전 순서를 보면 좀 독특해요. GPT-5.1이 2025년 11월에 나왔고, 이후 GPT-5.2, 그리고 GPT-5.3 Codex(코딩 특화)와 GPT-5.3 Instant가 차례로 공개됐는데요. 범용 GPT-5.3은 따로 출시되지 않았어요. GPT-5.4가 GPT-5.2 이후 범용 모델의 다음 주요 릴리즈인 셈이죠.

한 버전을 통째로 건너뛸 만큼 차이가 크다는 신호이기도 해요. 이번 GPT-5.4는 Standard, Thinking, Pro 세 가지 버전으로 나뉘는데, 각 버전이 타깃으로 삼는 사용자층이 확연히 달라요. 상세 비교는 뒤에서 다시 다룰게요.

가장 큰 변화, AI가 직접 컴퓨터를 조종한다

이번 GPT-5.4에서 가장 눈에 띄는 기능은 단연 컴퓨터 제어(Computer Use)예요. OpenAI 최초로 네이티브 컴퓨터 제어가 가능한 범용 모델이 나온 거거든요. UI 클릭, 데스크톱 탐색, 앱 간 이동까지 사람처럼 화면을 다루는 게 가능해졌어요.

OSWorld Verified 벤치마크 기준으로 GPT-5.4는 75%를 달성했어요. GPT-5.2가 47%였다는 걸 감안하면, 한 번의 버전 업데이트에서 약 28%p가 뛴 거예요. 더 놀라운 건 인간 전문가의 기준치가 72.4%라는 점인데, 이번에 처음으로 그 수치를 넘어섰어요.

기업 입장에서 이 부분이 특히 흥미로운 건, 기존에는 AI 에이전트를 쓰려면 전용 API나 인터페이스를 별도로 구축해야 했거든요. GPT-5.4는 사람과 동일한 UI로 기존 시스템을 그대로 사용할 수 있어서, 레거시 시스템 자동화 진입 장벽이 확 낮아졌어요.

지식 근로자 테스트, GDPVal 83%의 의미

GDPVal이라는 벤치마크는 44개 직종, 9개 산업 분야의 지식 근로 전문가 수준을 테스트하는 지표예요. GPT-5.4는 여기서 83%를 달성했는데, GPT-5.2 대비 약 12%p 향상된 수치예요.

숫자만 보면 감이 안 잡히시죠? 공식 발표 기준으로 해석하면, 해당 직종 전문가가 수행하는 업무의 83%를 AI가 처리할 수 있다는 의미로 봐요. 시각 능력도 눈에 띄게 강화됐어요. MMMU-Pro 시각 벤치마크에서 81.2%를 기록했는데, 멀티모달 작업 전반에서 이전보다 훨씬 안정적인 성능을 보여줘요.

코딩 성능, 빠르지만 Claude에게 지는 부분도 있다

SWE-Bench Verified 기준으로 GPT-5.4는 57.7%를 기록했어요. 반면 Claude Opus 4.6은 같은 테스트에서 80.8%를 찍었죠. 프로덕션 코드 수준의 실제 코딩 능력이라면 현재로선 Claude가 앞서 있어요.

다만 코딩 속도는 medium reasoning effort 기준으로 GPT-5.2 대비 약 83% 빨라졌어요. 흥미롭게도 medium effort가 high effort보다 속도와 정확도 균형이 더 좋아요. Terminal-Bench 2.0에서는 75.1%를 기록해 터미널 작업도 탄탄해요.

토큰 47% 절감과 사고 중 끼어들기

Tool Search는 이번 업데이트에서 실용적인 면에서 가장 와 닿는 기능이에요. 기존에는 AI가 사용할 수 있는 모든 도구 정의를 컨텍스트에 미리 통째로 올려야 했어요. 도구 창고 전체를 항상 열어두는 방식이었죠. GPT-5.4는 경량 목록만 올려두고, 필요할 때 해당 도구만 꺼내 쓰는 방식으로 바뀌었어요.

Scale MCP Atlas 벤치마크(MCP 서버 36개, 250개 과제) 기준으로 동일한 정확도를 유지하면서 토큰 사용량이 47% 줄었어요. 가격이 다소 인상됐음에도 실질 비용 부담은 생각보다 크지 않을 수 있다는 얘기가 나오는 이유가 여기에 있어요.

Steerability는 AI가 추론 중에 사용자가 중단하고 방향을 다시 잡아줄 수 있는 기능이에요. 이전에는 처음부터 다시 시작해야 했는데, 이제 중간 개입이 가능해진 거죠. 컨텍스트 윈도우는 Standard 기준 272,000 토큰이고, Codex 모드에서는 실험적으로 100만 토큰까지 지원해요.

Standard, Thinking, Pro 중 나한테 맞는 버전은?

GPT-5.4는 세 가지 버전으로 나뉘는데, 각자의 용도가 꽤 달라요.

버전	대상	특징
GPT-5.4 Standard	일반 사용자, 개발자	빠른 응답, 비용 효율
GPT-5.4 Thinking	심화 추론 작업	Steerability, 장기 에이전트 워크플로우
GPT-5.4 Pro	과학 연구, 전문 업무	일반 사용자 대상 아님

가격을 경쟁 모델과 함께 보면 아래와 같아요.

모델	입력($/1M 토큰)	출력($/1M 토큰)
GPT-5.4 Standard	$2.50	$15.00
GPT-5.4 Pro	$30.00	$180.00
Claude Opus 4.6	$5.00	$25.00
Gemini 3.1 Pro	$2.00	$12.00

GPT-5.4 Standard의 입력 단가는 Claude Opus 4.6의 절반 수준이에요. 여기에 Tool Search로 토큰 사용량이 47% 줄어드는 걸 감안하면, 실제 비용 부담은 가격표보다 훨씬 합리적으로 느껴질 수 있어요.

GPT-5.4, 앞으로 어떻게 활용할까?

컴퓨터 제어, Tool Search, Steerability가 한데 모이면 자동화 에이전트로서의 가능성이 훨씬 커져요. 기업 입장에서는 별도의 에이전트 전용 시스템을 만들지 않아도, 기존 레거시 시스템에 GPT-5.4를 얹어 반복 업무를 자동화할 수 있는 가능성이 열렸어요.

단기적으로는 과학 추론에서 강한 Gemini 3.1 Pro, 프로덕션 코딩에서 앞서는 Claude Opus 4.6과의 경쟁 구도가 계속될 거예요. 각 모델이 잘하는 영역이 다르니, 용도에 맞게 골라 쓰는 게 요즘 트렌드이기도 하고요. 지금 당장 ChatGPT에서 GPT-5.4 Standard나 Thinking을 써볼 수 있으니, 직접 써보고 차이를 느껴보는 게 가장 빠른 방법이에요.

'정보 > AI' 카테고리의 다른 글

ChatGPT 5.4 출시! 코딩부터 웹조작까지 5가지 신기능 (0)	2026.03.06
GPT 5.4 출시! 코딩부터 AI 추론까지 한 번에 (3가지 변화) (0)	2026.03.06
AI뉴스 정리 - 나노바나나2, 클로드, Qwen 최신 업데이트 (0)	2026.03.05
Claude Code 하니스 완벽 가이드: AI를 전담 직원으로 만드는 법 (0)	2026.03.05
클로드코드 활용법 4가지, AI 코딩의 미래를 경험해봐 (0)	2026.03.04

GPT-5.3을 건너뛴 이유가 뭘까?

가장 큰 변화, AI가 직접 컴퓨터를 조종한다

지식 근로자 테스트, GDPVal 83%의 의미

코딩 성능, 빠르지만 Claude에게 지는 부분도 있다

토큰 47% 절감과 사고 중 끼어들기

Standard, Thinking, Pro 중 나한테 맞는 버전은?

GPT-5.4, 앞으로 어떻게 활용할까?

'정보 > AI' 카테고리의 다른 글

티스토리툴바