
클로드 소넷 4.6 출시 총정리 - 오퍼스급 성능을 1/5 가격에 (2026.02.18)
오늘(2026년 2월 18일) 앤트로픽이 Claude Sonnet 4.6을 전격 출시했다. 몇 주 전에 나온 Opus 4.6이 워낙 강렬했던 터라, 사실 소넷 업그레이드가 이렇게 빨리 올 줄은 몰랐다. 그런데 뚜껑을 열어보니 단순한 마이너 업데이트가 아니었다. 에이전틱 컴퓨터 사용 성능이 오퍼스 4.6과 사실상 동등한데, 가격은 오퍼스의 1/5 수준이다. 클로드AI를 직접 사용하거나 API로 자동화 파이프라인을 돌리는 분들에게는 꽤 의미 있는 변화다.

클로드 소넷 4.6이 뭔가요? — 앤트로픽의 '일꾼 모델'
앤트로픽 모델 라인업에서 소넷(Sonnet)은 이른바 '워크호스(workhorse)', 즉 일꾼 역할을 담당한다. 오퍼스가 최고 성능을 자랑하는 플래그십이라면, 소넷은 비용 효율성과 속도 면에서 실사용에 가장 적합하게 설계된 모델이다.
Claude Sonnet 4.6은 전작인 Sonnet 4.5 대비 코딩 능력, 도구 사용, 에이전틱 능력 전반에서 대폭 향상됐다. 여기에 베타로 100만 토큰 컨텍스트 윈도우까지 추가됐다. 무엇보다 눈에 띄는 부분은, 출시와 동시에 claude.ai 무료 플랜의 기본 모델로 지정됐다는 점이다. 무료 사용자도 이 모델을 바로 경험할 수 있게 됐다.
앤트로픽이 이 모델을 두고 "실세계 태스크 모델"이라고 표현하는 이유가 있다. PowerPoint 만들기, Excel 조작, Claude Code 내에서의 코딩 자동화 같은 실제 업무 흐름에서 두각을 보이도록 설계된 거다. 범용 지식 평가보다 실무 능력에 더 최적화된 셈이다.
주요 성능 향상 — 수치로 보는 업그레이드
Sonnet 4.5에서 4.6으로 넘어오면서 주요 벤치마크가 어느 정도 올랐는지 정리해봤다. 공식 발표 기준이다.

에이전틱 터미널 코딩: 51% → 59%. 단순히 코드를 짜는 게 아니라, 터미널 환경에서 실제 작업을 수행하는 능력이 큰 폭으로 올랐다.
컴퓨터 사용 (OS World Verified): 61.4% → 72.5%. 이 수치는 AI가 실제 컴퓨터 환경에서 주어진 실무 과제를 스스로 완수하는 비율이다. 2024년 10월 Sonnet 3.5에서 이 기능이 처음 도입됐을 때 점수가 20% 미만이었다는 걸 생각하면, 불과 1년 사이 72.5%까지 올라왔다는 게 놀랍다.
도구 사용 (Tool Use): 43.8% → 61.3%. 이 항목이 이번 업그레이드에서 아마 가장 두드러지는 부분이다. MCP 서버 연동이나 외부 도구 쿼리를 얼마나 잘 활용하느냐의 척도인데, 17포인트 이상 올랐다.
ARC-AGI 2: 13.6 → 58.3. 이건 솔직히 예상을 벗어난 수치다. ARC-AGI는 인간의 적응형 추론 능력을 테스트하는 벤치마크로, AI 일반 지능 측정에서 가장 까다로운 기준 중 하나다. 전작 대비 거의 4배 이상 뛴 건데, 오퍼스 4.6 (68점)에는 못 미치지만 격차가 크게 좁혀졌다.
에이전틱 금융 분석: GPT-5.2, Gemini 3 Pro를 모두 제치고 전체 1위를 차지했다. 앤트로픽이 이 모델을 명백히 지식 근로자 대상으로 최적화했다는 증거다.
Vending Bench Arena: 300여 일 시뮬레이션에서 소넷 4.5가 약 $2,000 수익을 낸 것과 달리, 소넷 4.6은 마지막 50일 구간에서 급격히 성과를 올리며 $5,500까지 도달했다. 초반에 재고 용량에 투자한 다음 후반 수익성을 극대화하는 전략을 스스로 개발했다는 게 흥미롭다.
Humanity's Last Exam: 도구 없이 17.7 → 33.6으로 두 배 가까이 올랐다. GPQ Diamond는 83 → 89로 무난한 상승.
오피스 태스크 분야에서는 오퍼스 4.6을 앞서는 결과도 나왔다. 앤트로픽 공식 블로그의 첫 단락이 컴퓨터 사용 얘기로 시작한다는 점이 이 모델의 설계 방향을 명확히 보여준다.
오퍼스와 비교하면? — 1/5 가격이 가능한 이유
가장 많이 나오는 질문이 이거다. "소넷이 오퍼스만큼 좋으면 오퍼스 쓸 이유가 있나?"
솔직히 말하면, 에이전틱 작업 기준으로는 이제 소넷 쪽이 더 합리적인 선택이다. 에이전틱 컴퓨터 사용 점수가 소넷 4.6: 72.5% vs 오퍼스 4.6: 72.7%로 사실상 동등하다. 오픈클로(OpenClaw), 클로드 코드 같은 AI 에이전트 툴에서 브레인으로 쓰이는 핵심 능력이 같은 거다.
API 가격 비교
소넷 4.6: 입력 $3 / 출력 $15 (백만 토큰당, 200K 이하 기준)
오퍼스 4.6: 입력 $15 / 출력 $75 (백만 토큰당)
※ 200K 토큰 초과 시 소넷 4.6도 입력 $15 적용 (구간별 차등)
오퍼스가 여전히 앞서는 부분도 있다. 순수 코딩(에이전틱 터미널 기준), SVG 생성 같은 창의적 시각 작업, 그리고 전반적인 추론 벤치마크에서는 오퍼스 쪽이 좀 더 낫다. 속도 측면에서는 소넷이 약 2배 빠르다는 보고가 많다.
하루에 몇 시간씩 오픈클로를 돌리거나 API 비용이 신경 쓰이는 분들이라면, 소넷 4.6으로 전환하는 게 이제 충분히 합리적인 선택이 됐다. 기존에 오퍼스로 하루 수백 달러씩 쓰던 것을 5분의 1로 줄일 수 있다는 의미다.
1M 토큰 컨텍스트 윈도우 — 실제로 어디에 쓸까?
100만 토큰이라고 하면 대략 영어 기준 75만 단어다. 한국어로는 약 40~50만 자 분량. 일반적인 소설 여러 권을 한 번에 넣어도 남는 크기다.
실용적인 관점에서 가장 유용한 케이스는 대규모 코드베이스 분석이다. 프로젝트 파일 전체를 컨텍스트에 올려놓고 작업할 수 있다. 이전엔 200K 한계 때문에 파일을 쪼개거나 요약해서 넣어야 했는데, 이제 전체를 한 번에 처리할 수 있다. 오픈클로에서 야간 자동 작업을 돌릴 때 이 점이 특히 강점이 된다.
다만 주의할 점이 있다. 200K 토큰 이하 구간에서는 입력 $3이지만, 200K를 초과하면 동일 구간에서도 입력 $15가 적용된다. 장문 문서를 자주 다룰 예정이라면 비용 계산을 미리 해두는 게 좋다.
에이전틱 AI의 새 기준 — 클로드 코드, 오픈클로에서의 활용
클로드 소넷 4.6이 가장 빛을 발하는 곳은 자율 에이전트 환경이다. 오픈클로, Claude Code, 그리고 앤트로픽이 최근 발표한 Claude Co-Work 같은 툴들이 대표적이다. Claude Co-Work는 클로드 코드를 비기술자도 쓸 수 있도록 감싼 서비스로, 실제 컴퓨터에서 작업을 직접 수행하는 능력이 핵심이다.
이전까지 오픈클로에서 오퍼스를 기본 브레인으로 쓰던 사람들 입장에서 이번 변화가 꽤 크다. API 방식으로 돌리는 경우 하루 비용이 수백 달러에 달하는 경우도 있었는데, 이제 동등한 에이전틱 성능을 1/5 가격에 쓸 수 있게 된 거다. "밤새 X와 레딧을 돌면서 트렌드를 수집해줘" 같은 장시간 자율 태스크를 이제 비용 걱정 없이 돌릴 수 있다는 뜻이기도 하다.
Claude Code를 활용하는 개발자라면, 소넷 4.6을 단순 변경 작업에 쓰고 복잡한 원샷 구현에만 오퍼스를 남겨두는 방식이 효율적이다. 버튼 색상 바꾸기, 레이아웃 수정, 새 API 연결 같은 작업은 소넷으로도 충분하다. 그리고 이제 $200 플랜에서도 소넷 4.6이면 사용량 한도에 훨씬 덜 걸린다는 게 현장 반응이다.
이번 출시와 함께 여러 기능도 함께 업데이트됐다. 웹 검색·가져오기 도구가 결과를 자동으로 코드로 처리하는 기능이 추가됐고, 코드 실행·메모리·도구 검색 등이 정식 GA됐다. 엑셀 지원과 MCP 커넥터도 확장됐다.
안전성 분류 — ASL-3란 무엇인가?
Claude Sonnet 4.6은 앤트로픽 내부 기준 ASL-3으로 분류됐다. ASL(AI Safety Level) 체계는 1부터 5+까지 있는데, 1이 가장 낮은 위험, 숫자가 올라갈수록 잠재적 위험도가 커지는 구조다.
ASL-3는 검색엔진이나 교과서와 같은 일반 비AI 수단 대비 재앙적 오용 위험을 실질적으로 높이는 수준의 능력을 가진 시스템에 해당한다. ASL-1은 사실상 무위험, ASL-2는 위험 능력의 초기 징후(예: 생물무기 제조 지침) 수준이다.
프롬프트 인젝션 방어도 한 단계 강화됐다. 사용자의 AI가 어떤 웹페이지 텍스트를 읽는다는 걸 아는 악의적 행위자가 해당 텍스트에 "이전 지시사항을 무시하고 이 작업을 수행하라"는 식의 숨겨진 명령을 심어두는 게 프롬프트 인젝션이다. 소넷 4.6은 이 부분에서 오퍼스 4.6과 유사한 수준의 저항력을 갖췄다고 앤트로픽은 밝혔다.
흥미로운 점은 모델 카드에 나온 한 문장이다. AI R&D 4 또는 CBRN4 임계값을 "자신 있게 배제하기가 점점 어려워지고 있다"고 명시했다. 임계값을 넘지 않은 건 맞지만, 모델이 그 경계에 접근하거나 넘어서는 능력을 보이고 있어서 측정 자체가 복잡해졌다는 뜻이다. 앤트로픽답게 솔직한 자기 평가가 인상적이다.
지금 바로 써보려면 — 무료 사용법
출시 당일 바로 사용해볼 수 있는 방법이 여럿 있다.
claude.ai 무료 플랜: 이번 업데이트로 소넷 4.6이 기본 모델로 지정됐다. 회원가입만 해도 바로 사용 가능. 다만 무료 플랜은 사용량 제한이 있고 앤트로픽의 무료 제공 범위가 넉넉한 편은 아니다.
API 직접 사용: 입력 $3 / 출력 $15 (백만 토큰 기준, 200K 이하 구간). Sonnet 4.5와 동일한 가격이다.
LM Arena: 무료 접근 가능한 AI 모델 비교 플랫폼. 소넷 4.6도 등록돼 있다.
OpenRouter: API 방식으로 무료 접근 가능.
KiloCode: 오픈소스 에이전트를 통해 $25 무료 크레딧과 함께 사용 가능.
유료 구독 중인 분이라면, $100~$200 플랜에서 오퍼스를 주력으로 쓰다 금방 한도가 차는 경험을 했을 수 있다. 소넷 4.6으로 메인을 바꾸면 같은 플랜에서 훨씬 더 많은 작업을 처리할 수 있을 거다.
AI 커뮤니티 반응을 보면 "소넷 4.6이 소넷이 아니라 사실상 Sonnet 5 또는 Opus 5 훈련 과정에서 나온 게 아니냐"는 추측도 돌고 있다. 소넷과 오퍼스의 경계가 이렇게 빠르게 좁혀지는 속도를 보면 근거 없는 추측만은 아닌 것 같다. 어쨌든, 오늘 기준으로 에이전틱 작업에서 오퍼스 4.6과 사실상 같은 성능을 내는 모델이 1/5 가격에 나왔다는 사실은 변하지 않는다.
'정보 > AI' 카테고리의 다른 글
| 구글 제미나이 3.1 출시! 달라진 점 핵심만 정리 (0) | 2026.02.20 |
|---|---|
| 클로드 오퍼스 vs 코덱스, 현실 비교 (실사용 후기) (0) | 2026.02.19 |
| 바이브코딩 시작하는 법 완벽 가이드 (Claude Code 활용) (0) | 2026.02.16 |
| 아마존 감원 50%, 한국 직장도 위험하다 - AI 일자리 대체 현실화 (0) | 2026.02.16 |
| Gemini 3 Deep Think 완벽 가이드 (GPT-5와 성능 비교) (0) | 2026.02.15 |