
클로드코드 에이전트 7명이 리서치부터 영상 렌더링까지 자동으로 처리하는 파이프라인이 있습니다. 영상 한 편에 평균 9시간 걸리던 작업이 30분으로 줄었고, 같은 시간에 영상을 18편 만들 수 있게 됐습니다. 비결은 코딩 실력이 아니라 '하네스(Harness)' 세팅에 있습니다.
영상 하나에 9시간? 이 구조가 해답입니다
크리에이터의 현실: 시간이 없다
유튜브를 꾸준히 운영해본 사람이라면 알 겁니다. 주제 정하는 것부터가 시작이 아닙니다. 리서치하고, 대본 쓰고, 화면 만들고, 자막 작업하고, 편집까지 마치면 어느새 12시간이 사라져 있습니다. 주 3회 업로드는 숫자로는 가능해 보이지만, 실제로 해보면 물리적으로 버거운 일이죠.
12년간 기획 업무를 해온 한 크리에이터도 같은 벽에 부딪혔습니다. 코드를 한 줄도 모르는 기획자지만, 생각한 방식은 달랐습니다. "이 과정을 도와주는 팀이 있으면 어떨까. 기획서를 넘기고 결과를 받는 거죠. 예전에 외주를 줄 때와 같은 구조입니다. 다만 외주 업체가 AI라는 거죠. 그리고 응답이 며칠이 아니라 30초라는 것, 그 차이입니다." 이 발상에서 나온 것이 바로 클로드코드 기반 7에이전트 영상 제작 자동화 파이프라인입니다.
30분으로 줄인 실제 구조 공개
전체 구조는 단순합니다. 클로드코드에서 /create-video 명령어를 입력하면, 디렉터 역할을 하는 오케스트레이터가 실행되면서 7명의 AI 에이전트를 순서대로 호출합니다. 각 에이전트는 독립적으로 일하고, 입력을 받아 결과를 출력한 뒤 다음 에이전트에게 바턴을 넘깁니다.
완전 자동은 아닙니다. 대본, 보이스, 씬 디자인, 최종 품질 검수 네 곳에 승인 게이트가 있어서, 사람이 결과를 확인하고 통과 또는 수정을 결정합니다. 이건 실수가 아니라 의도적인 설계입니다. 그 이유는 뒤에서 따로 다루겠습니다.

하네스(Harness)란? 에이전트를 내 의도대로 움직이는 법
"말의 마구"에서 출발한 AI 개념
하네스(Harness)는 원래 말(horse)에 씌우는 마구를 가리키는 말입니다. 강아지 산책 때 몸에 채우는 도구도 하네스라고 부르죠. 강력한 것을 제어하여 원하는 방향으로 이끈다는 개념입니다. 2026년 2월 Ghostty 개발자로 알려진 Mitchell Hashimoto가 AI 에이전트 맥락에서 이 용어를 사용했고, 이후 AI 개발 커뮤니티에서 빠르게 퍼졌습니다.
한 AI 엔지니어링 전문 미디어는 이렇게 정리합니다. "하네스 없이 AI 에이전트는 데모에 불과합니다. 하네스가 있어야 비로소 제품이 됩니다." 아무리 뛰어난 AI 모델도 제대로 된 구조 없이는 원하는 결과를 안정적으로 내지 못한다는 뜻입니다.
Channel.io 기술 블로그도 비슷한 시각으로 설명합니다. "하네스는 AI의 가능성을 억제하는 장치가 아닙니다. 오히려 리스크를 두려워하지 않고 최첨단 기술을 최대한 활용할 수 있는 기반입니다." 에이전트가 엉뚱한 방향으로 달려가지 않도록 제어하는 동시에, 그 힘을 최대한 끌어내는 구조라는 것이죠.
하네스의 5가지 구성 요소
위에서 소개한 크리에이터는 실제로 운영하면서 하네스를 다음 다섯 가지로 정의했습니다.
하네스(Harness)의 5가지 구성 요소
- 역할 정의: 각 에이전트에게 주는 구체적인 임무. "리서치를 해라"가 아니라 "출처가 검증된 정보만 수집하고 소스 파일 형태로 정리해라"처럼 명확하게 씁니다.
- 입출력 형식: 에이전트 간에 어떤 자료를 주고 어떤 결과물을 받을지 약속하는 것. 이 약속이 있어야 에이전트끼리 연결이 됩니다.
- 행동 규칙 목록: 해야 할 것 8가지와 하지 말아야 할 것 11가지. 예를 들어 "근거 없는 위기감 조성 금지"처럼 구체적인 규칙들입니다.
- 승인 게이트: 사람이 개입하는 지점을 명시해두는 것. 어느 단계에서 내가 확인하고 결정할지를 미리 설계합니다.
- 캐릭터 가이드: 채널의 톤, 화법, 표현 방식이 담긴 문서. 대본 에이전트가 이 채널만의 언어로 글을 쓸 수 있도록 하는 핵심 자료입니다.

하네스 없이 에이전트가 실패하는 4가지 패턴
실제로 하네스 없이 AI 에이전트를 장기 실행하면 어떻게 될까요? AI 개발 도구 전문 기업 Firecrawl의 분석에 따르면, 구조 없이 실행한 에이전트가 실패하는 패턴은 반복적으로 나타납니다.
첫째, 한 번에 너무 많이 처리하려다 AI 작업 기억 공간(컨텍스트 윈도우)이 소진되는 경우입니다. 작업 중간에 메모리가 꽉 차버려 처음부터 다시 해야 하는 상황이 생깁니다. 둘째, 검증 없이 성공을 선언하는 패턴입니다. 에이전트가 실제로 제대로 된 결과를 만들었는지 확인하지 않고 "완료"를 보고합니다. 셋째, 시스템 문제가 생겼을 때 중간 진행 상황이 사라지는 문제입니다. 어디까지 했는지 기록이 없으면 처음부터 다시 돌려야 합니다. 넷째, 잘못된 도구를 호출하는 환각(hallucination)입니다. 에이전트가 존재하지 않는 기능을 있다고 판단해 오류가 발생합니다.
이 네 가지를 막는 것이 바로 하네스가 하는 일입니다. "모델은 뇌이고, 하네스는 몸과 환경이다"라는 표현이 여기서 나옵니다.
클로드코드 7에이전트 파이프라인 완전 해부
에이전트 자동화의 핵심은 각 에이전트가 자신의 역할을 명확하게 이해하고 독립적으로 실행되는 것입니다. 7개 에이전트 각각이 어떤 일을 하는지 하나씩 살펴보겠습니다. 각 에이전트는 독립적인 작업 공간(컨텍스트 윈도우)에서 실행되고, 결과물을 파일로 남겨 다음 에이전트에게 넘깁니다.

① 리서처: 출처 검증된 정보만 수집
주제를 받으면 유튜브, 뉴스, 블로그, SNS를 병렬로 검색합니다. 핵심 원칙은 하나, 출처가 없는 정보는 사용하지 않습니다. "검증되지 않은 통계를 팩트처럼 말하지 않는다"는 채널의 규칙이 하네스에 그대로 반영돼 있습니다. 출력 형식도 정해져 있습니다. 소스 마크다운 파일 하나를 만들고, 그 안에 핵심 인사이트, 수치 데이터, 인용 가능한 발언, 비유 소재, 시각화 아이디어를 구조화해 담습니다. 다음 에이전트인 스크립라이터가 바로 활용할 수 있는 형태죠.
이 리서치 과정은 보통 2~3분 정도 걸립니다. 예를 들어 클로드코드 설정을 주제로 입력하면, GitHub 스타 24,100개짜리 베스트 프랙티스 리포지토리를 찾아오고 특정 개발자의 직접 발언을 인용 가능한 형태로 정리해 옵니다. 승인 게이트는 없습니다. 리서치 결과는 자동으로 다음 단계로 넘어갑니다.
② 스크립라이터: Opus 모델로 대본 작성
클로드의 가장 강력한 AI 두뇌인 Opus 모델을 사용합니다. 대본의 품질이 영상 전체의 토대가 되기 때문에 가장 좋은 모델을 씁니다. 스크립라이터에게는 세 가지가 주어집니다. 리서처가 만든 소스 파일(근거 자료), 캐릭터 가이드(이 채널만의 톤과 화법), 그리고 목표 영상 길이입니다.
캐릭터 가이드가 특히 중요한데, 여기에는 채널 화자의 정체성이 담겨 있습니다. "12년간 기획을 해온 비개발자가 AI를 만나서 직접 만들기 시작한 사람"처럼 구체적으로 정의되죠. 이 덕분에 대본이 개발자 언어 대신 기획자 언어로 나옵니다. "API"는 "주문 전달 경로"로, "배포"는 "매장 오픈"으로 바뀝니다. 출력은 씬 단위로 나뉜 대본이고, 각 씬에 나레이션 텍스트, 예상 재생 시간, 시각적 지시가 포함됩니다.
여기가 첫 번째 승인 게이트입니다. 대본을 직접 읽고 채널 화법과 일치하는지, 근거 없는 주장이 없는지 확인한 뒤 승인, 수정 요청, 재생성 중 하나를 선택합니다.
③ 서브타이틀 엔지니어: SRT 자막 자동 생성
확정된 대본을 받아 SRT 자막 파일을 만듭니다. SRT 파일은 자막 타이밍 정보가 담긴 파일로, 캡컷 같은 편집 프로그램에서 바로 불러올 수 있는 형식입니다. 타이밍 계산 기준이 정밀하게 설정돼 있습니다. 분당 509자 실측 속도를 기준으로 각 나레이션 블록의 시작 시간과 끝 시간을 계산하고, 한 줄에 최대 50자, 블록 사이에 0.4초 간격, 씬이 바뀔 때 0.8초 간격을 줍니다. 기계적인 변환 작업이라 승인 게이트 없이 자동으로 다음 단계로 넘어갑니다.
④ 보이스 엔지니어: TTS로 목소리 생성
대본 텍스트를 음성으로 바꾸는 역할입니다. 목소리 샘플 하나로 만든 클론 목소리를 TTS(텍스트 음성 변환) 서비스를 통해 생성합니다. 최근 오픈소스 TTS 기술은 10초 분량의 음성 샘플만으로도 자연스러운 목소리 클론을 만들 수 있을 만큼 발전했습니다. 순서는 이렇습니다. 텍스트를 전송하면 생성 ID가 돌아오고, 진행 상황을 확인한 뒤 완료되면 오디오를 다운로드합니다.
씬별 오디오를 합성하고 나면, 실제 오디오 길이를 기준으로 앞서 만든 SRT 자막의 타이밍을 조정합니다. 이론적 계산 대신 실제 재생 길이에 맞게 자막을 맞추는 것이죠. 두 번째 승인 게이트에서 보이스 파일을 직접 들어보고 발음, 억양, 자연스러움을 확인한 뒤 승인합니다. 이 단계는 손이 좀 더 많이 가지만, 세팅은 딱 한 번이면 됩니다.
⑤ 씬 디자이너: Remotion으로 화면 코딩
파이프라인의 핵심입니다. Opus 모델을 사용하며, 영상 편집 방식 자체가 다릅니다. 프리미어나 캡컷처럼 직접 화면을 만지는 것이 아니라, Remotion이라는 프레임워크로 영상을 코드로 만듭니다. 다음 섹션에서 Remotion을 더 자세히 다루겠지만, 핵심은 AI가 코드를 잘 쓰기 때문에 AI와의 시너지가 매우 높다는 점입니다.
씬 디자이너는 대본의 각 씬에 맞는 화면 구성을 React 컴포넌트(화면을 구성하는 코드 단위)로 만들어냅니다. 이때 style.json이라는 파일이 기준이 됩니다. 색상 팔레트, 폰트 크기, 자간, 행간, 여백, 카드 스타일, 애니메이션 방식이 모두 이 파일 하나에 정의돼 있습니다. 비주얼의 규칙서 같은 역할입니다. "이 장면에 레이어 케이크 다이어그램을 넣어줘"라고 씬 대본에 지시하면, 씬 디자이너가 이를 애니메이션이 있는 리액트 컴포넌트로 만들어냅니다.
세 번째 승인 게이트에서 핵심 프레임 미리 보기로 시각적으로 확인하고, 스타일이 일관되게 적용됐는지 검토합니다.
⑥ 렌더러: 10~12분 만에 영상 완성
씬 디자이너가 만든 React 컴포넌트들을 Remotion 프로젝트에 통합하고, 보이스 파일을 연결한 뒤 프레임을 하나씩 렌더링해 영상을 완성합니다. 실제 렌더링 시간은 보통 10~12분입니다.
오디오는 별도로 믹싱돼 최종 영상 파일에 합쳐집니다. 출력 설정도 자유롭게 할 수 있는데, 이 파이프라인에서는 유튜브에 바로 올릴 수 있는 16:9 비율로 설정돼 있습니다. 승인 게이트는 없습니다. 렌더링은 자동으로 완료됩니다.
⑦ QA 리뷰어: 26개 항목 품질 검수
마지막 에이전트도 Opus 모델을 씁니다. 26개 항목으로 구성된 품질 체크리스트가 기준입니다. 포지셔닝(채널의 핵심 주제를 한 문장으로 담고 있는가), 콘텐츠 구조(영상 내에서 결과물이 실제로 보이는가, 영상 하나에 주제가 하나인가), 실제 내용(실적과 경험을 드러내고 있는가, 출처를 밝히는가), 편집과 비주얼(3~5초마다 시각 변화가 있는가, 빈 화면이 없는가) 등을 확인합니다.
26개 중 필수 7개 항목이 있습니다. 이 중 하나라도 통과하지 못하면 바로 수정 절차가 시작됩니다. 별도로 11개 항목의 금지 목록도 있습니다. "근거 없는 위기감 조성", "기술 용어를 설명 없이 그냥 던지기", "개발자 중심 표현" 같은 항목들이 포함돼 있습니다.
QA를 통과하면 최종 완성입니다. 실패하면 어느 단계에서 문제가 생겼는지 식별하고, 그 단계부터 다시 돌립니다. 대본이 문제라면 대본 단계부터, 보이스가 문제라면 보이스 단계부터 재실행됩니다. 이후 단계도 의존 관계에 따라 자동으로 리셋됩니다.
네 번째 승인 게이트입니다. QA 리뷰어의 체크리스트 결과를 보고 최종 승인합니다.
Remotion 프레임워크: 클로드코드가 영상을 코드로 만드는 방법
씬 디자이너 에이전트가 활용하는 Remotion은 React 컴포넌트로 영상을 프로그래밍 방식으로 만드는 오픈소스 프레임워크입니다. 개발자가 아니라면 생소한 도구인데, 이 파이프라인이 왜 가능한지 이해하려면 Remotion의 핵심 개념을 알아야 합니다. Remotion의 핵심 아이디어는 간단합니다. "영상은 시간에 따른 이미지의 연속"입니다. 각 장면의 배경색, 텍스트 크기, 카드 레이아웃, 애니메이션 타이밍이 전부 TypeScript 코드로 정의됩니다.
프리미어나 캡컷이 손으로 직접 만지는 도구라면, Remotion은 레시피(코드)로 영상을 만드는 도구입니다. 비유하자면 요리 영상을 찍을 때, 직접 카메라를 움직이며 찍는 대신 요리 과정(각 재료 추가 시점, 불의 세기, 얼마나 섞을지)을 설명서로 적어두고, AI가 그 설명서에 따라 자동으로 촬영하고 편집하는 것과 같습니다.
AI 에이전트와 잘 맞는 이유가 여기 있습니다. 클로드코드는 코드를 잘 씁니다. 손으로 타임라인을 조작하는 것은 AI가 할 수 없지만, TypeScript 코드를 생성하는 것은 매우 잘 합니다. Anthropic의 공식 문서에 따르면 Claude Code는 Remotion을 위한 Agent Skills을 공식 지원하고 있어, 애니메이션, 컴포지션, 텍스트 효과, 렌더링 관련 모범 사례가 에이전트에 미리 제공됩니다.
비개발자 입장에서 중요한 것은 직접 코드를 작성할 필요가 없다는 점입니다. "이 장면에 이런 다이어그램을 넣어줘"라고 대본에 시각 지시를 담으면, 씬 디자이너 에이전트가 코드를 생성합니다. style.json 파일에 정의된 색상, 폰트, 레이아웃 규칙을 지키면서 애니메이션까지 만들어냅니다. 이 파일이 영상 전체의 비주얼 일관성을 보장하는 기준점 역할을 합니다. Remotion 공식 문서에는 AI 에이전트에 최적화된 기능도 있습니다. 문서 URL 끝에 .md를 붙이면 마크다운 버전으로 접근할 수 있어, 클로드코드 에이전트가 직접 문서를 읽고 활용할 수 있습니다.
4개의 승인 게이트, 완전 자동이 아닌 이유
인간 개입 지점을 설계하는 이유
"완전 자동은 다음 과제입니다." 이 파이프라인을 만든 크리에이터의 직접적인 말입니다. 4개의 승인 게이트는 기술적 한계 때문이 아니라, 의도적으로 설계한 것입니다.
AI 에이전트 워크플로우에는 인간 개입의 단계가 있습니다. AI가 초안을 만들고 인간이 결정하는 보조(Assist), AI가 행동을 준비하고 인간이 승인하는 공동 운전(Co-pilot), AI가 자동 실행하고 불확실한 경우만 에스컬레이션하는 자율 주행(Autopilot) 단계입니다. 이 파이프라인은 현재 공동 운전 단계에 있습니다.
글로벌 기업들도 비슷한 접근 방식을 취합니다. 결제 플랫폼 Stripe의 "Minions" 시스템은 주당 약 1,300개의 AI 생성 코드 변경을 처리하는데, 이 대규모 자동화에도 인간 리뷰가 포함돼 있습니다. 고위험 작업은 100% 승인, 저위험 작업은 5~20% 샘플 승인 방식으로 운영합니다.
각 게이트에서 확인해야 할 것
| 게이트 | 에이전트 | 확인 사항 |
|---|---|---|
| 1번 | 스크립라이터 | 채널 화법과 일치하는가, 근거 없는 주장이 없는가 |
| 2번 | 보이스 엔지니어 | 발음, 억양, 자연스러움이 적절한가 |
| 3번 | 씬 디자이너 | 핵심 프레임 시각적 완성도, 스타일 일관성 |
| 4번 | QA 리뷰어 | 26개 체크리스트 결과 확인, 필수 7개 통과 여부 |
이 구조에서 사람이 하는 일은 "주제를 정하고, 중간중간 이거 괜찮네 하고 승인해주는 것"입니다. 나머지는 에이전트가 합니다.
하네스 구축, 처음에만 어렵습니다
초기 세팅에 며칠 투자하는 이유
솔직하게 말하면, 처음 하네스를 만드는 건 시간이 걸립니다. 대본 에이전트가 채널 화법을 정확히 이해하도록 캐릭터 가이드를 다듬는 데만 며칠이 걸렸습니다. 보이스 에이전트의 발음 변환 테이블을 만들고, QA 체크리스트를 확정하고, 씬이 동일한 스타일을 따르도록 style.json을 정교화하는 과정도 마찬가지입니다.
하지만 이 투자는 딱 한 번입니다. 하네스가 완성되고 나면 매번 30분이면 됩니다. "처음 세팅에 공을 드릴수록 이후 반복 실행은 점점 빨라지는 구조"라는 말이 여기서 나옵니다. 초기 투자 대비 장기 효율은 데이터로도 뒷받침됩니다. 에이전트 AI 도입 기업의 평균 ROI가 171%에 달한다는 조사 결과가 있고(AI 생산성 리서치 기관 OneReach 분석), 한 글로벌 컨설팅 업체는 "생성형 AI로 개발자 생산성이 30% 향상됐는데, 에이전틱 AI 도입 후 200%까지 향상됐다"고 보고했습니다.
영상 제작 외 업무에도 적용하는 방법
이 구조는 영상 제작에만 쓰이는 게 아닙니다. 어떤 업무든 단계가 있고, 각 단계에 전문 에이전트를 배치할 수 있습니다.
마케터라면 콘텐츠 기획에서 배포까지, 운영팀이라면 데이터 수집에서 주간 리포트까지, 인사 담당자라면 채용 공고 작성에서 후보자 검토까지 적용할 수 있습니다. 직업이 달라도 구조는 같습니다. 브리프를 쓰고, 에이전트에게 넘기고, 결과를 확인하고, 승인합니다.

Claude Code 공식 문서에 따르면, 에이전트 팀(Agent Teams)은 리서치와 리뷰, 새로운 기능 개발, 경쟁 가설 디버깅, 교차 레이어 조율 같은 작업에 특히 효과적입니다. 권장 팀 규모는 3~5명이고, 에이전트당 5~6개 태스크가 생산성 최적화에 이상적입니다. 에이전트가 많다고 무조건 좋은 것이 아니라, 토큰 비용과 병렬화 이득의 균형을 잡는 설계가 중요합니다.
"AI 시대에 빠른 사람은 코드를 잘 치는 사람이 아닙니다. 자기 일의 구조를 잘 짜는 사람입니다." 이 말이 이 파이프라인 전체의 핵심을 담고 있습니다.
클로드코드 에이전트 자동화, 지금 시작하기 좋은 이유
세 가지를 정리하면 이렇습니다. 하네스는 AI 에이전트를 내 의도대로 움직이게 하는 설계 구조입니다. 7에이전트 파이프라인은 분업화된 전문 팀을 AI로 구현한 것이고, 이 전체를 가능하게 하는 핵심 능력은 코딩 실력이 아니라 구조를 설계하는 기획력입니다.
타이밍도 좋습니다. 클로드코드의 검색 트렌드는 2026년 3월 기준 최고점을 기록하고 있고, AI에이전트 키워드도 동시에 최고치입니다. 에이전트 AI 시장은 연평균 46.3% 성장률로 2030년까지 526억 달러 규모가 될 전망이고(시장 리서치 기관 분석), 한국 에이전틱 AI 시장도 2025년 2조 원에서 2030년 61조 원 규모로 성장이 예상됩니다(SK AX 인사이트).
Claude Code 공식 문서의 에이전트 팀 기능은 현재 실험적 기능으로 분류돼 있지만, Stripe 같은 대기업이 이미 프로덕션 수준에서 유사한 구조를 운영 중입니다. 지금은 도구를 익히기에 좋은 시점입니다.
시작점으로 추천하는 순서
- 자신의 업무 흐름을 단계로 나눠보기. 몇 가지 단계로 나눌 수 있는지 확인합니다.
- 각 단계에서 어떤 입력이 들어오고 어떤 결과물이 나가는지 정의하기. 이게 입출력 형식입니다.
- 어느 단계에서 내가 확인하고 싶은지 승인 게이트 위치 결정하기.
- Claude Code에서 서브에이전트 파일을 만들어 각 역할을 정의하고 실행해보기.
처음에는 에이전트 두세 명으로 작은 파이프라인부터 시작하는 것이 현실적입니다. 하네스 세팅에 며칠이 걸리더라도 그 시간이 이후 수백 시간을 돌려줍니다. 이 파이프라인의 영상 편집 시간 94% 단축처럼요.
'AI > Claude' 카테고리의 다른 글
| 클로드코드로 10분 만에 웹사이트 완성 - Variant 조합 완전 가이드 (0) | 2026.03.30 |
|---|---|
| 클로드 디스패치 완벽 가이드 - 폰에서 PC 조종하기 (0) | 2026.03.24 |
| Claude Code Channels 완벽 가이드: 텔레그램·디스코드 연동 설정법 (0) | 2026.03.21 |
| 클로드 코드 CLAUDE.md 완벽 가이드: 3배 더 똑똑하게 (0) | 2026.03.19 |
| 클로드코드 사용법, 10단계로 정리한 초보자 가이드 (0) | 2026.03.19 |