모델 지능 너머, 에이전트 하네스와 그 인프라에 답이 있다

어제 흥미로운 블로그 글을 봤는데, AI 에이전트 하네스를 샌드박스 밖에 두는 아키텍처 얘기가 나오더라. 보통 에이전트 루프, 즉 프롬프트 던지고, 모델 응답 받아서 도구 실행하고, 결과를 다시 피드백하는 일련의 과정 전체를 샌드박스 안에서 돌린다고 생각하기 쉽잖아? 그런데 이 글에서는 멀티유저 환경이라면 하네스를 샌드박스 외부에 두는 게 여러모로 훨씬 유리하다고 강조해.

에이전트 하네스, 샌드박스 밖에 두니 보이는 것들

하네스를 샌드박스 안에서 돌리면 단순하고 익숙한 방식이긴 해. 하지만 샌드박스 밖에 두면 완전히 다른 그림이 펼쳐져. 가장 큰 차이는 보안이야. LLM API 키나 사용자 토큰, DB 접근 권한 같은 민감한 크리덴셜을 샌드박스에 아예 넣지 않을 수 있어. 에이전트가 작업을 위해 필요한 최소한의 환경만 샌드박스에 제공하는 식이지. 탈출 공격 같은 보안 위협에서 훨씬 자유로워지는 거야.

그리고 비용 효율성도 무시할 수 없어. 에이전트가 계속 샌드박스를 쓰는 게 아니잖아? 생각하고, API 부르고, 요약하고, 기다리는 시간에는 샌드박스가 필요 없어. 하네스가 외부에 있으면, 에이전트가 실제로 명령을 실행할 때만 샌드박스를 띄우고, 놀 때는 중단할 수 있어. 이건 리소스 관리 측면에서 엄청난 이득이야. 샌드박스가 죽어도 세션이 날아가지 않고 새 샌드박스를 프로비저닝해서 작업을 이어나갈 수 있다는 점도 운영 안정성에 크게 기여해.

모델 지능보다 ‘작업당 비용’과 하네스 효율성

다른 기사에서는 이런 하네스의 중요성을 "하네스가 곧 제품"이라고까지 표현하더라. 요즘 GPT, 클로드, 딥시크 등 새 AI 모델들이 쏟아지는데, 단순히 누가 더 똑똑한가 하는 모델 점수가 전부는 아니라는 얘기야. 중요한 건 특정 작업을 끝내는 데 드는 '토큰 경제성'과 사용자가 실제로 일을 맡기는 도구, 즉 하네스라는 거야.

GPT-5.5가 인텔리전스 인덱스에서 60점으로 1위를 기록했지만, 같은 작업을 할 때 오퍼스 4.7보다 훨씬 적은 토큰(GPT-5.5는 6,800만 토큰, 오퍼스는 1억 9천만 토큰)을 쓴다고 해. 토큰 단가만 보면 GPT-5.5가 더 비싸 보이지만, 실제 '작업당 총비용'은 더 낮을 수 있다는 거지. 한 번의 요청으로 끝나는 모델과 세 번 되물어야 하는 모델의 비용은 같지 않아. 사람 검수 시간, 실패 복구 시간까지 따지면 비싼 모델이 더 쌀 수도 있다는 건 실무에서 정말 중요한 인사이트야. 코딩 에이전트라면 코드 수정 과정에서 불필요한 도구 호출을 줄이는 하네스 효율성이 곧 비용 경쟁력이 되는 거지. 앤트로픽의 클로드 코드나 오픈AI의 코덱스가 개발자들의 실제 업무 도구로 자리 잡는 이유도 여기에 있어.

보이지 않는 ‘톨게이트’, 컴퓨팅 파워

모델 경쟁 뒤에는 보이지 않는 진짜 전쟁이 벌어지고 있어. 바로 컴퓨팅 파워 전쟁이야. 모델은 1~2년마다 바뀌지만, 데이터센터, 칩, 전력 같은 인프라는 훨씬 오래간다는 거야. 현재 앤트로픽이 자체 확보한 전력이 1GW 근처로 추정되는데, 오픈AI는 8GW 수준이라고 하더라. 오픈AI가 2030년까지 30GW 로드맵을 내세운 것도 단순히 모델을 더 잘 만들겠다는 선언이 아니라, AI를 전 세계에 매일 팔 수 있는 '공장'을 짓겠다는 의미라는 분석이 나왔어.

좋은 모델도 컴퓨팅 자원이 부족하면 고객에게 충분히 공급할 수 없고, 결국 시장 점유율이 막힌다는 거야. AI 추론 비용은 사용자 수에 비례해서 늘어나기 때문에, 모델 회사의 손익계산서가 점점 제조업에 가까워진다는 비유가 와닿았어. GPU, 전력, 네트워크 중 하나라도 막히면 AI 클러스터 전체 성능이 떨어지는 병목 현상이 생기는 거지. 모델 그 자체보다 모델을 돌릴 수 있는 인프라, 즉 '톨게이트'의 중요성이 갈수록 커지고 있다는 점을 기억해야 해.

AI 과금, 인건비를 닮아가는 이유

이런 흐름 속에서 AI 서비스의 과금 방식도 변화하고 있어. 사용량 기반 과금이 논리적이지만, 사람들은 택시 미터기처럼 실시간으로 올라가는 비용에 심리적 장벽을 느낀대. 'flat-rate bias'라고 하던데, 오히려 월정액이나 고정 비용을 더 편하게 느끼는 경향이 있다는 거지. AI를 많이 쓸수록 가치가 커지는 제품인데, 사용량 과금은 바로 그 순간 브레이크를 걸 수 있다는 거야.

흥미로운 건 AI를 변호사나 컨설턴트처럼 '일을 맡기는 존재'로 인식하기 시작하면서 과금 방식도 '인건비화'될 수 있다는 점이야. 시간당 과금이 일반적인 전문직도 고객 위축을 막기 위해 월정액(retainer)이나 고정비 구조를 만들잖아? AI도 비슷하게 흘러갈 수 있다는 거지. 단순한 소프트웨어 사용량을 넘어, AI의 역할과 능력에 따라 월급처럼 고정 비용을 지불하는 형태가 늘어날 수 있다는 관점은 AI 서비스를 기획하는 데 중요한 시사점을 줘.

결국 AI의 본질은 가장 똑똑한 모델 하나에 있는 것이 아니라, 이 모델을 효율적으로 구동하고(하네스), 안정적으로 공급하며(인프라), 사람들이 부담 없이 활용하게 만드는(과금) 시스템 전체에 있는 것 같아. 우리는 앞으로 AI를 어떤 방식으로 소비하고, 또 어떤 방식으로 공급하게 될까?

참고

The agent harness belongs outside the sandbox
모델은 바뀌지만 ‘이것’은 오래간다… AI 전쟁 승자의 법칙 (by 김도현)
AI 과금: 사용량은 심리적 장벽, '인건비화'로 진화 (by 이경훈 (Kyunghun Lee))