모델만 보다가 놓치는 AI 승부처

이거 봤어? OpenRouter라는 회사가 AI 요청 라우팅 사업만으로 13억 달러 가치를 인정받았대. 모델을 직접 만드는 것도 아니고, 그냥 AI 요청을 적절한 모델로 보내주는 역할인데 말이야. 6개월 만에 주간 처리량이 5조 토큰에서 25조 토큰으로 5배나 뛰었어.

여기서 중요한 인사이트가 나와. AI 시장의 돈은 모델 개발이나 학습 같은 '지능 공급'이 아니라, 실제 사용자의 요청이 처리되는 '실행' 단계에서 움직인다는 거야. 요청 한 번 들어오면 비용, 응답 시간, 데이터 정책, 결과 품질이 다 달라지잖아? OpenRouter는 바로 이 실행의 순간에 서 있는 셈이지.

왜 이렇게 '실행'이 중요해졌냐면, 이제 하나의 최고 모델이 모든 요청을 다 처리하는 시대가 아니거든. 공개 FAQ는 빠르고 싼 모델, VIP 고객 문의는 더 강력한 추론 모델, 일본어 긴 문맥은 특정 모델처럼, 요청의 성격에 따라 필요한 모델이 다 달라. 그래서 멀티 모델 활용이 필수가 됐고, 이때 어떤 모델을 쓸지, 어떤 프로바이더로 보낼지, 가격은 얼마고 속도는 어떻고, 장애 나면 어떻게 할지 등 고려할 게 너무 많아져. 직접 API 붙이는 건 시작일 뿐, 시간이 지나면 모델 시장의 온갖 예외를 운영하는 셈이 돼 버리는 거지.

이런 복잡성을 한 단계 더 키우는 게 바로 에이전트야. 일반 챗은 한 번 묻고 한 번 답하지만, 에이전트는 파일을 읽고, 도구를 부르고, 결과를 다시 컨텍스트에 넣고, 계획을 고치고, 실패하면 재시도하는 식이야. 사용자 요청 한 번에 수십, 수백 번의 모델 호출이 일어날 수도 있거든. 같은 작업인데도 토큰 사용량이 30배까지 차이 나는 경우도 있다고 하니, 이건 단순히 싼 모델 찾는 걸 넘어선 문제야.

이런 상황에서 Anthropic의 Claude Code 'Dynamic Workflows' 기능이 진짜 흥미로운 방향을 제시했어. 클로드가 자연어 요청을 받으면 이걸 처리할 JavaScript 스크립트를 직접 짜는 거야. 그리고 그 스크립트가 백그라운드에서 돌면서 최대 1,000개에 달하는 서브 에이전트를 조율하는 방식이지.

핵심은 "계획이 코드로 이동했다"는 거야. 예전에는 클로드가 매 턴마다 "다음에 뭘 시킬까"를 직접 판단해서 중간 결과가 전부 컨텍스트로 돌아왔거든. 그런데 이젠 루프, 분기, 중간 결과를 전부 스크립트가 들고 있으니, 클로드한테는 최종 답만 돌아오는 거야. 덕분에 토큰 사용량이 확 줄고, 자바스크립트 코드니 재현성도 높아지고, 중간에 멈춰도 이어서 재개할 수 있게 됐어. 게다가 여러 서브 에이전트가 서로의 주장을 반박해서 검증하는 'adversarial 검증'까지 한다니, 신뢰도도 엄청나게 올라가는 거지.

그러니까, 모델이 지능을 공급한다면, 이 라우터나 Dynamic Workflows 같은 도구들은 그 지능이 쓰이는 방식을 '운영'하고 '최적화'하는 거야. 단순히 AI 모델을 호출하는 것을 넘어, 어떤 상황에서 어떤 모델을, 어떤 전략으로, 어떤 순서로 불러낼지 코드로 정의하고 실행하는 '지능형 워크플로우'가 곧 핵심 경쟁력이 되는 거지.

물론, 아무리 워크플로우를 잘 짜도 기본적인 성능이 중요하지. 얼마 전 어떤 개발자가 200파운드에 데이터센터용 V100 GPU를 사서 자기 게이밍 PC에 박았다는 기사도 있었잖아. 32GB VRAM으로 270억 파라미터 모델을 초당 32토큰으로 돌리는 인상적인 작업이었어. 이걸 보면서 저렴하게 고성능 로컬 LLM 환경을 구축할 수 있겠다고 생각했어.

그런데 그 글 댓글에 이런 내용이 있더라. "인상적인 작업입니다. 하지만 문제는 에이전트 코딩과 채팅에 적합한 초당 30토큰이 아닙니다. 문제는 프리필입니다. 느린 프리필은 에이전트 워크로드를 완전히 망가뜨립니다." 모델이 아무리 대단해도, 그리고 라우팅이나 워크플로우 계획이 아무리 정교해도, 결국 실행 단계의 성능, 특히 에이전트처럼 반복적인 작업을 할 때는 '프리필' 같은 초기 반응 속도가 전체 경험을 좌우한다는 지적이야.

결국 AI 시대의 승부는 '어떤 모델'을 가졌느냐를 넘어, '어떤 모델들을 어떻게 엮어서 어떤 워크플로우로, 어떤 실행 환경에서 운영할 것인가'에 달렸다고 생각해. 우리 팀은 지금 AI를 얼마나 '실행 지능적'으로 쓰고 있을까?

참고

이경훈. (2026, May 31). AI 성공의 열쇠: 모델 아닌 '최적 라우팅'. LinkedIn.
정상록. (2026, May 29). 클로드 동적 워크플로우: 코드로 짠 계획, 1000개 에이전트 지휘. LinkedIn.
Molnar, O. (2026, May 30). I put a datacenter GPU in my gaming PC. Tymscar.com.