AI 코딩 에이전트가 단 3시간 만에 플래시 어텐션 텍스트 생성 속도를 x86에서 15%, ARM에서 5% 높이는 최적화 5가지를 찾아냈다는 소식, 정말 흥미롭다. 단순히 코드를 뒤적이는 것이 아니라, 코드를 짜기 전에 관련 논문이나 경쟁 프로젝트를 '읽는' 단계를 추가한 결과였다. 이는 에이전트의 능력에 대한 우리의 관점을 다시 한번 흔드는 사례다.
코드 너머의 지식: 에이전트의 새로운 문제 해결 방식
기존의 AI 코딩 에이전트는 주로 주어진 코드 베이스 내에서 맥락을 파악하고 아이디어를 도출하는 방식이었다. 카르파티의 autoresearch나 Shopify의 Liquid 엔진 최적화 사례처럼, 코드 자체에 개선의 실마리가 있을 때는 이 방식이 놀라운 성과를 보였다. 예를 들어 Liquid 에이전트는 StringScanner가 병목임을 코드에서 파악하고 93개의 커밋으로 파싱 및 렌더링 시간을 53% 단축했다.
하지만 모든 문제가 코드 내에서 답을 찾을 수 있는 것은 아니다. "왜 느린지", 또는 "이 코드베이스 외부에는 어떤 대안이 존재하는지"와 같은 질문에 답하려면 외부 지식이 필요하다. 이번 연구에서 skypilot.co 팀은 에이전트에 문헌 조사 단계를 추가했다. 그 결과 에이전트는 CUDA/Metal 백엔드에는 있지만 CPU에는 없는 연산자 퓨전과 같은 최적화 기법을 찾아냈다. 특히 ik_llama.cpp나 CUDA 백엔드 같은 경쟁 프로젝트를 분석하는 것이 arXiv 논문 검색보다 더 생산적이었다는 점도 시사하는 바가 크다. 코드-온리 에이전트가 놓쳤던 부분을 외부 지식이 보완하며, 고작 29달러의 비용으로 유의미한 성과를 냈다.
이것은 우리가 AI 에이전트를 바라보는 관점을 확장해야 함을 말한다. 이제 에이전트는 단순히 코드 조각을 생성하는 도구를 넘어, 특정 문제 영역에 대한 '연구원' 역할까지 수행할 수 있다. 우리가 어떤 기술적 문제에 직면했을 때, 개발자 스스로가 논문을 찾아보고 경쟁 솔루션을 분석하는 과정을 에이전트가 선행할 수 있다는 이야기다.
당장 취할 수 있는 행동: 자신의 개발 워크플로우에 AI 에이전트를 도입하고 있다면, 초기 프롬프트에 문제 해결에 필요한 '배경 지식 탐색' 단계를 명시적으로 포함해보는 것이 좋다. 예를 들어 "이 최적화 문제에 대한 최신 연구 논문을 찾아보고, 관련 오픈소스 프로젝트의 구현 방식도 함께 고려하여 개선 방안을 제안해달라"는 식으로 지시하는 것이다. 이는 에이전트가 단순한 코드 조각이 아닌, 심도 있는 솔루션을 제시하는 데 도움이 될 것이다.
똑똑한 에이전트를 생산 환경에 올리는 방법
이렇게 똑똑해진 에이전트를 실제 서비스에 적용하는 것은 또 다른 난관이었다. 에이전트 자체를 만드는 것은 쉬워졌지만, 이를 프로덕션 환경에 안정적으로 배포하고 관리하는 것은 여전히 많은 노력을 요구했다. 보안 샌드박싱, 인증, 장시간 세션 관리, 권한 제어 같은 인프라 요소들은 개발팀이 직접 구축해야 했고, 이는 몇 주가 걸릴 작업에 월 수십만 원의 서버 비용을 발생시켰다.
Anthropic이 최근 출시한 Claude Managed Agents는 바로 이 문제를 해결했다. 에이전트를 '빌드'하는 것을 넘어 '배포'하는 API를 제공하며, 이러한 프로덕션 인프라를 Anthropic이 통째로 관리해준다. 보안 샌드박싱, 자격 증명 관리, 실행 트레이싱 등이 자동으로 처리되어 개발자는 에이전트의 로직에만 집중할 수 있게 된 것이다. 10분짜리 코딩 에이전트 세션에 몇 센트 수준의 비용이 든다는 점은, 인프라 직접 구축 시의 비용과 비교하면 충격적인 수준이다. Notion, Rakuten, Sentry 같은 기업들이 이미 Managed Agents를 활용해 다양한 전문 에이전트를 신속하게 배포하고 있다는 사례는 이러한 변화의 속도를 체감하게 한다.
이것은 에이전트 기반 서비스 개발의 진입 장벽을 근본적으로 낮추는 변화다. 이제 아이디어만 있다면, 복잡한 인프라 걱정 없이 훨씬 빠르게 프로덕션 에이전트를 시장에 내놓을 수 있는 시대가 온 것이다.
당장 취할 수 있는 행동: 만약 에이전트 기반의 서비스를 기획 중이거나 MVP를 개발하고 있다면, 복잡한 인프라 구축 대신 Anthropic Managed Agents와 같은 플랫폼을 적극적으로 검토해볼 수 있다. `brew install anthropic-cli` 명령으로 바로 시작하여 `curl` 한 번으로 에이전트를 생성하는 등, 개발 속도를 극대화할 수 있다.
클라우드 에이전트 시스템 설계의 새로운 표준
Managed Agents의 핵심은 단순히 API의 편리함에 있지 않다. Anthropic은 세션(이벤트 로그), 하네스(오케스트레이션 루프), 샌드박스(실행 환경)를 독립적인 인터페이스로 분리하는 모범적인 설계 원칙을 제시했다. 에이전트를 하나의 컨테이너에 몰아넣었을 때 발생하는 문제들, 가령 컨테이너가 죽으면 모든 것이 날아가고 장애 원인 식별이 어려웠던 점, 그리고 모델이 똑똑해질수록 하네스에 박아둔 가정이 빠르게 '썩는' 현상 등을 이 설계로 해결했다.
특히 컨텍스트 윈도우 관리에 대한 접근 방식이 인상적이다. 보통은 오래된 토큰을 잘라내거나 요약하는 방식으로 관리하지만, Managed Agents는 세션 로그를 컨텍스트 윈도우 바깥에 별도로 저장한다. `getEvents()` 인터페이스로 원하는 구간을 잘라서 가져올 수 있게 함으로써, 비가역적인 정보 손실 없이 언제든 맥락을 복구하고 활용할 수 있게 했다. 이 덕분에 p50 TTFT(Time To First Token)가 약 60% 감소하는 등 성능 개선 효과도 크다.
이러한 'brain/hands/session' 분리 원칙은 마치 운영체제가 50년 전에 프로세스와 메모리를 분리하여 시스템 안정성을 확보했던 방식과 닮아있다. 모델의 지능이 폭발적으로 성장하는 시대에, 모델이 똑똑해질수록 하네스에 박아둔 가정이 빠르게 썩는다는 통찰은 개발자들이 에이전트 시스템을 설계할 때 반드시 고려해야 할 부분이다. 모델은 교체 가능하므로, 인터페이스 설계가 시스템의 수명을 결정한다는 점을 명심해야 한다.
당장 취할 수 있는 행동: 현재 에이전트 시스템을 직접 구축하고 있는 팀이라면, Anthropic이 제시한 세션, 하네스, 샌드박스 분리 아키텍처를 면밀히 검토하고 팀의 시스템에 적용할 방법을 모색해야 한다. 자신의 하네스 코드를 열어보고 "이건 모델이 못 해서 넣은 코드"를 찾아내는 작업부터 시작하여, 그 가정이 틀려도 시스템이 깨지지 않도록 인터페이스 뒤로 숨기는 설계를 고민하는 것이 중요하다.
인텔리전스와 인프라의 융합
결국 오늘의 인사이트는 두 갈래로 수렴한다. 첫째, AI 에이전트는 단순히 명령을 수행하는 것을 넘어, 외부 지식과 연구를 통해 스스로 문제의 본질을 파악하고 최적의 솔루션을 찾아내는 '지능'을 갖추게 되었다. 둘째, 이러한 지능을 안전하고 효율적이며 확장 가능하게 생산 환경에 배포하기 위한 '견고한 인프라'가 빠르게 표준화되고 있다.
이 두 가지 변화는 AI 에이전트가 실험실의 영역을 넘어 실제 비즈니스 가치를 창출하는 핵심 도구로 자리매김할 기반을 다지고 있음을 보여준다. 우리가 이제 고민해야 할 것은, 에이전트의 개별 능력을 높이는 것을 넘어, 이들을 어떻게 하나의 유기적인 '시스템'으로 엮어 더 큰 문제를 해결하게 만들 것인가 하는 점이다. 이는 우리가 현재의 AI를 바라보고 설계하는 방식에 근본적인 질문을 던진다.
참고
- Research-Driven Agents: When an agent reads before it codes, skypilot.co
- Anthropic이 프로덕션 에이전트 배포의 게임을 바꿨습니다. 샌드박싱, 인증, 세션 관리, 권한 제어. 전부 직접 구축하던 거예요. 이제 API 한 줄이면 끝납니다. 1/ Cl... by 정상록 (Sangrok Jung)
- Anthropic, 클라우드 에이전트 시스템 설계 표준 by 이정민 (Jeongmin Lee)