AI 비용 폭탄 막으려면? 똑똑하게 "어떤 AI를 쓸지" 판단해야 하는 시대

야, 이거 봤어? 마이크로소프트조차 Claude 비용 감당하기 어렵다고 하더라. 기사 내용이 진짜 흥미로웠어. AI 토큰 단가는 계속 내려가는데, 기업들이 "AI 비용 압박"을 느낀다는 거야. 이게 단순히 AI가 비싸서가 아니라, AI가 너무 빨리, 그리고 너무 많이 쓰이기 시작했기 때문이래. 특히 AI 에이전트 때문이라는 분석이 와닿았어.

에이전트의 시대: 비용 폭탄, 그리고 라우터의 등장

예전에는 LLM 한 번 호출하면 질문 하나에 답변 하나가 끝이었잖아. 그런데 에이전트는 계획을 세우고, 파일을 읽고, 검색하고, 코드를 고치고, 테스트하고, 실패하면 다시 시도하고... 사용자 입장에서는 "Claude Code 한 번 돌렸다"고 생각해도, 그 뒤에서는 수십 번, 수백 번의 LLM 호출이 일어난대. GitHub Copilot이 사용량 기반 과금으로 바꾼 이유도, 빠른 채팅 질문과 몇 시간짜리 자율 코딩 세션을 같은 가격으로 취급하는 게 지속 가능하지 않다고 봤기 때문이라더라. AI가 에이전트가 되는 순간, 비용은 질문 수가 아니라 '추론량'의 문제가 되는 거지.

그래서 이 기사의 핵심은 이거야. "AI를 덜 쓰는 것"이 아니라, "어떤 요청에 어떤 모델을 쓸지, 어떤 맥락을 넣을지, 어디까지 캐시할지, 언제 강한 모델을 호출할지를 판단하는 라우팅 구조"가 필요하다는 것. 즉, 똑똑한 LLM 라우터가 필수라는 얘기지. 모든 요청을 가장 비싼 모델로 보내는 대신, 간단한 일은 작은 모델로, 규칙 기반 로직이나 캐시로 해결할 수 있는 건 그렇게 처리하고, 정말 어려운 판단에만 강한 모델을 쓴다는 거야. 앞으로 AI를 잘 쓰는 조직은 "가장 좋은 모델을 쓰는 조직"이 아니라 "어떤 문제에 어느 정도의 지능을 써야 하는지 아는 조직"이 될 거라는 말이 딱 맞는 것 같아.

HTML은 새로운 마크다운: AI와 더 깊게 소통하는 법

이런 맥락에서 Anthropic 엔지니어들이 Claude Code 팀에서 HTML을 마크다운 대신 사용한다는 이야기도 재밌었어. AI 에이전트와의 소통이나 계획 수립에 마크다운 대신 HTML을 쓴다는 건데, 이게 더 풍부하고 시각적인 결과를 가져와서 사람들의 참여도를 높이고, 궁극적으로 더 나은 제품을 만든다고 하더라. 인터랙티브한 계획, 임시 UI, 심지어 코드와 함께 움직이는 디자인 시스템까지 구축한대.

"AI가 생성하는 토큰의 99%는 계획, 인터페이스, 커뮤니케이션에 사용되어야 하고, 실제 프로덕션 코드에는 쓰이지 않아야 한다"는 말이 인상 깊었어. AI 에이전트가 복잡한 작업을 수행하려면, 그만큼 사람과 AI 사이의 계획과 소통이 중요하니까, 그걸 HTML로 더 풍부하게 만드는 방식이 토큰 사용량을 늘릴 수밖에 없어. 하지만 그만큼 효율적인 개발과 더 나은 결과물을 얻는 데 도움이 된다는 거지. 결국, 이렇게 늘어나는 복잡한 토큰 사용량을 관리하려면 위에서 말한 LLM 라우터 같은 지능적인 할당 시스템이 필수적이라는 이야기와 연결되는 것 같아.

현장으로 뛰어드는 FDE: AI 구현의 최전선

이 모든 것을 현장에서 직접 구현하는 사람들이 바로 FDE(Forward Deployed Engineer)들이야. 이정민 님 글에서 FDE는 고객사 현장에 직접 들어가 AI를 구현하는 엔지니어라고 설명하는데, 기술과 비즈니스 커뮤니케이션 능력을 모두 요구하는 핵심 직무래. 이들은 고객사의 프로세스를 진단하고(Audit), 에이전트의 가치를 검증하며(Evals), 실제 시스템에 배포하는(Deployment) 세 단계를 수행해.

특히 흥미로웠던 건, FDE가 자동화 대상을 고르는 기준이야. 규칙은 정해져 있지만 이메일, PDF처럼 입력이 다양한 지점에 에이전트를 도입하고, 반대로 규칙과 입력 모두 예측 가능하면 에이전트보다 그냥 코드가 더 빠르고 저렴하다고 해. 그리고 한 달에 몇 번 동작하는 에이전트로는 ROI가 안 나오니까 사용량도 따져야 한다는 거야. "AI를 과도하게 쓰는 것도 경계해야 할 대상"이라는 부분에서 첫 번째 기사의 메시지인 "어떤 문제에 어느 정도의 지능을 써야 하는지 아는 것"과 딱 맞아떨어지는 것 같지 않아? FDE들이 현장에서 AI의 적절한 쓰임을 판단하고, 비즈니스 가치를 극대화하면서도 효율적인 비용 관리를 해야 하는 최전선에 있는 거지.

결국 이 세 기사가 말하는 핵심은 비슷한 방향을 가 보고 있어. AI 에이전트가 우리 업무에 깊숙이 들어올수록, 무작정 최고 성능의 모델을 쓰는 게 아니라, 상황에 맞춰 AI 리소스를 지능적으로 할당하고 관리해야 한다는 거야. 단순히 "좋은 AI"를 넘어, "좋은 AI 사용 전략"이 더 중요해진 시대가 온 것 같지 않아? 우리도 지금 워크플로우에서 AI를 어떻게 배치할지 다시 한번 고민해 봐야 할 시점인 것 같아.

참고

[1] 정구봉 (Goobong Jeong). 2026-05-23. "토큰의 가격은 저렴해지고 있지만, 수요가 훨씬 빠르게 증가합니다. 마이크로소프트조차 Claude의 비용을 감당하기 어렵다고 합니다. 하지만 여기에 가려진 진짜 문제는 거의 모든 상..." LinkedIn. https://www.linkedin.com/feed/update/urn:li:activity:7464080222942994432/
[2] 이정민 (Jeongmin Lee). 2026-05-22. "이 글 하나로 여러분은 FDE(Forward Deployed Engineer) 를 완벽하게 이해하게 됩니다 FDE 가 되고 싶은 혹은 FDE 를 채용하고 싶은 분은 꼭 이 글을 저..." LinkedIn. https://www.linkedin.com/feed/update/urn:li:activity:7463347910122885120/
[3] Claire Vo. 2026-05-18. "HTML is the new Markdown: How Anthropic engineers are building with Claude Code | Thariq Shihipar" Lenny's Newsletter. https://www.lennysnewsletter.com/p/html-is-the-new-markdown-how-anthropic