토큰만 보면 망한다: AI 비용, 태스크 가치로 따져야 하는 이유

야, 이거 봤어? 오늘 아침에 정구봉 님 글이랑 클로드 페이블 5 리뷰 보는데, 흥미로운 공통점이 있더라. 같은 10만 달러로 시장 최고 모델의 50억 토큰을 살 수도 있고, 오픈웨이트 모델의 2,100억 토큰을 살 수도 있대. 토큰 양은 그냥 '사용량'일 뿐이라는 말에 확 와닿더라.

우리가 AI를 쓰면서 은근히 놓치는 게 바로 이 부분인 것 같아. 무조건 최신, 최고 성능 모델이 좋다는 착각. 하지만 현실은 다르다는 거지. AI 비용 최적화는 단순히 토큰을 덜 쓰는 게 아니라, 같은 돈으로 얼마나 많은 태스크를 성공시켰느냐로 봐야 한대.

태스크에 맞는 AI, 비용 효율의 시작

Ramp의 조언처럼, 대부분의 기업이 최신 모델을 무작정 쓰고 추론 깊이나 속도를 기본값으로 두는 경향이 있어. 이게 조용히 돈을 태우는 방식이래. 예를 들어, PR 리뷰나 송장 처리 같은 루틴 업무에 굳이 가장 비싼 프론티어 모델을 쓸 필요가 없다는 거야. 어제의 프론티어 모델도 충분히 좋은데 말이지.

추론 깊이도 마찬가지야. 모델 공급자들은 보통 최고 추론을 기본값으로 두는데, 한 단계 올릴 때마다 토큰이 대략 두 배씩 탑니다. 아주 어려운 문제에서나 차이가 나지, 대부분의 경우엔 이미 맞은 답을 두 번 확인하는 데 돈을 더 내는 셈이래. 기본 추론은 'medium'으로 두고, 정말 필요할 때만 올리는 게 비용도 아끼고 속도도 빨라진다지?

클로드 페이블 5 사례가 이걸 더 확실히 보여줘. 벤치마크에서 GPT-4.5나 제미니 3.1 Pro를 압도하는 엄청난 성능을 보이는데, 이 모델은 "베테랑 엔지니어"처럼 꼼꼼하게 문제를 파고든대. 모든 구석을 조사해서 120% 확실하게 결과를 내려고 하는 거지. 그런데 이게 오히려 독이 될 때가 있대.

'너무 똑똑한' AI가 오히려 독이 된다고?

페이블 5는 문서 형식화나 PDF 파싱 같은 비전 태스크에서는 독보적이야. 아이들 손글씨 학습지 예시를 들던데, 스페이싱, 레이아웃, 여백까지 완벽하게 만들었다고 해. 그런데 반대로 사양(specs)이나 PRD 같은 문서는 거의 읽기 불가능한 수준으로 상세하고 복잡하게 만든대. 너무 디테일에 매몰돼서 숲을 보지 못하게 되는 거지.

디자인 작업은 더 심각해서, 기본적인 디자인 요청에도 회색, 검정, 빨강의 단순한 테두리 같은 끔찍한 결과물을 내놓았다는 거야. 심지어 MVP를 요청해도 너무 보수적이고 좁게 해석해서 실제 가치는 떨어지는 결과를 내놨다고 하더라고.

이게 진짜 핵심인 것 같아. 무작정 '똑똑한' AI가 모든 상황에 최적은 아니라는 거야. 특정 어려운 기술 문제나 비전 태스크처럼 정교함이 필요한 곳에는 페이블 5 같은 모델이 제 값을 할 수 있지만, 프론트엔드 작업, 전략 수립, 디자인 같은 일상적인 제품 작업에는 다른 저렴한 모델이 훨씬 효율적이라는 거지.

프롬프트 넘어 '루프 설계'로, 새로운 지출과 '이해 부채'

단순 프롬프트 입력에서 벗어나 '루프 엔지니어링'이라는 시스템 설계 방식으로 AI를 쓰는 것도 비슷한 맥락이야. 작업을 찾고, 에이전트한테 넘기고, 결과를 검증하고, 기록하고, 다음 수를 정하는 작은 시스템을 만드는 거지. 한 번 설계해두면 시스템이 알아서 에이전트를 프롬프트하는 방식.

여기서도 무작정 자동화만 하는 게 능사는 아니래. 작업이 반복되고, 검증이 자동이고, 토큰 예산이 낭비를 버틸 수 있고, 에이전트가 로깅 같은 시니어 도구를 가질 때만 루프가 이득을 준다는 거야. 특히 '쓰는 에이전트'와 '검증하는 에이전트'를 분리하는 게 중요하다고 해. 자기가 쓴 코드를 자기가 검증하면 늘 A+가 나오듯, 스스로 합리화하기 쉽다는 거지.

더 무서운 건 '이해 부채'라는 개념이야. 루프가 빨라질수록 사람이 직접 안 쓴 코드가 쌓여가는데, 나중에 디버깅할 때 아무도 이해 못 하는 시스템을 마주할 수 있다는 경고야. 토큰 비용이 문제가 아니라, 이런 '이해 부채'가 진짜 비싼 청구서가 될 수 있다는 말이 섬뜩하더라고. 무인으로 도는 루프는 무인으로 열린 공격면이기도 하고.

결국 이 모든 이야기는 AI를 어떻게 하면 '제대로' 쓸까에 대한 고민으로 귀결돼. 개발 워크플로우를 바꾸고 판단 기준을 바꿔야 한다는 거지. 우리가 지금 뭘 하고 있는지, 어떤 가치를 만들어야 하는지 정확히 알아야 최적의 AI 모델과 설정을 선택하고, 새로운 자동화 시스템을 설계할 수 있는 거야. 효율성을 단순한 제약이 아니라, 엔지니어링 성취로 대접하는 문화가 필요하다는 말도 인상적이야.

우리 팀은 지금 AI를 쓰면서 어떤 기준으로 모델과 설정을 고르고 있어? 혹시 무조건 최고 사양, 최신 모델만 쓰고 있지는 않아?

참고

AI 비용 최적화: 현명한 기본 설정이 답 (by 정구봉 (Goobong Jeong)) - https://www.linkedin.com/feed/update/urn:li:activity:7474242182711783424/
🎙️ How I AI: Claude Fable 5 review & How Braintrust uses AI agents, evals, and CI to ship better software (by Lenny Rachitsky) - https://www.lennysnewsletter.com/p/how-i-ai-claude-fable-5-review-and
AI 프롬프트: 직접 입력에서 루프 설계로 (by 정상록 (Sangrok Jung)) - https://www.linkedin.com/feed/update/urn:li:activity:7474048087729074176/