오늘 아침, Kuri라는 새로운 웹 자동화 도구에 대한 이야기를 들었을 때 흥미로웠다. 이 도구가 기존 Node.js 기반 툴보다 훨씬 가벼운 `464 KB binary`와 `16%`나 적은 토큰으로 웹 페이지를 처리한다는 벤치마크 결과는 단순히 새로운 도구의 등장을 넘어 AI 에이전트의 워크플로우를 근본적으로 바꿀 가능성을 보여준다. 이는 AI 에이전트가 웹 정보를 추출하고 복잡한 작업을 수행할 때 발생하는 비용과 속도 문제를 직접적으로 겨냥한다.

Kuri의 등장은 우리에게 중요한 질문을 던진다. AI 에이전트를 활용한 작업에서 '효율성'은 더 이상 선택 사항이 아니라 핵심 경쟁력이라는 점이다. 단 몇 퍼센트의 토큰 절감도 수백, 수천 번의 반복적인 에이전트 루프에서는 엄청난 경제적, 시간적 이득으로 돌아온다. 이는 곧 AI가 얼마나 "많이 반복해서 깊이 있게 던질 수 있는지"의 가능성을 직접적으로 확장한다.

효율성, AI 에이전트의 새로운 황금률

Kuri의 가장 인상적인 부분은 AI 에이전트를 위해 웹 자동화 도구가 '재설계'되었다는 점이다. 대부분의 기존 웹 자동화 도구는 QA 엔지니어링 목적에 맞춰져 있어, AI 에이전트가 필요로 하는 최소한의 정보 추출과 낮은 토큰 비용에는 비효율적이었다. Kuri는 이 간극을 메운다. 특히 `kuri snap --interactive` 모드는 `1,927` 토큰으로, 기존 `agent-browser` 스냅샷의 `4,641` 토큰보다 훨씬 적은 비용으로 페이지 스냅샷을 생성한다. 이는 쓸모 있는 상태 정보를 최소한의 비용으로 얻는 데 집중한 결과다.

이러한 효율성은 단순히 비용 절감만을 의미하지 않는다. 에이전트가 더 많은 작업을 짧은 시간 안에, 적은 비용으로 시도하고 실패하며 학습할 수 있도록 돕는다. 예를 들어, 특정 웹 페이지에서 원하는 데이터를 추출하기 위해 여러 번의 클릭과 스크롤, 평가 과정을 거쳐야 할 때, 각 사이클에서 `16%`의 토큰을 절약한다면 전체 작업에 드는 비용은 기하급수적으로 줄어든다. 이는 복잡한 다단계 작업을 수행하는 AI 에이전트에게 필수적인 요소다.

오늘 당장 취할 수 있는 구체적 행동이 있다. 만약 AI 에이전트를 활용한 웹 자동화 작업을 계획하거나 이미 수행 중이라면, 기존 도구들의 토큰 사용량과 바이너리 크기, 콜드 스타트 시간 같은 지표를 다시 한번 평가해보는 것이 좋다. Kuri와 같이 AI 에이전트의 효율성에 특화된 새로운 도구들이 어떤 방식으로 전체 워크플로우의 경제성과 속도를 개선할 수 있는지 직접 비교해보는 시도가 필요하다. 토큰 비용 벤치마크 스크립트인 `./bench/token_benchmark.sh`를 실행해보며 Kuri의 효율성을 직접 검증하는 것도 좋은 시작이다.

'AI 슬롭'을 넘어선 디자인 품질: 명시적 설계의 힘

효율성이 AI 에이전트의 실행 측면에서 중요했다면, AI의 '출력 품질' 측면에서는 또 다른 중요한 통찰이 있다. GPT가 만들어내는 획일적이고 미감 부족한 결과물, 이른바 'AI 슬롭' 문제다. "세 번 시켰는데 세 번 다 같았습니다. 좁은 컨테이너에 6줄짜리 제목. 빈 칸이 뻥 뚫린 그리드"라는 경험담은 많은 이들이 공감할 것이다. GPT-5.4 프론트엔드 가이드에서 OpenAI조차 "프롬프트가 불충분하면 모델은 학습 데이터의 고빈도 패턴으로 돌아간다"고 인정한 부분이다.

`gpt-taste`라는 전용 스킬은 이 문제를 해결하기 위해 등장했다. 핵심은 모호한 지시 대신 '명시적인 선택'과 '사전 검증'을 도입했다는 점이다. `gpt-taste`는 "적당히 다양하게" 대신 "이 중에서 이것을 골라라"와 같이 결정론적인 지시를 사용한다. 또한, 코드 생성 전에 `design_plan`이라는 사전 검증 단계를 거쳐 그리드의 빈 칸이나 버튼 대비 오류 같은 문제를 걸러낸다. 이는 AI가 스스로 품질을 점검하지 못하는 약점을 인간이 '설계'한 절차로 보완하는 방식이다.

이 사례는 AI의 창의적 한계를 넘어서는 방법에 대해 중요한 시사점을 준다. AI가 단순히 '생성'하는 것을 넘어, 우리가 원하는 '품질'의 결과물을 얻으려면 인간이 더 적극적으로 맥락을 설정하고, 명확한 규칙을 부여하며, 결과물을 검증하는 '설계자'의 역할이 필요하다는 점이다. "디자인이 안 되는 게 아니라 규칙이 없었던 것"이라는 말처럼, AI는 지시를 따를 뿐, '좋은 디자인'에 대한 명시적인 기준이 없으면 학습 데이터의 평균값으로 회귀하기 마련이다.

오늘 당장 나의 AI 활용 워크플로우에 적용할 수 있는 부분이 있다. AI에게 창의적인 결과물을 요청할 때, 단순히 추상적인 프롬프트를 넘어서 '구체적인 선택지'와 '명시적인 제약 조건'을 제시하는 훈련을 해보는 것이다. 예를 들어, 특정 디자인 스타일을 요청할 때, "현대적이고 깔끔하게" 대신, "미니멀리즘 디자인 원칙을 따르되, 특정 컬러 팔레트와 폰트 조합을 사용하고, 그리드 시스템의 빈 칸은 없도록 설계하라"와 같이 구체적인 지시를 내리는 방식이다. `gpt-taste`처럼 사전 검증 단계를 직접 워크플로우에 통합하는 것도 좋은 방법이다.

인간의 역할 재정의: 문제 해결에서 맥락 설정으로

Kuri와 `gpt-taste` 사례는 결국 AI 시대에 인간의 역할이 어떻게 변화하고 있는지를 선명하게 보여준다. 이제 인간은 직접 문제를 해결하기보다 AI를 이용해 '맥락을 설정'하고, AI가 도출한 '결과를 판단'하는 역할로 전환되고 있다. "앞으로는 문제 해결은 다 AI가 한다. 문제를 인간이 푸는 게 아니라 기계가 푼다"는 통찰은 우리에게 큰 울림을 준다. AI가 확률적으로, 통계적으로 훨씬 더 잘할 수밖에 없기 때문이다.

그렇다면 인간의 역할은 무엇인가? 바로 AI를 활용해서 맥락을 '잘' 설정해주는 것이 전부라는 의견에 공감한다. 어떤 상황에서 어떤 AI가 더 효과적인지 판단하고, AI에게 '얼마나 많이 반복해서 깊이 있게 던질 수 있는지'가 결과물의 퀄리티 차이를 만든다. 이는 곧 "평균의 종말"을 가속화하고, AI를 자신의 영역에서 제대로 다루는 "고수 프리랜서"들의 부상을 예고한다. 이들은 특정 프로젝트에 투입되어 AI 에이전트를 셋업하고, 최적의 맥락을 설계한 뒤, 그 결과물을 다시 활용하는 형태로 일하게 될 것이다.

이러한 변화는 모든 직업 분야에 걸쳐 나타날 것이다. 기존의 업무 방식은 빠르게 구식으로 전락하고, 인간은 이제 '생산자'를 넘어 '오케스트레이터'이자 '설계자'가 되어야 한다. AI가 주는 막대한 생산성 향상을 온전히 누리기 위해서는 인간의 능동적인 개입과 새로운 역량 개발이 필수적이다.

오늘 당장 이러한 변화에 대비하는 구체적 행동이 있다. 자신의 전문 분야에서 AI가 어떤 문제를 해결할 수 있을지 적극적으로 탐색하고, AI에게 '어떤 질문을 던져야 가장 좋은 맥락을 설정할 수 있을지'를 고민하는 연습을 시작해야 한다. 단순히 AI에게 결과물을 요청하는 것을 넘어, AI의 작동 원리와 한계를 이해하고, Kuri나 `gpt-taste`처럼 특정 목적에 최적화된 도구들을 조합하여 나만의 AI 워크플로우를 '설계'하는 능력을 키워나가는 것이 중요하다. 그리고 그 결과물을 비판적으로 평가하고 개선하는 안목을 기르는 데 집중해야 한다. 이처럼 인간의 역할이 재정의되는 시대, 우리의 주된 업무는 AI를 통해 '무엇을 만들까'를 넘어 '어떻게 만들까'를 설계하는 일로 옮겨가고 있다.

참고

  • Kuri – Zig based agent-browser alternative: https://github.com/justrach/kuri
  • GPT 'AI 슬롭' 해결책: gpt-taste로 디자인 개선 (by 이정민 (Jeongmin Lee)): https://www.linkedin.com/feed/update/urn:li:activity:7452567161379823616/
  • AI가 바꾼 일의 본질: 인간의 역할 재정의 (by 비즈카페 (BZCF)): https://www.linkedin.com/feed/update/urn:li:activity:7452729768082358274/