AI의 진짜 가치는 '절약된 인간 시간'과 '변화된 워크플로우'에서 나온다

최근에 한 디자이너가 클로드(Claude)로 디자인 작업을 피그마(Figma)보다 더 많이 한다고 밝혔어. 이게 무슨 말이냐고? 이 사람은 더 이상 목업 만들고 스펙 문서 쓰는 대신, 아이디어를 바로 코드로 구현해서 프로토타입을 만들어 버린다는 이야기다.

디자인-개발 경계를 허무는 AI의 힘

에드윈 모리스라는 제인 스트리트(Jane Street) 디자이너의 이야기다. 그는 클로드를 써서 문제와 해결책을 설명하고, 에디터에서 빌드, 서버, 클로드를 동시에 띄워놓고 바로 기능 개발을 시작한다. 이전 직장에서 며칠, 몇 주 걸렸을 디자인-개발 피드백 루프가 이젠 실시간으로 돌아간다는 거다. 50번을 바꿔도 클로드는 불평 하나 없다. 모든 노력이 실제 결과물에 집중되고, 중간 단계의 부수적인 일들은 사라졌다.

이게 단순한 '툴' 교체가 아니다. 디자이너가 직접 코딩하며, 디자인과 개발 사이의 장벽이 허물어지는 현상이다. 디자이너가 소프트웨어 만드는 방식을 모른 채 소프트웨어를 설계하는 게 이상하다고 생각했던 사람들에게는 엄청난 변화다. 결국 AI가 개인의 역량을 확장하고, 업무 흐름을 근본적으로 바꾸는 구체적인 사례를 보여준다.

토큰이 아닌 '인간 시간 절약'으로 AI 가치 측정하기

그럼 이런 변화의 가치를 어떻게 측정할까? 코그니션(Cognition)이 재미있는 기준을 내놓았다. AI 생산성을 토큰 사용량이 아닌 "이 세션이 인간 엔지니어 몇 시간을 절약했는가"로 자동 추정하는 시스템을 공개했다. 예전에는 "토큰을 얼마나 썼나?", "PR 몇 개 만들었나?" 같은 양적 지표를 주로 봤다. 하지만 이제는 "실제로 일을 얼마나 줄였나?"가 중요해졌다.

코그니션은 AI가 만들어낸 최종 코드 두 줄만 보는 게 아니다. 그 코드를 만들기 위해 AI가 어떤 파일을 열고, 어떤 로그를 보고, 어디서 헤맸는지, 어떤 테스트를 돌렸는지 같은 '실행 기록 전체(trace)'를 본다. 몇 시간짜리 조사 끝에 나온 두 줄짜리 버그 수정과, 단순 반복 작업으로 나온 수천 줄짜리 변경을 똑같이 볼 수 없다는 생각이다.

이런 측정 방식은 AI가 복잡한 문제 해결 과정에서 만들어내는 비가시적인 가치, 즉 조사, 진단, 탐색, 맥락 이해, 테스트, 실패 복구 과정까지 포착하려는 시도이다. 개별 세션의 시간 추정이 100% 정확하지 않아도, 조직 전체 수백, 수천 세션이 쌓이면 오차가 상쇄되며 AI의 실제 기여도를 합리적으로 추정 가능하다. AI가 한 일을 사람이 했으면 얼마나 걸렸을지, 그 과정이 유용했는지, 나중에 검증 가능한 기록으로 남겼는지가 중요한 질문이 된다.

피상적인 효율을 넘어선 균형 감각

이런 변화는 단순히 '효율성'이라는 단어만으로는 설명하기 어렵다. 한국어 LLM의 토큰 효율에 대한 이정민 ABLD 대표의 이야기도 비슷한 맥락에서 볼 수 있다. 그는 토큰 효율을 높이겠다고 섣불리 토큰을 묶으면 오히려 범용 성능이나 추론 효율이 떨어진다고 강조했다. 단순한 트릭으로 토큰 수를 줄여도, 학습 데이터 부족이나 외래어, 유행어 등 신규 언어에 대한 대응 능력이 저하될 수 있다는 거다.

결국 중요한 건 표면적인 토큰 효율이 아니라, 실제 비즈니스 환경에서 안정적인 성능을 내는 '균형 잡힌 설계'이다. AI의 가치를 토큰 사용량이나 토큰 효율 같은 단순 지표로만 판단하면 본질을 놓치기 쉽다는 메시지를 던진다.

AI의 진짜 가치는 숫자로만 설명하기 어려운, 우리의 일하는 방식을 어떻게 바꾸고, 인간의 시간을 얼마나 절약하며, 어떤 새로운 가능성을 열어주는지에 달렸다. 워크플로우를 혁신하고 그 가치를 올바르게 측정하려는 노력에서 AI의 미래가 보인다. 우리 팀은 AI로 어떤 인간 시간을 절약하고 있을까?

참고

AI 생산성: 토큰 아닌 '인간 시간 절약'으로 (by 정구봉 (Goobong Jeong))
I design with Claude more than Figma now (by Edwin Morris)
한국어 토큰, 성능 위한 균형 설계가 핵심 (by 이정민 (Jeongmin Lee))