최근 OpenAI 에이전트가 25시간 동안 1,300만 토큰을 사용해 3만 줄의 코드를 생성했다는 소식을 접했다. 단순히 숫자의 크기보다 더 인상 깊었던 건, 이 긴 작업이 성공적으로 진행될 수 있었던 비결이 바로 `docs/` 폴더 기반의 체계적인 운영 구조에 있다는 분석이다. 한 번의 뛰어난 프롬프트가 아니라, 에이전트가 지속적으로 참조하고 업데이트할 수 있는 `docs/ prompt.md`, `docs/ plans.md`, `docs/ implement.md`, `docs/ documentation.md` 같은 파일 스택이 핵심이었다는 이야기다. 이는 AI 에이전트가 코드를 쓰는 방식 자체를 넘어, 우리가 장기적인 AI 프로젝트를 어떻게 설계하고 관리해야 하는지에 대한 중요한 통찰을 던진다.

뛰어난 프롬프트보다 견고한 시스템

우리는 종종 AI 에이전트의 능력을 평가할 때 모델 자체의 지능이나 프롬프트의 기교에만 집중하는 경향이 있다. 하지만 이 사례는 에이전트가 복잡한 작업을 성공적으로 수행하기 위한 진정한 핵심이 어디에 있는지 명확히 보여준다. 목표(prompt), 계획(plans), 실행 규칙(implement), 그리고 지속적인 문서화(documentation)가 에이전트의 작업 지평을 넓히는 근본적인 요소였다. `plans.md`에는 마일스톤을 잘게 쪼개고, 각 마일스톤마다 `acceptance criteria`와 `validation commands`를 붙여서 검증이 실패하면 다음으로 넘어가지 말고 먼저 고치라는 `stop-and-fix rule`이 명시되었다. 이는 에이전트가 "인상적이지만 틀린 것"을 만드는 것이 아니라, "검증 가능한 상태로 전진"하게 만드는 장치였다.

이러한 체계적인 접근 방식은 AI 에이전트가 단순한 코드 생성 도구를 넘어, 장기 실행 작업 시스템으로 작동할 수 있음을 보여준다. 마치 숙련된 개발팀이 스프린트를 계획하고, 코드를 작성하며, 테스트하고, 문서를 업데이트하는 과정과 흡사하다. 이제 우리 개발자들은 AI 에이전트에게 "무엇을 만들라"고 지시하는 것을 넘어, "어떻게 만들라"는 운영 프레임워크를 제공하는 데 집중해야 할 시점이다. 당장 오늘부터라도 작은 AI 프로젝트를 시작할 때, `docs/` 폴더 안에 목표, 계획, 실행 원칙, 그리고 진행 상황을 기록하는 최소한의 문서를 만들어 보길 권한다. 에이전트가 이 문서들을 기반으로 작업을 수행하고, 그 결과가 다시 문서에 반영되는 선순환 구조를 직접 경험하면 AI 개발의 새로운 패러다임을 이해하는 데 큰 도움이 될 것이다.

'그럴듯한' 코드와 '맞는' 코드 사이의 간극

하지만 에이전트가 3만 줄의 코드를 생성할 수 있다고 해서 모든 문제가 해결되는 것은 아니다. 다른 흥미로운 사례는 LLM이 57만 줄짜리 Rust SQLite 재구현 코드를 생성했지만, 기본 키 조회 한 번에 SQLite 원본보다 20,171배 느렸다는 분석이다. LLM이 만든 코드는 컴파일되고 테스트도 통과했지만, 실질적인 성능 면에서는 치명적인 결함을 안고 있었다.

이 사례는 LLM이 `요구사항을 만족하는 코드`를 만들 수는 있지만, `효율적이고 최적화된 코드`를 만드는 데는 아직 한계가 있음을 명확히 보여준다. '그럴듯한 코드'와 '맞는 코드' 사이의 간극은 쿼리 플래너가 B-tree를 제대로 활용하지 못하고 전체 스캔을 돌리거나, Rust의 소유권 문제로 AST를 매번 복제하는 것과 같이, 개별적으로는 합리적인 선택처럼 보이지만 겹쳤을 때 성능을 폭발적으로 저하시키는 '안전한 기본값의 복리 효과'에서 발생했다. 8만 줄짜리 Rust 데몬이 `find` 명령어 한 줄로 해결될 문제를 푸는 데 사용된 사례도 마찬가지다. LLM은 '시킨 것'을 만들지 '필요한 것'을 만들지 않는다는 핵심을 다시 한번 상기시킨다.

이는 AI 시대의 개발자에게 새로운 역량을 요구한다. LLM이 생성한 코드를 맹목적으로 신뢰하는 대신, 성능 프로파일링 도구를 적극적으로 사용하고, 벤치마크 테스트를 통해 코드의 효율성을 검증하는 과정이 필수적이다. "이 코드가 맞아 보이는가"가 아니라, "이 코드가 맞다는 것을 어떻게 증명할 것인가"를 고민하는 숙련된 개발자의 역할이 더욱 중요해진다. AI가 생성한 코드라도 기존의 코드 리뷰 프로세스와 성능 검증 단계를 반드시 거치도록 시스템을 구축해야 한다. 이를 통해 우리는 단순히 코드를 많이 만드는 것을 넘어, `품질과 효율성`을 겸비한 프로덕션을 향해 나아갈 수 있다.

AI 시대, 협업 방식과 커리어 설계의 변화

이러한 AI 에이전트 개발의 변화는 우리의 협업 환경과 커리어 설계에도 직접적인 영향을 미친다. 데이터 통합 회사 Fivetran의 CEO는 Slack이 기업의 '집단 지성'을 폐쇄적인 데이터 정책 안에 가두어, AI와의 효율적인 협업을 가로막고 있다고 강하게 비판했다. 그는 Claude 같은 AI가 대화에 직접 참여하고 기업 지식을 쉽게 활용할 수 있는 `개방형 협업 플랫폼`이 필수적이라고 주장한다. 현재의 협업 도구는 AI 시대의 요구를 따라가지 못하고, 기업의 핵심 지식 자산이 사일로화되어 AI 활용을 제한하고 있는 것이다.

이는 우리 팀의 협업 방식에 대한 근본적인 질문을 던진다. 우리가 사용하는 메시징 앱이나 문서 공유 시스템이 AI 에이전트가 접근하고 학습할 수 있는 `열린 지식 저장소` 역할을 할 수 있을까? 아니면 AI와의 자연스러운 협업을 위해 새로운 플랫폼을 모색해야 할까? 당장 오늘부터 팀원들과 함께 현재의 협업 도구를 통해 AI를 어떻게 더 효과적으로 활용할 수 있을지 논의해 보는 것이 좋다. 지식 공유의 장벽을 낮추고 AI가 팀의 일원으로 참여할 수 있는 환경을 만드는 것은 생산성 향상으로 직결될 것이다.

한편, 앤트로픽의 최신 보고서는 AI가 노동 시장에 미치는 영향을 구체적인 수치로 제시했다. 컴퓨터 프로그래머(75%)를 포함한 화이트칼라 직군이 AI에 가장 많이 노출되고 있으며, 청년층 채용 둔화와 같은 실제 노동 시장의 변화가 감지된다고 한다. AI 자동화에 노출된 직종에서 22~25세 젊은 근로자의 채용이 비노출 직종보다 빠르게 둔화되고 있다는 분석은 시사하는 바가 크다. 보고서에 따르면 클로드 사용 기업의 AI 활용 사례 중 77%가 '전체 업무 위임'과 같은 자동화 사례였고, 학습이나 피드백 요청 같은 '노동 증강' 목적은 12%에 불과했다. 기업들은 인간 개입을 완전히 배제한 자동화를 더 선호하고 있는 셈이다.

하지만 동시에 60세 개발자가 Claude Code를 통해 프로그래밍에 대한 식지 않는 열정을 다시 발견했다는 이야기는 AI의 또 다른 면모를 보여준다. 그는 과거 Active Server Pages나 VB6를 배우며 느꼈던 흥분과 몰입감을 Claude Code를 사용하면서 다시 경험하고 있다고 한다. AI가 일부 업무를 자동화하고 특정 직업의 노출도를 높이는 것은 피할 수 없는 현실이지만, 동시에 숙련된 개발자에게 새로운 영감을 주고 생산성을 높이는 강력한 `촉매제`가 될 수도 있음을 보여주는 사례다.

결국, AI 시대의 커리어 설계는 단순히 "어떤 직업이 살아남을 것인가"를 넘어 "어떻게 AI와 협력하여 자신의 역량을 확장하고 새로운 가치를 창출할 것인가"에 달려 있다. 우리 개발자들은 AI를 단순한 위협으로만 볼 것이 아니라, 자신의 생산성을 증강하고, 기존에 시도하기 어려웠던 프로젝트에 도전할 수 있는 `강력한 도구`로 인식해야 한다. 지금 당장이라도 자신의 주력 언어나 프레임워크에서 AI 코딩 도구를 적극적으로 활용하여 `AI 활용 능력(AI Fluency)`을 최대한 빠르게 습득해야 한다. 그리고 AI가 생성한 코드를 비판적으로 검토하고, 성능을 최적화하는 역량을 꾸준히 키워야 한다.

AI는 이제 단순한 기술 트렌드가 아니라, 우리의 일하는 방식, 협업 환경, 그리고 커리어 궤적까지 근본적으로 바꾸는 거대한 흐름이다. 이 변화 속에서 우리는 어떤 개발자로 거듭날 것인가?

참고

  • Anthropic, please make a new Slack. Fivetran Blog.
  • 에이전트 코딩의 진짜 변화는 모델이 더 똑똑해진 게 아닙니다. 시간 지평이 바뀌고 있습니다. LinkedIn.
  • AI 노출 가장 높은 직군은?… 앤트로픽이 밝혀낸 화이트칼라 위기의 실체. 더밀크.
  • 🧩 LLM 이 쓴 57만 줄은 틀리지 않습니다. 그런데 맞지도 않아요. 컴파일 됩니다. 테스트도 통과해요. LinkedIn.
  • I'm 60 years old. Claude Code has ignited a passion again. Hacker News.