인공지능 에이전트가 밤새 코드를 작성하는 시대가 열렸다. 개발자는 이제 잠을 자는 동안에도 소프트웨어가 스스로 진화하는 모습을 상상한다. 그러나 이 환상적인 풍경 뒤에는, 여전히 잠 못 이루는 개발자들의 현실적인 고민이 숨어 있다. AI가 만든 코드의 최종 책임은 누구에게 돌아가는가? 그리고 폭발적으로 늘어나는 AI 워크로드를 감당할 인프라와 성능은 어떻게 확보하는가?
최근 기술 동향은 이 두 가지 핵심 질문에 대한 해답을 찾으려는 업계의 뜨거운 움직임을 보여준다. AI의 놀라운 생산성과 그에 비례하는 새로운 숙제들 앞에서, 인간은 기술 발전의 속도만큼이나 빠르게 역할과 책임의 경계를 재정의하고 있다.
AI가 쓴 코드, 인간이 져야 할 책임
앙쿠르 세티는 Claude Code의 도움을 받아 단 4주 만에 새로운 프로그래밍 언어 Cutlet을 만들었다. 그는 놀랍게도 단 한 줄의 코드도 직접 읽지 않았다. 그저 AI에게 요구사항을 던지고, AI가 생성한 코드가 정확하게 작동하는지 검증하기 위한 가드레일만 구축했다. 결과는 성공적이었다. Cutlet은 macOS와 Linux에서 빌드되고 실행되며 실제 프로그램을 돌린다. 그의 실험은 AI가 인간의 직접적인 개입 없이도 복잡한 소프트웨어를 만들 수 있음을 증명한다.
그러나 이처럼 편리한 AI 코드 생성은 새로운 고민을 낳는다. 클로드 코드 캠프의 한 개발자는 Agents that run while I sleep에서 밤새 코드를 작성하는 AI 에이전트의 효율성을 높이 평가했다. 하지만 동시에 그는 AI가 보내온 코드 변경 사항이 과연 올바른지, 신뢰할 수 있는지 알 길이 없어 불안해했다. AI가 스스로 작성한 코드를 스스로 테스트하는 상황을 '자축 머신(self-congratulation machine)'이라 부르며, 이는 개발자가 진정으로 원하는 바를 놓칠 수 있다고 경고했다.
이 문제는 오픈소스 커뮤니티에서도 뜨거운 감자다. 데비안 프로젝트는 AI 생성 기여 코드 허용 여부에 대한 논의를 벌였다. 루카스 너스바움이 제안한 결의안 초안은 '상당 부분'이 LLM(대규모 언어 모델)에 의해 생성된 코드라면 명시적 공개와 함께 '[AI-Generated]'와 같은 기계 판독 가능한 태그를 의무화한다. 더 나아가, 기여자는 자신이 제출한 코드의 기술적 장점, 보안, 라이선스 준수, 유용성에 대해 전적으로 책임져야 한다고 명시한다. AI의 도움을 받았더라도 최종 책임은 인간 기여자에게 있다는 분명한 선언이다.
이러한 논의는 AI 모델의 코드 생성 능력이 급성장하며 생긴 필연적인 결과다. Levels of Agentic Engineering 칼럼은 AI 에이전트가 여러 개의 풀 리퀘스트(PR)를 스스로 올리는 '레벨 7 마법사' 같은 개발자 시대가 도래했음을 이야기한다. 하지만 이는 AI가 만들어낸 코드의 품질과 신뢰성을 검증하는 과정이 여전히 인간의 숙제로 남았다는 의미이기도 하다. 본래 코드 리뷰의 목적은 '다른 눈'을 통해 잠재적인 오류나 오해를 걸러내는 것이다. AI가 코드를 쓰고 다른 AI가 이를 검증해도, 둘이 같은 기반에서 작동한다면 같은 실수를 반복할 뿐이다. '다른 눈'의 역할을 수행하기 어렵다.
결국, 기업들은 이 새로운 현실에 적응한다. 최근 아마존은 시스템 장애 사태 이후 AI 지원 변경 사항에 대해 선임 엔지니어의 최종 승인을 의무화하기로 결정했다. 이는 AI의 활용을 극대화하되, 잠재적 위험에 대한 최종적인 책임과 통제권은 반드시 인간에게 두겠다는 명확한 시그널이다. AI는 이제 생산성을 폭발시키는 도구지만, 그 결과에 대한 최종적인 보증과 책임은 여전히 인간 개발자의 몫으로 남는다. 개발자의 역할은 단순히 코드를 생산하는 것에서 AI가 만든 코드를 설계하고 검증하며, 그 결과에 책임을 지는 '최종 관리자'로 전환한다.
속도에 대한 집착, 그 밑바닥의 인프라 전쟁
AI 시대의 또 다른 지배적인 흐름은 '속도'에 대한 집착이다. 모델의 성능이 아무리 뛰어나도, 이를 실제 환경에서 빠르고 효율적으로 구동하지 못하면 무용지물이다. 이러한 속도 경쟁은 모델 자체를 넘어, AI 추론(Inference)을 위한 하드웨어와 소프트웨어 인프라 전반으로 확산한다.
RunAnywhere는 애플 실리콘 칩에서 LLM, STT(음성-텍스트 변환), TTS(텍스트-음성 변환) 추론 속도를 획기적으로 끌어올리는 기술을 선보였다. Qwen3-0.6B 모델 디코딩에서 `llama.cpp`보다 1.67배, 애플 MLX보다 1.19배 빠르다. 70초 분량의 오디오를 STT로 변환하는 데 단 101ms가 걸린다. 이는 실시간의 714배에 달하는 속도다. RunAnywhere는 커스텀 메탈 셰이더를 사용하고 프레임워크 오버헤드를 없애 이러한 성능을 달성했다. 특히 음성 AI 파이프라인처럼 여러 모델이 순차적으로 연결될 때 발생하는 누적 지연 시간을 극복하는 데 핵심적인 역할을 한다. 사용자 경험을 결정하는 결정적인 요소는 바로 이 '속도'이기 때문이다.
모델의 잠재력을 최대한 끌어내는 기술 혁신은 다른 곳에서도 목격된다. 한 개발자는 HuggingFace Open LLM Leaderboard에서 자신의 모델 'dnhkng/RYS-XLarge'로 1위를 차지했다. 그는 새로운 모델을 학습시키거나 가중치를 변경하지 않았다. 대신, 기존 720억 매개변수 모델의 특정 중간 레이어 7개를 복제하여 붙여 넣는 'LLM Neuroanatomy'라는 기법을 사용했다. 모델의 '생각하는' 레이어를 늘리는 것만으로도 성능을 크게 향상시키는, 이른바 '제로 그라디언트(zero-gradient)' 최적화의 가능성을 제시한 것이다.
이러한 성과는 AI 모델의 성능이 단순히 모델의 크기나 훈련 데이터량에만 좌우되지 않는다는 점을 명확히 보여준다. AI 모델을 효율적으로 실행하는 소프트웨어 최적화, 그리고 이를 뒷받침하는 하드웨어 아키텍처에 대한 깊은 이해가 경쟁의 핵심이 된다.
하지만 모든 인프라가 이러한 속도 경쟁에 동참하는 것은 아니다. RISC-V Is Sloooow 기사는 RISC-V 하드웨어의 현재 느린 속도를 지적한다. `binutils 2.45.1-4.fc43` 패키지를 빌드할 때, x86_64 아키텍처에서 29분 걸리던 작업이 RISC-V에서는 143분이 소요된다. LTO(링크 시간 최적화)도 비활성화된 상태에서 발생한 결과다. 현재 RISC-V 코어는 ARM Cortex-A55와 비교될 정도로 낮은 성능을 보인다. 이는 새로운 하드웨어 아키텍처가 시장에 자리 잡기까지 극복해야 할 성능 격차가 여전히 크다는 현실을 보여준다.
AI 추론 환경은 클라우드에서 온디바이스, 엣지로 계속 확장한다. FFmpeg-over-IP와 같은 기술은 GPU 패스스루나 공유 파일 시스템 없이도 원격 GPU를 활용해 미디어 트랜스코딩을 가속화한다. 이처럼 특정 작업을 위한 GPU 접근성을 개선하는 기술도 AI 시대의 효율성 경쟁에서 중요한 축을 담당한다. 결국 AI 시대의 핵심 경쟁력은 '모델' 자체를 넘어, 이 모델을 얼마나 빠르고 효율적으로 '구동'하는지에 달려있다. 특정 하드웨어 아키텍처에 대한 깊은 이해와 소프트웨어 최적화 기술은 시장의 승자를 결정하는 결정적인 요소가 된다. 클라우드 의존성을 줄이고 온디바이스 AI를 구현하려는 움직임은 개인 정보 보호와 실시간 응답 요구에 따라 더욱 가속화된다. 이는 최적화 전문가와 인프라 엔지니어의 가치가 더욱 치솟는다는 의미다.
AI가 인간의 능력을 확장하고 생산성을 높이는 강력한 도구로 자리매김하는 것은 분명한 사실이다. 하지만 우리는 동시에 AI가 만든 코드의 최종 책임이 누구에게 있는지, 그리고 AI의 폭발적인 수요를 감당할 인프라를 어떻게 구축할 것인지라는 근본적인 질문에 직면했다. AI의 생산성과 자율성은 빠르게 커진다. 하지만 그 결과에 대한 책임과 성능 최적화는 여전히 인간의 집요한 노력과 통제에 달려있다.
참고
- Yann LeCun raises $1B to build AI that understands the physical world — 얀 르쿤이 물리세계를 이해하는 AI 개발을 위해 10억 달러를 투자 유치했다는 기사.
- After outages, Amazon to make senior engineers sign off on AI-assisted changes — 시스템 장애 이후 아마존이 AI 지원 변경 사항에 대한 선임 엔지니어 승인을 의무화한다는 기사.
- Meta acquires Moltbook — 메타가 AI 에이전트 소셜 네트워크 Moltbook을 인수했다는 기사.
- Debian decides not to decide on AI-generated contributions — 데비안 프로젝트가 AI 생성 코드 기여에 대한 명확한 입장을 정하지 못하고 논의 중이라는 기사.
- I built a programming language using Claude Code — Claude Code를 활용해 새로운 프로그래밍 언어 Cutlet을 개발한 경험을 공유한 블로그 글.
- Agents that run while I sleep — AI 에이전트가 밤새 코드를 작성하지만, 그 정확성을 신뢰하기 어렵다는 개발자의 고민을 다룬 글.
- RISC-V Is Sloooow — RISC-V 하드웨어의 현재 성능이 매우 느리다는 분석 글.
- Show HN: How I Topped the HuggingFace Open LLM Leaderboard on Two Gaming GPUs — 가중치 변경 없이 LLM의 특정 레이어를 복제하여 HuggingFace 리더보드 1위를 달성한 방법 설명.
- Launch HN: RunAnywhere (YC W26) – Faster AI Inference on Apple Silicon — 애플 실리콘에서 LLM, STT, TTS 추론을 획기적으로 가속화하는 RunAnywhere 기술 소개.
- Levels of Agentic Engineering — AI 기반 코드 작성이 가져올 에이전트 엔지니어링의 발전 단계를 설명하는 글.
- FFmpeg-over-IP – Connect to remote FFmpeg servers — GPU 가속 FFmpeg 서버에 원격으로 연결하는 기술을 소개하는 프로젝트.