8시간 910번 실험, AI 자율 진화 속 법정 다툼 시작되다

8시간 동안 910번의 실험. Andrej Karpathy의 Autoresearch 프로젝트를 스카이파일럿이 16개의 GPU 클러스터로 확장하자 벌어진 일이다. 이는 인간 연구자가 몇 달에 걸쳐야 할 연구 과정을 AI 에이전트가 단 8시간 만에 해치웠다는 의미다. AI는 이제 단순히 질문에 답하는 보조자를 넘어, 스스로 연구하고 코드를 짜는 자율적 존재로 진화한다. 그런데 이처럼 무섭게 성장하는 AI의 부산물, 즉 AI가 만든 코드와 학습 데이터는 누구의 소유인가? 이 질문에 답하기 위해 법정 다툼과 윤리적 논쟁이 이미 시작되었다.

AI 에이전트, 연구의 속도를 무자비하게 바꾼다

인공지능 연구는 엄청난 속도로 발전한다. 하지만 이제는 AI 자체가 이 연구 속도를 끌어올린다. 스카이파일럿은 최근 Karpathy의 Autoresearch 프로젝트 확장 사례를 공개했다. 이 프로젝트에서 코딩 에이전트는 뉴럴 네트워크 훈련 스크립트를 자율적으로 개선한다. 스카이파일럿은 클로드 코드 에이전트에 16개의 GPU를 가진 쿠버네티스 클러스터 접근 권한을 주었다. 에이전트는 8시간 동안 약 910번의 실험을 수행했다. 그 결과, `val_bpb` 값을 1.003에서 0.974로 2.87% 개선했다. 이는 동일한 검증 손실을 달성하는 데 시뮬레이션된 순차적 방식보다 9배 빠른 속도다.

이러한 속도의 배경에는 병렬 처리 방식의 변화가 있다. 단일 GPU 환경에서 에이전트는 한 번에 한 가지를 시도하고 결과를 확인하는 '탐욕적인 언덕 오르기(greedy hill-climbing)' 전략을 사용한다. 하지만 16개의 GPU를 활용하자 상황이 달라졌다. 에이전트는 10~13개의 실험을 한 번에 진행하는 '팩토리얼 그리드(factorial grid)' 방식으로 연구 전략을 바꿨다. 이는 여러 매개변수 간의 상호작용 효과를 한 번에 포착한다. 예를 들어, 에이전트는 6가지 모델 폭을 한 번의 시도에 테스트하고, 즉시 추세를 파악한 뒤 최적의 모델에 집중했다. 6번의 개별 시도 대신 한 번에 결론을 내린 것이다. 더욱 흥미로운 점은 H100 GPU는 아이디어 스크리닝에, H200 GPU는 검증에 사용하는 등 이종 하드웨어를 활용하는 전략까지 스스로 개발했다는 사실이다.

이러한 AI 에이전트의 발전은 인간 연구의 패러다임을 바꾼다. 연구 사이클은 압도적으로 빨라지고, 기존에는 불가능했던 수많은 가설 검증이 동시다발적으로 이루어진다. 승자는 이 무자비한 속도 경쟁에서 AI를 효율적으로 활용하는 연구자와 기업이다. 이들은 더 빠르게 혁신하고 새로운 발견을 이끌어낸다. 반면, 과거의 연구 방식에 머무는 이들은 뒤처진다. 연구자들은 AI를 단순한 도구가 아닌, 공동 연구자로 받아들이고 새로운 연구 전략을 세워야 한다. 동시에 NanoGPT Slowrun이 10배의 데이터 효율성을 달성하며 100M 토큰으로 1B 토큰을 사용한 모델과 맞먹는 성능을 보였다. 이는 데이터가 아닌 컴퓨팅 자원이 AI 발전의 주요 병목이 된다는 점을 명확히 보여준다. AI 에이전트가 방대한 컴퓨팅 자원을 활용해 데이터 효율을 높이는 전략을 스스로 찾아낸다면, AI의 자율성은 더욱 깊어진다.

AI 코드, 라이선스 없는 ‘자유’를 누릴 자격은 없다

AI가 코드를 작성하고 스스로 연구하는 시대에, 이 AI가 학습한 데이터와 생산한 결과물에 대한 소유권 및 라이선스 문제는 더욱 첨예해진다. 최근 자유 소프트웨어 재단(FSF)은 Anthropic을 상대로 저작권 침해 소송을 제기했다. Anthropic은 Library Genesis 및 Pirate Library Mirror 데이터셋을 대규모 언어 모델(LLM) 훈련에 사용했고, FSF가 저작권을 가진 Sam Williams와 Richard Stallman의 Free as in freedom 책도 훈련 데이터에 포함되었다. 이 책은 GNU 자유 문서 라이선스(GNU FDL)에 따라 어떠한 목적으로든 사용이 허용되는 자유 라이선스 문서다. 하지만 FSF는 Anthropic이 학습에 사용한 모든 데이터를 모델과 함께 사용자에게 자유롭게 공유해야 한다고 주장한다.

이 사건은 AI 학습 데이터의 출처 불분명성과 기존 저작권 라이선스의 AI 적용 문제에서 비롯된다. AI 모델은 웹 전체의 방대한 데이터를 학습하며, 그중에는 저작권이 있는 자료와 자유 라이선스 자료가 뒤섞여 있다. 법원은 LLM 훈련을 위한 책 사용을 '공정 사용'으로 판결했지만, 다운로드 자체가 합법적인지에 대한 문제는 남겼다. FSF의 주장은 단순히 금전적 보상에 그치지 않는다. 그들은 AI 개발자들이 훈련 데이터, 모델, 훈련 설정, 관련 소프트웨어 소스 코드를 모두 공개함으로써 컴퓨팅의 자유를 보호해야 한다고 강조한다. 이는 AI가 '자유'를 주장하는 오픈소스의 정신을 침해해서는 안 된다는 강력한 메시지다. Anthropic은 81,000명의 사용자 인터뷰를 통해 AI에 대한 사람들의 희망과 우려를 공개했다. 여기에는 "AI 때문에 해고당했다"는 우려와 "AI가 진단에 도움을 주었다"는 희망이 공존한다. 이러한 복잡한 기대와 불안 속에서, AI가 어떤 윤리적, 법적 틀 안에서 개발되어야 하는지에 대한 질문은 더욱 커진다.

이러한 논쟁은 AI 개발자들에게 중대한 도전을 안긴다. AI 모델이 학습 데이터를 완벽히 추적하고 출처를 명시해야 하는 상황이 온다면, 대규모 데이터셋 구축은 훨씬 복잡해진다. 오픈소스 LLM과 상업용 LLM 간의 경계가 모호해지고, 어떤 AI 모델이 진정한 '자유'를 추구하는지에 대한 논의가 활발해질 것이다. 또한 AI 코딩 에이전트가 코드베이스를 바꾸는 방식에 대한 의도적인 접근을 강조하는 목소리도 커진다. "단 하나의 코딩 에이전트보다 코드베이스를 더 빨리 지저분하게 만드는 것은 에이전트 무리뿐이다"라는 경고는 AI가 작성한 코드의 품질과 유지보수 문제에 대한 우려를 명확히 보여준다. AI가 생성한 코드에 대한 소유권, 책임, 그리고 미래의 기술 부채 문제까지 고려해야 한다. AI가 자율적으로 코드를 만들수록, 이 코드에 대한 인간의 통제와 책임은 더욱 무거워진다.

결국 AI 에이전트의 발전은 기술의 한계를 뛰어넘는 동시에, 인간의 법적, 윤리적 프레임워크에 거대한 균열을 낸다. AI가 스스로 코드를 쓰고 연구를 가속하는 시대, 우리는 AI의 놀라운 성능과 그로 인해 발생하는 혼돈 사이에서 균형을 찾아야 한다.

참고

Scaling Karpathy's Autoresearch: What Happens When the Agent Gets a GPU Cluster — 스카이파일럿이 Andrej Karpathy의 Autoresearch 프로젝트를 GPU 클러스터로 확장한 사례를 다룬다.
Autoresearch — Andrej Karpathy의 Autoresearch 프로젝트 원본 문서다.
Be intentional about how AI changes your codebase — AI 코딩 에이전트가 코드베이스를 변경하는 방식에 대한 윤리적, 실용적 가이드라인을 제시한다.
NanoGPT Slowrun: 10x Data Efficiency with Infinite Compute — NanoGPT Slowrun이 10배의 데이터 효율성을 달성한 연구 결과를 설명한다.
What 81,000 people want from AI — Anthropic이 81,000명의 AI 사용자들을 인터뷰하여 AI에 대한 희망과 우려를 조사한 보고서다.