똑똑한 AI 모델? 결국 엔지니어링 싸움이다

야, 너 클로드 요즘 좀 버벅거린다는 느낌 안 들었냐? 나만 그런 줄 알았는데 아니더라.

앤트로픽이 어제 클로드 성능 저하에 대해 공식적으로 입장을 밝혔어. 근데 놀라운 건, 모델 자체가 망가진 게 아니었대. 핵심은 내부 시스템인 '하네스'와 'Agent SDK'의 버그 때문이었다고 하더라고.

모델이 아닌 '하네스'가 문제였던 클로드

클로드 사례를 보면 정말 기가 막혀. `reasoning effort` 기본값이 `high`에서 `medium`으로 바뀌면서 복잡한 리팩토링 시 맥락을 놓치는 빈도가 늘어났고, 캐싱 최적화 과정에서는 이전에 모델이 생각했던 `thinking` 블록을 매 턴마다 날려버리는 버그가 생겼대. 게다가 시스템 프롬프트에 'tool call 사이 텍스트 25단어 이하' 같은 제한까지 넣었으니, 모델이 제 아무리 똑똑해도 제 기능을 할 수가 없었던 거지.

나는 이걸 보면서, 아무리 뛰어난 AI 모델이라도 그걸 둘러싸고 작동시키는 시스템, 즉 '하네스'가 얼마나 중요한지 다시금 깨달았어. 모델은 뇌 역할을 하지만, 그 뇌가 최적의 성능을 낼 수 있도록 정보 흐름을 조율하고, 과거 맥락을 기억하고, 외부 제약을 관리하는 건 결국 주변 엔지니어링 영역이라는 말이지. 뇌만 좋으면 뭐해, 신경계가 엉망이면 아무것도 못 하잖아.

GPT-5.5가 보여주는 '자율적 에이전트'의 미래

근데 딱 이 시점에 오픈AI가 GPT-5.5를 내놨어. 얘네는 이 모델을 '수석 비서실장(chief of staff)'이라고 부르던데, 사용자 지시 없이도 스스로 다음 단계를 판단하고 작업을 수행하는 에이전트 능력에 엄청 특화되어 있다고 해.

오픈AI에 따르면, GPT-5.5는 "불명확한 문제를 보고 다음에 무엇이 필요한지 스스로 파악"해서 다단계 워크플로우를 자율적으로 처리할 수 있다고 해. 코딩 벤치마크 '터미널 벤치 2.0'에서 82.7%, 인간 전문가와 대등하거나 앞서는 비율이 84.9%에 달한다니, 말 그대로 압도적인 지능과 자율성을 보여주는 거지. 심지어 비용은 절반 수준인데 속도는 이전 모델과 비슷하다고 하더라. AI 에이전트의 시대가 정말 코앞으로 다가왔다는 생각이 들었어.

AI 모델 + 시스템, 함께 고민해야 할 지점

결국 두 기사를 보면, AI가 이제 '단순 질문 답변 도구'를 넘어 '자율적으로 일을 처리하는 에이전트' 시대로 가고 있다는 건 확실해. GPT-5.5가 그 정점에 서 있는 모습이고.

하지만 클로드의 사례는 동시에 중요한 경고를 주는 거야. 아무리 똑똑한 에이전트 모델이라도, 그걸 둘러싼 시스템 설계, 즉 '하네스'가 부실하면 제 성능을 못 낸다는 걸 말이지. 모델 자체의 성능 지표뿐만 아니라, 그 모델이 돌아갈 인프라, 캐싱 전략, 프롬프트 관리, 상태 관리 같은 엔지니어링 영역이 실제 퍼포먼스와 안정성을 좌우한다는 거지.

결국 우리가 AI 에이전트 솔루션을 만들거나 도입할 때는 단순히 모델의 성능 벤치마크만 볼 게 아니라는 거야. 모델이 제 능력을 최대한 발휘할 수 있도록 견고하고 영리하게 설계된 전체 시스템 관점에서 접근해야 해. 모델이 학습된 데이터만큼이나, 모델이 실제 세계와 상호작용하는 방식과 로직이 중요해졌다는 뜻이기도 하고.

우리도 AI 솔루션 만들 때 단순히 좋은 모델 쓰는 것 이상으로, 그 모델이 제대로 작동할 수 있는 '하네스' 설계에 더 공을 들여야 할 시점인 것 같지 않아?

참고

오픈AI ‘GPT‑5.5’ 지시 없어도 알아서 판단... 직관적 에이전트 경제 온다 (by 박원익)
앤트로픽 클로드 성능 저하: 모델 아닌 하네스 문제 (by 이정민 (Jeongmin Lee))
GPT 5.5 is officially here! ... (by TheRundownAI)