32GB 램을 탑재한 맥 미니에서 31GB 규모의 대규모 언어 모델 Mixtral 8x7B을 초당 2.2토큰 속도로 실행하는 시대가 왔다. 과거에는 상상하기 어려웠던 일이다. 이러한 변화는 단지 소프트웨어 하나의 혁신이 아니다. 인공지능(AI)이 일상 깊숙이 파고들면서, AI를 뒷받침하는 하드웨어부터 이를 효율적으로 구동하는 소프트웨어까지 전방위적인 지각 변동이 시작되었다.
Arm AGI CPU: 에이전트 AI 클라우드의 새로운 심장
Arm은 창립 35년 만에 처음으로 자사 실리콘 제품인 Arm AGI CPU를 공개했다. 이 칩은 '에이전트 AI 클라우드 시대'를 위한 실리콘 기반을 표방한다. 동시에 데이터센터 전력 공급 방식도 교체 중이다. IEEE Spectrum 기사에 따르면, 데이터센터들이 에디슨의 교류(AC) 방식에서 직류(DC) 방식으로 전환하며, 엔비디아(NVIDIA)의 고밀도 컴퓨팅 랙은 800V DC 전력 분배를 활용한다.
기존 컴퓨팅 환경에서는 인간이 시스템과 상호작용하는 속도가 병목 현상을 일으켰다. 하지만 에이전트 AI 시대에는 소프트웨어 에이전트들이 실시간으로 작업을 조율하고, 여러 모델과 상호작용하며 의사결정을 내린다. 이런 AI 시스템은 끊임없이 가동되고 작업 복잡도가 심화된다. 결국 CPU가 전체 인프라 효율성을 결정하는 핵심 요소로 부상한다. 또한, AI 데이터센터의 컴퓨팅 밀도가 폭발적으로 증가한다. 기존 AC 전력 시스템의 비효율성이 큰 문제가 된다. AC는 여러 단계의 변환을 거치며 전력 손실이 발생하지만, DC는 변환 단계를 줄여 전력 효율을 획기적으로 개선한다. 이는 곧 운영 비용 절감과 더불어 더 많은 AI 서버를 밀집 배치하는 결과를 낳는다.
Arm이 IP 라이선스 모델을 넘어 직접 실리콘 시장에 뛰어든 것은 에이전트 AI 시대의 주도권을 확보하려는 전략이다. 이는 고객에게 더 넓은 선택지를 제공한다. Arm 기반 컴퓨팅의 배포 속도와 규모를 가속화한다. 전력 효율성 측면에서 DC 전환은 AI 시대 데이터센터의 필수적인 진화 경로다. 엔비디아와 같은 하드웨어 선두 주자들이 800V DC 시스템을 채택하는 것은 업계 표준을 제시한다. 결과적으로 높은 전력 효율과 확장성을 제공하는 기업은 시장의 승자가 된다. 구시대적인 전력 인프라에 갇히는 기업은 경쟁에서 뒤처진다.
제한된 자원 위에서 피어나는 AI의 지능
Hypura라는 새로운 LLM 추론 스케줄러가 등장했다. 이 도구는 애플 실리콘(Apple Silicon) 맥에서 물리적 메모리를 초과하는 대규모 언어 모델(LLM)을 실행한다. 구체적으로, 32GB 램을 가진 맥 미니에서 31GB Mixtral 8x7B 모델을 초당 2.2토큰으로 구동한다. 40GB Llama 70B 모델도 초당 0.3토큰으로 실행한다. 일반적인 llama.cpp로는 이 모델들을 실행하다가 시스템 충돌이 발생한다. 또한, 구글의 Gemini Embedding 2는 이제 원본 비디오를 텍스트와 함께 768차원 벡터 공간에 직접 임베딩한다. 이를 활용해 "초록색 차가 나를 가로막는" 같은 자연어 질의로 수 시간 분량의 비디오 푸티지에서 특정 클립을 1초 미만으로 검색하는 기능이 구현되었다. 이 비디오 인덱싱 비용은 시간당 약 2.50달러다.
소비자용 하드웨어, 특히 애플 맥북 프로나 맥 스튜디오는 빠른 통합 메모리와 NVMe 스토리지를 갖추고 있으나 용량은 제한적이다. Hypura는 이러한 한계를 극복하기 위해 모델 아키텍처를 깊이 이해한다. 노름(Norms)과 임베딩(embeddings)은 작지만 매 토큰마다 접근하므로 GPU에 고정한다. 전문가 혼합(MoE) 모델의 스파스한 특성을 이용, 필요한 전문가 가중치만 NVMe에서 로드한다. 이 과정에서 뉴런 캐시(neuron cache)와 선제적 프리페치(speculative prefetch)를 통해 I/O를 75% 절감하고 99.5%의 캐시 적중률을 달성한다. Gemini의 혁신은 비디오 처리의 패러다임을 바꾼다. 기존에는 비디오를 텍스트로 전사하거나 프레임을 캡션으로 만드는 복잡한 중간 과정이 필요했다. 하지만 Gemini Embedding 2는 이 모든 단계를 건너뛰고 '로우 비디오(raw video)' 자체를 벡터화하여 텍스트와 동등하게 비교한다. 이는 AI 모델 자체의 고도화와 효율적인 데이터 표현 방식 덕분이다.
Hypura 같은 소프트웨어는 대규모 AI 모델을 일반 소비자 기기에서 구동하는 문을 활짝 연다. 이는 강력한 개인화된 에이전트 AI의 대중화를 앞당긴다. 이제 값비싼 GPU 서버 없이도 사용자의 로컬 기기에서 복잡한 AI 작업을 처리하는 '에지 AI(Edge AI)' 시대가 가속화된다. Gemini의 발전은 비디오 콘텐츠 분석과 검색의 비용과 복잡성을 혁신적으로 줄인다. 보안 카메라나 센트리 모드 푸티지 분석처럼 특정 비디오 장면을 빠르게 찾아내는 작업은 이제 더 이상 전문가의 영역이 아니다. 결국, 제한된 자원으로 강력한 AI를 구동하는 기술을 개발하는 기업과 개인은 새로운 시장을 개척하며 승자가 된다. 반면, 단순히 하드웨어 스펙 경쟁에만 의존하거나 소프트웨어 최적화에 소홀한 기업은 빠르게 뒤처진다.
AI 시대의 진정한 힘은 고성능 하드웨어뿐만 아니라, 그 하드웨어의 잠재력을 최대한 끌어내는 정교한 소프트웨어 최적화에서 발현된다. 이 두 축의 발전이 맞물려 인류는 과거 상상에 불과했던 AI의 지능을 더 가까이, 더 효율적으로 활용하는 시대로 나아간다.
참고
- Arm AGI CPU — Arm이 35년 만에 자체 실리콘을 선보이며 에이전트 AI 클라우드 시대를 선언한 기사.
- Edison’s Revenge, Data Centers Are Transitioning From AC to DC — 데이터센터가 AC에서 DC 전력 공급으로 전환하는 배경과 이유를 설명하는 기사.
- Hypura — 애플 실리콘에서 물리적 메모리를 초과하는 LLM을 실행하는 추론 스케줄러 GitHub 프로젝트.
- Show HN: Gemini can now natively embed video, so I built sub-second video search — Gemini Embedding 2를 활용한 비디오 검색 도구 GitHub 프로젝트.