AI News

AI 인프라의 새로운 시대: Inferact, vLLM 상용화를 위해 $150 Million 확보

인공지능 인프라스트럭처 분야의 결정적인 순간에, 널리 채택된 오픈소스 추론 엔진 vLLM의 창시자들이 설립한 스타트업 Inferact가 공식적으로 스텔스 상태를 벗어나 대규모 $150 Million 시드 라운드(seed round) 를 확보했습니다. 이번 라운드는 신생 기업의 기업 가치를 인상적인 $800 Million 으로 평가했으며, 벤처 캐피털 거물 Andreessen Horowitz (a16z)Lightspeed Venture Partners 가 공동 리드했습니다.

이번 자금 조달은 실리콘밸리 역사상 가장 큰 시드 라운드 중 하나를 의미하며, 투자자들의 관심이 모델 훈련에서 모델 서빙(model serving)으로 결정적으로 이동하고 있음을 시사합니다. 생성형 AI(Generative AI)가 실험실 연구 단계에서 대규모 프로덕션으로 옮겨가면서 업계는 새로운 병목 현상에 직면했습니다: 바로 추론(inference)의 과도한 비용과 높은 지연(latency)입니다. Inferact는 vLLM의 보급성을 활용해 기업용 "범용 추론 레이어(universal inference layer)" 를 구축함으로써 전 세계적으로 AI 모델 배포 방식을 표준화하려 합니다.

이번 초과 신청된 라운드에는 a16z와 Lightspeed 외에도 Sequoia Capital, Altimeter Capital, Redpoint Ventures, ZhenFund 가 참여해 추론 레이어의 전략적 중요성을 강조하는 후원 연합을 형성했습니다.

vLLM 현상: 버클리 연구실에서 업계 표준까지

이 자금 조달의 규모를 이해하려면 Inferact를 지탱하는 기술을 살펴봐야 합니다. vLLM(Versatile Large Language Model)은 UC Berkeley의 연구 프로젝트로 시작되었으며, Simon Mo, Woosuk Kwon, Kaichao You, Roger Wang 등을 포함한 팀이 개발했습니다. 이들의 목표는 대형 언어 모델(LLM)이 텍스트 생성 중 메모리를 관리하는 방식에서 발생하는 치명적인 비효율성을 해결하는 것이었습니다.

돌파구는 운영체제의 가상 메모리 페이징에서 영감을 받은 알고리즘 PagedAttention의 형태로 나타났습니다. 전통적인 어텐션 메커니즘은 메모리 단편화로 인해 고성능 GPU 자원이 낭비되는 문제가 있으며, 이는 H100 GPU가 희소하고 비싼 시대에 중대한 문제였습니다. PagedAttention은 vLLM이 어텐션 키와 값을 비연속 메모리 블록에 관리할 수 있게 하여 처리량을 대폭 향상시킵니다.

오픈소스 공개 이후, vLLM은 Kubernetes나 Docker 초창기를 연상시키는 바이럴한 채택 지표를 달성했습니다:

  • 전 세계적으로 400,000+ GPUs 가 동시에 vLLM을 실행하는 것으로 추정됩니다.
  • 2,000명 이상의 기여자가 GitHub에서 프로젝트에 참여했습니다.
  • Meta, Google, Character.ai 등 주요 기술 기업들이 채택했습니다.

Inferact는 이 오픈소스 현상을 관리하는 역할을 맡으면서 기업들이 미션 크리티컬 애플리케이션에 신뢰하고 사용할 수 있는 상용 플랫폼을 구축해야 하는 과제를 안고 있습니다.

자금 조달 한눈에 보기

다음 표는 Inferact의 역사적인 시드 라운드의 주요 세부 정보를 요약합니다.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

훈련에서 서빙으로의 전환

Inferact의 출시는 AI 경제에서의 근본적 전환과 맞물려 있습니다. 지난 2년간 자본 지출은 훈련(training) 에 집중되어 왔으며—GPT-4, Claude, Llama 3 같은 파운데이션 모델을 만들기 위해 거대한 클러스터를 구축하는 데 투입되었습니다. 그러나 이러한 모델들이 제품에 배포되면서 비용 구조는 크게 추론(inference) 쪽으로 기울게 됩니다.

업계 분석가들은 이를 "처리량 시대(Throughput Era)" 라고 명명했으며, 성공의 주요 지표는 더 이상 단순히 모델 품질만이 아니라 달러당 초당 토큰(tokens per second per dollar) 이 되었습니다. 수백만 사용자에게 Llama-3-70B 같은 모델을 대규모로 운영하려면 엄청난 연산 능력이 필요합니다. 비효율적인 소프트웨어 스택은 지연 시간 급증과 클라우드 비용 폭등을 초래해 AI 애플리케이션의 단위 경제성(unit economics)을 무너뜨립니다.

Andreessen Horowitz 파트너들은 투자 논문에서 "소프트웨어가 하드웨어보다 더 중요해지고 있다"고 언급했습니다. 기저 소프트웨어 스택이 GPU를 단지 30%만 활용한다면 단순히 NVIDIA H100을 더 많이 사는 것은 더 이상 실행 가능한 전략이 아닙니다. Inferact의 가치 제안은 고급 소프트웨어 최적화를 통해 남은 70%의 연산 잠재력을 해방시키는 것으로, 하드웨어 투자에 대한 효과를 배가시키는 역할을 합니다.

오픈소스 상용화: "Red Hat" 전략

Inferact는 Databricks(Spark), Confluent(Kafka), HashiCorp(Terraform) 같은 성공적인 상용 오픈소스 기업(COSS)의 잘 닦인 길을 따릅니다. 회사는 번성하는 무료 커뮤니티를 지원하면서 유료 고객을 위한 독점적 가치를 창출하는 고전적인 이중 과제에 직면해 있습니다.

CEO Simon Mo에 따르면 Inferact의 상용 전략은 엔터프라이즈급 신뢰성 및 확장성에 초점을 맞추고 있습니다. 오픈소스 vLLM 엔진이 원시 엔진 파워를 제공하는 반면, 엔터프라이즈는 다음을 요구합니다:

  • Managed Infrastructure: 자동화된 스케일링, 멀티 노드 오케스트레이션, 장애 복구
  • Security & Compliance: SOC2 준수, 프라이빗 클라우드 배포, 안전한 모델 처리
  • Optimized Kernels: 일반 오픈소스 지원을 넘어 특정 하드웨어 구성에 대한 독점 최적화
  • SLA Guarantees: 핵심 애플리케이션을 위한 보장된 처리량과 지연 시간

이러한 "오픈 코어(Open Core)" 모델은 Inferact가 vLLM을 업계 표준인 "추론의 리눅스(Linux of Inference)"로 유지하는 동시에—NVIDIA, AMD, Intel 칩에서도 운영되도록 하면서—다운타임이나 관리되지 않은 복잡성을 감당할 수 없는 대형 조직으로부터 가치를 창출할 수 있게 합니다.

기술적 심층 분석: 왜 PagedAttention이 중요한가

vLLM의 우위와 확장적인 Inferact의 가치 평가 뒤에 있는 비밀은 PagedAttention 입니다. 표준 LLM 서빙에서는 키-값(KV) 캐시가—지금까지의 대화 내용을 모델이 기억하는 메모리—동적으로 증가합니다. 전통적인 시스템은 이 성장을 처리하기 위해 연속된 메모리 블록을 미리 할당해야 하며, 이는 심각한 단편화를 초래합니다. 이는 마치 만약 손님이 99명의 친구를 데려올지도 모르니 100석짜리 버스를 매번 예약하는 것과 같습니다.

PagedAttention은 KV 캐시를 더 작은 블록으로 나눠 비연속 메모리 공간에 저장할 수 있게 함으로써 이를 해결합니다. vLLM 엔진은 운영체제가 RAM을 관리하듯 이러한 블록을 추적하는 "페이지 테이블"을 유지합니다.

주요 기술적 이점:

  • Zero Waste: 단편화로 인한 메모리 낭비를 거의 0% 수준(<4%)으로 감축
  • Higher Batch Sizes: 메모리 사용 효율이 높아져 더 많은 요청을 배치 처리 가능
  • Throughput Gains: 벤치마크에서 vLLM은 표준 HuggingFace Transformers보다 지연 시간을 희생하지 않고도 2x에서 4x까지 더 높은 처리량을 일관되게 제공합니다

연간 추론 컴퓨팅에 $10 Million을 지출하는 회사의 경우, vLLM을 도입하면 단순한 소프트웨어 활용 개선만으로 비용을 이론적으로 $2.5-$5 Million으로 줄일 수 있습니다. 이런 직접적인 ROI가 Inferact를 투자자와 고객 모두에게 매력적인 제안으로 만드는 이유입니다.

AI 생태계에 대한 전략적 함의

$150 Million의 자금 지원으로 등장한 Inferact는 AI 생태계에 파문을 일으킵니다.

  1. 클라우드 제공업체에 대한 압박: 주요 클라우드 제공업체(AWS, Azure, Google Cloud)와 모델 API 제공업체(Anyscale, Together AI, Fireworks)들은 종종 자체 추론 스택을 구축합니다. Inferact는 기업들이 어떤 클라우드에서도 자체 추론 스택을 소유할 수 있게 해주는 벤더 중립적 대안을 제공합니다.
  2. 표준화: 추론 엔진의 단편화(TensorRT-LLM, TGI, vLLM)는 개발자들에게 골칫거리였습니다. Inferact의 자본화는 vLLM이 사실상의 표준 API가 되어 개발자 경험을 단순화할 수 있음을 시사합니다.
  3. "소프트웨어 세(Software Tax)" : 하드웨어가 상품화되면 가치 포착은 이를 오케스트레이션하는 소프트웨어 계층으로 이동합니다. Inferact는 LLM을 위한 "운영체제"가 칩만큼이나 가치 있을 것이라고 베팅하고 있습니다.

향후 전망

$150 Million의 신규 자본을 바탕으로 Inferact는 엔지니어링 팀을 공격적으로 확장할 계획이며, 특히 커널 해커(kernel hackers)와 분산 시스템 전문가(distributed systems experts)를 집중적으로 채용할 예정입니다. 또한 회사는 새로운 하드웨어 아키텍처에 대한 지원을 심화하여 vLLM이 현재 NVIDIA가 지배하는 시장에서 가장 다재다능한 엔진으로 남도록 할 계획입니다.

AI 산업이 성숙함에 따라, 인프라의 "지루한" 계층—서빙, 스케일링, 최적화—이 가장 수익성이 높은 분야가 되고 있습니다. Inferact는 단순히 소프트웨어를 판매하는 것이 아니라 AI 골드러시의 다음 단계인 배포(deployment)를 위한 도구를 제공하고 있습니다.

비용이나 지연 문제로 생성형 AI(Generative AI) 파일럿을 프로덕션으로 전환하는 데 어려움을 겪는 엔터프라이즈에게 Inferact는 구명줄을 제공합니다. 오픈소스 커뮤니티에는 이번 자금이 vLLM의 지속적인 개발을 약속하며, vLLM이 견고하고 최첨단으로 유지되도록 보장합니다. 추론 레이어를 장악하기 위한 경쟁이 공식적으로 시작되었으며, Inferact는 초기이면서도 결정적인 우위를 점했습니다.

추천
AdsCreator.com
어떤 웹사이트 URL에서든 Meta, Google 및 Stories용 브랜드 일치형 고급 광고 크리에이티브를 즉시 생성합니다.
VoxDeck
시각 혁명을 선도하는 AI 프레젠테이션 제작기
Refly.ai
Refly.AI는 비기술 창작자가 자연어와 시각적 캔버스를 사용해 워크플로를 자동화할 수 있도록 지원합니다.
BGRemover
SharkFoto BGRemover를 사용하여 온라인에서 이미지 배경을 쉽게 제거하세요.
Skywork.ai
Skywork AI는 AI를 사용하여 생산성을 향상시키기 위한 혁신적인 도구입니다.
Qoder
Qoder는 소프트웨어 프로젝트의 계획, 코딩 및 테스트를 자동화하는 AI 기반 코딩 어시스턴트입니다.
Flowith
Flowith는 무료 🍌Nano Banana Pro 및 기타 효과적인 모델을 제공하는 캔버스 기반 에이전트 워크스페이스입니다...
FixArt AI
FixArt AI는 가입 없이 이미지 및 동영상 생성을 위한 무료·무제한 AI 도구를 제공합니다.
FineVoice
텍스트를 감정으로 바꾸세요 — 몇 초 만에 표현력 있는 AI 보이스를 복제하고 디자인하며 생성하세요.
Elser AI
텍스트와 이미지를 애니메 스타일 아트, 캐릭터, 음성 및 단편 영화로 변환하는 올인원 웹 스튜디오입니다.
Pippit
Pippit의 강력한 AI 도구로 콘텐츠 제작을 향상시키세요!
SharkFoto
SharkFoto는 영상, 이미지, 음악을 효율적으로 제작 및 편집할 수 있는 올인원 AI 기반 플랫폼입니다.
Funy AI
상상을 영상으로! 이미지나 텍스트로 AI 비키니, 키스 영상을 만드세요. AI 옷 체인저 기능도 체험해보세요. 가입 없이 무료!
KiloClaw
호스티드 OpenClaw 에이전트: 원클릭 배포, 500개 이상의 모델, 보안 인프라 및 팀과 개발자를 위한 자동화된 에이전트 관리.
Diagrimo
Diagrimo는 텍스트를 즉시 맞춤형 AI 생성 다이어그램 및 시각 자료로 변환합니다.
SuperMaker AI Video Generator
SuperMaker와 함께 멋진 동영상, 음악 및 이미지를 손쉽게 만들 수 있습니다.
AI Clothes Changer by SharkFoto
SharkFoto의 AI Clothes Changer는 사실적인 핏, 질감 및 조명으로 의상을 즉시 가상으로 착용해볼 수 있게 해줍니다.
Yollo AI
AI 파트너와 대화하고 창작하세요. 이미지 투 비디오(Img2Vid), AI 이미지 생성 기능.
AnimeShorts
최첨단 AI 기술로 놀라운 애니메이션 짧은 영상을 쉽게 만드세요.
Image to Video AI without Login
사진을 즉시 부드럽고 고품질 애니메이션 비디오로 변환하는 무료 이미지→비디오 AI 도구로 워터마크가 없습니다.
InstantChapters
Instant Chapters로 책의 매력적인 장을 즉시 생성하세요.
Anijam AI
Anijam은 아이디어를 에이전트형 비디오 제작을 통해 세련된 스토리로 바꾸는 AI 네이티브 애니메이션 플랫폼입니다.
Claude API
Claude API for Everyone
wan 2.7-image
정확한 얼굴, 팔레트, 텍스트, 시각적 연속성을 위한 제어 가능한 AI 이미지 생성기입니다.
happy horse AI
텍스트나 이미지로부터 동기화된 비디오와 오디오를 생성하는 오픈소스 AI 비디오 생성기입니다.
NerdyTips
전 세계 리그의 경기 팁을 데이터 기반으로 제공하는 AI 축구 예측 플랫폼입니다.
WhatsApp AI Sales
WABot은 실시간 스크립트, 번역 및 의도 감지를 제공하는 WhatsApp AI 영업 코파일럿입니다.
HappyHorseAIStudio
텍스트, 이미지, 참고자료, 비디오 편집을 위한 브라우저 기반 AI 비디오 생성기.
AI Video API: Seedance 2.0 Here
하나의 키로 최상위 생성 모델을 더 낮은 비용으로 제공하는 통합 AI 비디오 API입니다.
insmelo AI Music Generator
프롬프트, 가사 또는 업로드된 파일을 약 1분 내에 다듬어진 로열티 프리 곡으로 바꿔주는 AI 기반 음악 생성기입니다.
BeatMV
노래를 영화 같은 뮤직비디오로 바꾸고 AI로 음악을 만드는 웹 기반 AI 플랫폼입니다.
UNI-1 AI
UNI-1은 시각적 추론과 고충실도 이미지 합성을 결합한 통합 이미지 생성 모델입니다.
Kirkify
Kirkify AI는 밈 제작자를 위해 시그니처 네온 글리치 미학을 적용한 얼굴 교체 바이럴 밈을 즉시 생성합니다.
Wan 2.7
전문가 수준의 AI 비디오 모델로 정밀한 모션 제어와 다중 뷰 일관성을 제공합니다.
Text to Music
텍스트나 가사를 AI가 생성한 보컬, 악기 및 멀티트랙 내보내기와 함께 전체 스튜디오 품질의 곡으로 변환하세요.
Iara Chat
Iara Chat: AI 기반의 생산성과 커뮤니케이션 도우미.
kinovi - Seedance 2.0 - Real Man AI Video
사실적인 사람 결과물을 제공하는 무료 AI 영상 생성기, 워터마크 없음, 전체 상업적 사용 권한 포함.
Tome AI PPT
AI 기반 프레젠테이션 제작기: 몇 분 만에 전문적인 슬라이드 데크를 생성, 미화 및 내보냅니다.
Video Sora 2
Sora 2 AI는 텍스트나 이미지를 몇 분 안에 짧고 물리학적으로 정확한 소셜 및 전자상거래용 비디오로 변환합니다.
Lyria3 AI
텍스트 프롬프트, 가사, 스타일로부터 고품질의 완전 제작된 곡을 즉시 생성하는 AI 음악 생성기.
Atoms
AI 기반 플랫폼으로 다중 에이전트 자동화를 사용해 코드 없이 몇 분 만에 풀스택 앱과 웹사이트를 구축합니다.
Paper Banana
AI 기반 도구로 학술 텍스트를 즉시 게시용 방법도와 정밀한 통계 플롯으로 변환합니다.
AI Pet Video Generator
AI 기반 템플릿과 즉시 HD 내보내기를 사용하여 사진으로부터 소셜 플랫폼용 바이럴하고 공유 가능한 반려동물 영상을 만듭니다.
Ampere.SH
무료 관리형 OpenClaw 호스팅. $500 Claude 크레딧으로 60초 내에 AI 에이전트를 배포하세요.
Palix AI
크리에이터를 위한 올인원 AI 플랫폼으로, 통합 크레딧으로 이미지, 동영상 및 음악을 생성합니다.
Hitem3D
Hitem3D는 단일 이미지를 AI로 고해상도 제작-ready 3D 모델로 변환합니다.
GenPPT.AI
AI 기반 PPT 제작 도구로, 몇 분 안에 발표자 노트와 차트가 포함된 전문적인 PowerPoint 프레젠테이션을 생성, 미화 및 내보낼 수 있습니다.
HookTide
사용자의 목소리를 학습해 콘텐츠를 만들고 참여를 유도하며 성과를 분석하는 AI 기반 LinkedIn 성장 플랫폼입니다.
Create WhatsApp Link
분석, 브랜드 링크, 라우팅 및 다중 에이전트 채팅 기능을 갖춘 무료 WhatsApp 링크 및 QR 생성기.
Seedance 20 Video
Seedance 2는 일관된 캐릭터, 멀티샷 스토리텔링 및 2K 네이티브 오디오를 제공하는 멀티모달 AI 비디오 생성기입니다.
Gobii
Gobii는 팀이 24/7 자율 디지털 워커를 생성하여 웹 조사 및 일상 업무를 자동화할 수 있게 합니다.
Free AI Video Maker & Generator
무료 AI 비디오 메이커 & 생성기 – 무제한, 가입 필요 없음
Veemo - AI Video Generator
Veemo AI는 텍스트나 이미지로부터 고품질의 비디오와 이미지를 빠르게 생성하는 올인원 플랫폼입니다.
AI FIRST
자연어를 통해 연구, 브라우저 작업, 웹 스크래핑 및 파일 관리를 자동화하는 대화형 AI 어시스턴트입니다.
GLM Image
GLM Image는 자기회귀(autoregressive) 모델과 확산(diffusion) 모델을 결합한 하이브리드 방식을 통해 뛰어난 텍스트 렌더링을 갖춘 고충실도 AI 이미지를 생성합니다.
ainanobanana2
Nano Banana 2는 정밀한 텍스트 렌더링과 피사체 일관성을 유지하면서 4–6초 내에 프로 품질의 4K 이미지를 생성합니다.
WhatsApp Warmup Tool
AI 기반 WhatsApp 워밍업 도구는 계정 차단을 방지하면서 대량 메시지 전송을 자동화합니다.
TextToHuman
AI 텍스트를 즉시 자연스럽고 인간다운 글로 재작성하는 무료 AI 휴머니라이저. 가입 필요 없음.
Manga Translator AI
AI Manga Translator는 만화 이미지를 온라인에서 즉시 여러 언어로 번역합니다.
Remy - Newsletter Summarizer
Remy는 이메일을 이해하기 쉬운 인사이트로 요약하여 뉴스레터 관리를 자동화합니다.

vLLM을 상업화하는 Inferact, AI 추론을 강화하기 위해 1억5천만 달러 조달

인기 오픈소스 추론 엔진 vLLM을 상업화하는 스타트업 Inferact가 Andreessen Horowitz와 Lightspeed가 주도한 1억5천만 달러 규모의 시드 라운드를 유치하여 AI 애플리케이션 배포를 가속화합니다.