AI News

Uma Nova Era para a Infraestrutura de IA: Inferact garante $150 Million para comercializar vLLM

Em um momento definidor para o panorama da infraestrutura de inteligência artificial, Inferact, a startup fundada pelos criadores do amplamente adotado motor de inferência open-source vLLM, saiu oficialmente do modo stealth com uma maciça rodada Seed de $150 million (Seed round). A rodada, que avalia a empresa nascente em impressionantes $800 million, foi co-liderada pelos titãs de capital de risco Andreessen Horowitz (a16z) e Lightspeed Venture Partners.

Esse financiamento representa uma das maiores rodadas seed da história do Vale do Silício, sinalizando uma mudança decisiva no foco dos investidores do treinamento de modelos para o serving (implantação) de modelos. À medida que a Inteligência Artificial Generativa (Generative AI) passa de laboratórios de pesquisa experimentais para produção em grande escala, a indústria enfrenta um novo gargalo: o custo exorbitante e a latência da inferência. A Inferact pretende resolver isso construindo a "camada universal de inferência" para empresas, aproveitando a ubiquidade do vLLM para padronizar como modelos de IA são implantados ao redor do globo.

Juntando-se a a16z e Lightspeed nesta rodada superinscrita estão Sequoia Capital, Altimeter Capital, Redpoint Ventures, e ZhenFund, criando uma coalizão de investidores que sublinha a importância estratégica da camada de inferência.

O Fenômeno vLLM: Do Laboratório de Berkeley ao Padrão da Indústria

Para entender a magnitude desse financiamento, é preciso olhar para a tecnologia que sustenta a Inferact. vLLM (Versatile Large Language Model) começou como um projeto de pesquisa na UC Berkeley, desenvolvido por uma equipe que inclui Simon Mo, Woosuk Kwon, Kaichao You, e Roger Wang. O objetivo deles era resolver uma ineficiência crítica em como os Large Language Models (LLMs) gerenciam memória durante a geração de texto.

O avanço veio na forma do PagedAttention, um algoritmo inspirado no paging de memória virtual em sistemas operacionais. Mecanismos de atenção tradicionais lutam com fragmentação de memória, levando ao desperdício de recursos de GPU — um pecado capital em uma era em que GPUs H100 são escassas e caras. O PagedAttention permite que o vLLM gerencie chaves e valores de atenção em blocos de memória não contíguos, aumentando drasticamente a taxa de transferência.

Desde seu lançamento open-source, o vLLM alcançou métricas de adoção viral que rivalizam com os primeiros dias do Kubernetes ou do Docker:

  • 400,000+ GPUs estima-se que estejam executando vLLM simultaneamente em todo o mundo.
  • Mais de 2,000 contribuidores se envolveram com o projeto no GitHub.
  • Adoção por grandes players de tecnologia, incluindo Meta, Google, e Character.ai.

A Inferact agora tem a responsabilidade de zelar por esse fenômeno open-source enquanto constrói uma plataforma comercial na qual empresas possam confiar para aplicações críticas.

Funding at a Glance

The following table outlines the key details of Inferact's historic seed round.

Metric Details Context
Round Size $150 Million One of the largest seed rounds in AI history
Valuation $800 Million Reflects high demand for inference optimization
Lead Investors Andreessen Horowitz (a16z), Lightspeed Leading top-tier deep tech firms
Key Participants Sequoia, Altimeter, Redpoint, ZhenFund Broad ecosystem support
Core Technology vLLM, PagedAttention High-throughput inference engine
Leadership Simon Mo, Woosuk Kwon, et al. Original creators of vLLM

---|---|---|

A Mudança do Treinamento para o Serving

O lançamento da Inferact coincide com uma transição fundamental na economia da IA. Nos últimos dois anos, os gastos de capital foram dominados pelo treinamento — construir clusters massivos para criar modelos de base como GPT-4, Claude e Llama 3. No entanto, à medida que esses modelos são implantados em produtos, o perfil de custos muda fortemente em direção à inferência.

Analistas da indústria apelidaram isso de Era do Throughput (Throughput Era), onde a métrica principal de sucesso não é mais apenas a qualidade do modelo, mas tokens por segundo por dólar. Rodar um modelo como Llama-3-70B em escala para milhões de usuários requer imensa potência computacional. Pilhas de software ineficientes podem resultar em picos de latência e contas de nuvem astronômicas, efetivamente destruindo a economia unitária de aplicações de IA.

Parceiros da Andreessen Horowitz observaram em sua tese de investimento que "software está se tornando mais crítico do que hardware." Simplesmente comprar mais NVIDIA H100s já não é uma estratégia viável se a pilha de software subjacente as utiliza a apenas 30% de eficiência. A proposta de valor da Inferact é desbloquear os 70% restantes do potencial computacional por meio de otimizações avançadas de software, atuando efetivamente como um multiplicador de força para investimentos em hardware.

Comercializando o Open Source: A Estratégia "Open Core"

A Inferact segue um caminho bem trilhado de empresas comerciais baseadas em open-source bem-sucedidas (COSS) como Databricks (Spark), Confluent (Kafka) e HashiCorp (Terraform). A empresa enfrenta o desafio clássico duplo: suportar uma comunidade gratuita próspera enquanto constrói valor proprietário para clientes pagantes.

Segundo o CEO Simon Mo, a estratégia comercial da Inferact foca em confiabilidade e escalabilidade em nível empresarial. Enquanto o motor open-source vLLM fornece a potência bruta do motor, as empresas exigem:

  • Infraestrutura Gerenciada: escalonamento automatizado, orquestração multi-nó e recuperação de falhas.
  • Segurança & Conformidade: conformidade SOC2, implantações em nuvem privada e manuseio seguro de modelos.
  • Kernels Otimizados: otimizações proprietárias para configurações de hardware específicas além do suporte geral open-source.
  • Garantias de SLA: vazão e latência asseguradas para aplicações críticas.

Esse modelo "Open Core" (Open Core) permite à Inferact manter o vLLM como o padrão da indústria — o "Linux da Inferência" (Linux of Inference) — executando em chips NVIDIA, AMD e Intel igualmente, enquanto captura valor de grandes organizações que não podem arcar com downtime ou complexidade não gerenciada.

Mergulho Técnico: Por que o PagedAttention Importa

A receita secreta por trás do domínio do vLLM, e por extensão da avaliação da Inferact, é o PagedAttention. No serving padrão de LLMs, o cache Key-Value (KV) — que armazena a memória da conversa até o momento — cresce dinamicamente. Sistemas tradicionais precisam pré-alocar blocos de memória contíguos para lidar com esse crescimento, levando a uma fragmentação severa. É como reservar um ônibus de 100 lugares para cada passageiro, caso ele traga 99 amigos.

O PagedAttention resolve isso quebrando o cache KV em blocos menores que podem ser armazenados em espaços de memória não contíguos. O motor vLLM mantém uma "tabela de páginas" para rastrear esses blocos, assim como um sistema operacional gerencia a RAM.

Benefícios Técnicos Chave:

  • Desperdício Zero: O desperdício de memória devido à fragmentação é reduzido a quase zero (<4%).
  • Tamanhos de Batch Maiores: Como a memória é usada de forma mais eficiente, o motor pode agrupar mais requisições.
  • Ganho de Throughput: Em benchmarks, o vLLM entrega consistentemente 2x a 4x maior throughput do que Transformers padrão do HuggingFace, sem comprometer a latência.

Para uma empresa que gasta $10 million anualmente em compute de inferência, implementar vLLM pode, teoricamente, reduzir essa conta para $2.5-$5 million simplesmente por melhor utilização de software. Esse ROI direto é o que torna a Inferact uma proposta tão atraente para investidores e clientes.

Implicações Estratégicas para o Ecossistema de IA

A chegada da Inferact com um caixa de guerra de $150 million envia ondas pelo ecossistema de IA.

  1. Pressão sobre Provedores de Nuvem: Grandes provedores de nuvem (AWS, Azure, Google Cloud) e provedores de API de modelos (Anyscale, Together AI, Fireworks) frequentemente constroem suas próprias pilhas de inferência. A Inferact oferece uma alternativa vendor-neutral que permite às empresas possuírem sua pilha de inferência em qualquer nuvem.
  2. Padronização: A fragmentação de motores de inferência (TensorRT-LLM, TGI, vLLM) tem sido uma dor de cabeça para desenvolvedores. A capitalização da Inferact sugere que o vLLM está posicionado para se tornar a API de fato padrão, simplificando a experiência do desenvolvedor.
  3. A "Taxa do Software": À medida que o hardware se torna comoditizado, a captura de valor migra para a camada de software que o orquestra. A Inferact aposta que o "sistema operacional" para LLMs será tão valioso quanto os chips em que eles rodam.

Olhando para a Frente

Com $150 million em capital fresco, a Inferact planeja expandir agressivamente sua equipe de engenharia, especificamente mirando hackers de kernel e especialistas em sistemas distribuídos. A empresa também visa aprofundar seu suporte para arquiteturas de hardware emergentes, garantindo que o vLLM permaneça o motor mais versátil em um mercado atualmente dominado pela NVIDIA.

À medida que a indústria de IA amadurece, a camada "chata" de infraestrutura — servir, escalar e otimizar — está se tornando a mais lucrativa. A Inferact não está apenas vendendo software; eles estão vendendo as picaretas para a próxima fase da corrida do ouro da IA: implantação.

Para empresas que lutam para transformar seus pilotos de Inteligência Artificial Generativa em produção devido a custos ou preocupações com latência, a Inferact oferece um salva-vidas. Para a comunidade open-source, o financiamento promete desenvolvimento sustentado do vLLM, garantindo que ele permaneça robusto e de ponta. A corrida para possuir a camada de inferência começou oficialmente, e a Inferact tomou uma liderança inicial e dominante.

Em Destaque
AdsCreator.com
Gere instantaneamente criativos de anúncio polidos e alinhados à marca a partir de qualquer URL de website para Meta, Google e Stories.
VoxDeck
Criador de apresentações com IA que lidera a revolução visual
BGRemover
Remova facilmente os fundos de imagens online com o SharkFoto BGRemover.
Refly.ai
Refly.AI capacita criadores não técnicos a automatizar fluxos de trabalho usando linguagem natural e uma tela visual.
FineVoice
Transforme texto em emoção — Clone, desenhe e crie vozes de IA expressivas em segundos.
Flowith
Flowith é um espaço de trabalho agêntico baseado em canvas que oferece gratuitamente 🍌Nano Banana Pro e outros modelos e
Qoder
Qoder é um assistente de codificação com IA que automatiza planejamento, codificação e testes para projetos de software.
Skywork.ai
Skywork AI é uma ferramenta inovadora para aumentar a produtividade usando IA.
FixArt AI
FixArt AI oferece ferramentas de IA gratuitas e sem restrições para geração de imagens e vídeos sem necessidade de cadastro.
Elser AI
Estúdio web tudo‑em‑um que transforma texto e imagens em arte estilo anime, personagens, vozes e curtas‑metragem.
Pippit
Eleve sua criação de conteúdo com as poderosas ferramentas de IA da Pippit!
SharkFoto
SharkFoto é uma plataforma tudo-em-um com IA para criar e editar vídeos, imagens e música de forma eficiente.
Funy AI
Anime suas fantasias! Crie vídeos de beijos e biquínis com IA a partir de imagens ou texto. Experimente o trocador de ro
KiloClaw
Agente OpenClaw hospedado: implantação com um clique, mais de 500 modelos, infraestrutura segura e gerenciamento automatizado de agentes para equipes e desenvolvedores.
Diagrimo
Diagrimo transforma texto instantaneamente em diagramas e visuais gerados por IA personalizados.
SuperMaker AI Video Generator
Crie vídeos, músicas e imagens incríveis sem esforço com o SuperMaker.
AI Clothes Changer by SharkFoto
AI Clothes Changer da SharkFoto permite que você experimente roupas virtualmente e instantaneamente, com caimento, textura e iluminação realistas.
Yollo AI
Converse e crie com seu parceiro de IA. Vídeo a partir de imagem, gerador de imagens IA.
AnimeShorts
Crie animações impressionantes de anime sem esforço com tecnologia de IA de última geração.
Image to Video AI without Login
Ferramenta gratuita de IA de Imagem para Vídeo que transforma fotos instantaneamente em vídeos animados suaves e de alta qualidade sem marcas d'água.
InstantChapters
Gere capítulos de livros envolventes instantaneamente com o Instant Chapters.
Anijam AI
Anijam é uma plataforma de animação nativa de IA que transforma ideias em histórias refinadas com criação de vídeo agentiva.
Claude API
Claude API for Everyone
wan 2.7-image
Um gerador de imagens de IA controlável para rostos precisos, paletas, texto e continuidade visual.
AI Video API: Seedance 2.0 Here
API unificada de vídeo com IA que oferece modelos de última geração por uma única chave e a menor custo.
happy horse AI
Gerador de vídeo de IA de código aberto que cria vídeo e áudio sincronizados a partir de texto ou imagens.
NerdyTips
Uma plataforma de previsões de futebol com IA que entrega dicas de jogos baseadas em dados em ligas globais.
HappyHorseAIStudio
Gerador de vídeo com IA baseado no navegador para texto, imagens, referências e edição de vídeo.
WhatsApp AI Sales
WABot é um copiloto de vendas com IA para WhatsApp que fornece scripts em tempo real, traduções e detecção de intenção.
insmelo AI Music Generator
Gerador de música movido por IA que transforma prompts, letras ou uploads em canções polidas e livres de royalties em cerca de um minuto.
BeatMV
Plataforma de IA baseada na web que transforma músicas em videoclipes cinematográficos e cria música com IA.
UNI-1 AI
UNI-1 é um modelo unificado de geração de imagens que combina raciocínio visual com síntese de imagens de alta fidelidade.
Kirkify
Kirkify AI cria instantaneamente memes virais de troca de rosto com estética neon-glitch assinada para criadores de memes.
Wan 2.7
Modelo de vídeo AI de nível profissional com controle preciso de movimento e consistência multiview.
Text to Music
Transforme texto ou letras em músicas completas com qualidade de estúdio, com vocais gerados por IA, instrumentos e exportações multi-faixa.
Iara Chat
Iara Chat: Um assistente de produtividade e comunicação com inteligência artificial.
kinovi - Seedance 2.0 - Real Man AI Video
Gerador de vídeo AI gratuito com saída humana realista, sem marca d'água e com direitos completos de uso comercial.
Tome AI PPT
Criador de apresentações movido por IA que gera, embeleza e exporta slides profissionais em minutos.
Video Sora 2
Sora 2 AI transforma texto ou imagens em vídeos curtos para redes sociais e e‑commerce, com movimento fisicamente preciso, em minutos.
Lyria3 AI
Gerador de música por IA que cria músicas totalmente produzidas e de alta fidelidade a partir de prompts de texto, letras e estilos instantaneamente.
Atoms
Plataforma orientada por IA que cria apps e sites full‑stack em minutos usando automação multi‑agente, sem necessidade de codificação.
Paper Banana
Ferramenta com IA para converter texto acadêmico em diagramas metodológicos prontos para publicação e gráficos estatísticos precisos instantaneamente.
AI Pet Video Generator
Crie vídeos de pets virais e fáceis de compartilhar a partir de fotos usando modelos orientados por IA e exportações HD instantâneas para plataformas sociais.
Ampere.SH
Hospedagem OpenClaw gerenciada gratuita. Implemente agentes de IA em 60 segundos com $500 em créditos Claude.
Palix AI
Plataforma de IA tudo‑em‑um para criadores, gerando imagens, vídeos e música com créditos unificados.
Hitem3D
Hitem3D converte uma única imagem em modelos 3D de alta resolução, prontos para produção, usando IA.
GenPPT.AI
Criador de PPT movido por IA que cria, embeleza e exporta apresentações profissionais do PowerPoint com notas do orador e gráficos em minutos.
HookTide
Plataforma de crescimento no LinkedIn impulsionada por IA que aprende sua voz para criar conteúdo, engajar e analisar desempenho.
Create WhatsApp Link
Gerador gratuito de links e QR do WhatsApp com análises, links com marca, roteamento e recursos de chat multi‑agente.
Seedance 20 Video
Seedance 2 é um gerador de vídeo IA multimodal que oferece personagens consistentes, narrativa em múltiplas tomadas e áudio nativo em 2K.
Gobii
Gobii permite que equipes criem trabalhadores digitais autônomos 24/7 para automatizar pesquisa na web e tarefas rotineiras.
Free AI Video Maker & Generator
Criador & Gerador de Vídeos com IA gratuito – Ilimitado, sem cadastro
Veemo - AI Video Generator
Veemo AI é uma plataforma tudo-em-um que gera rapidamente vídeos e imagens de alta qualidade a partir de texto ou imagens.
AI FIRST
Assistente conversacional de IA que automatiza pesquisa, tarefas no navegador, web scraping e gerenciamento de arquivos através de linguagem natural.
GLM Image
GLM Image combina modelos híbridos autorregressivos e de difusão para gerar imagens de IA de alta fidelidade com renderização de texto excepcional.
ainanobanana2
Nano Banana 2 gera imagens 4K de qualidade profissional em 4–6 segundos com renderização de texto precisa e consistência de assunto.
WhatsApp Warmup Tool
Ferramenta de aquecimento do WhatsApp com IA automatiza envio em massa enquanto evita banimentos de contas.
TextToHuman
Humanizador de IA gratuito que reescreve instantaneamente texto gerado por IA para uma escrita natural, parecida com a humana. Não é necessário cadastro.
Manga Translator AI
AI Manga Translator traduz instantaneamente imagens de mangá para múltiplos idiomas online.
Remy - Newsletter Summarizer
Remy automatiza a gestão de newsletters ao resumir e-mails em insights fáceis de digerir.

Inferact, comercializando o vLLM, levanta US$150 milhões para impulsionar a inferência de IA

A startup Inferact, que comercializa o popular motor de inferência open-source vLLM, levantou uma rodada seed de US$150 milhões liderada pela Andreessen Horowitz e Lightspeed para acelerar a implantação de aplicações de IA.