A H2O.ai, fornecedora de plataformas de IA de código aberto, anunciou hoje dois novos modelos de visão-linguagem projetados para melhorar a análise de documentos e tarefas de reconhecimento óptico de caracteres (OCR).
Os modelos, chamados H2OVL Mississippi-2B e H2OVL-Mississippi-0.8B, mostram desempenho competitivo em relação a modelos muito maiores de grandes empresas de tecnologia, oferecendo potencialmente uma solução mais eficiente para empresas que lidam com fluxos de trabalho pesados em documentos.
O modelo H2OVL Mississippi-0.8B, com apenas 800 milhões de parâmetros, superou todos os outros modelos, incluindo aqueles com bilhões de parâmetros a mais, na tarefa de Reconhecimento de Texto do OCRBench. Enquanto isso, o modelo H2OVL Mississippi-2B, com 2 bilhões de parâmetros, demonstrou um forte desempenho geral em uma variedade de benchmarks de visão-linguagem.
“Projetamos os modelos H2OVL Mississippi para serem uma solução de alto desempenho e custo-efetiva, trazendo OCR, compreensão visual e Document AI impulsionados por IA para empresas”, disse Sri Ambati, CEO e fundador da H2O.ai, em uma entrevista exclusiva ao VentureBeat. “Ao combinar IA multimodal avançada com eficiência, o H2OVL Mississippi oferece soluções de Document AI precisas e escaláveis em uma variedade de indústrias.”
O lançamento desses modelos marca um passo significativo na estratégia da H2O.ai para tornar a tecnologia de IA mais acessível. Ao disponibilizar os modelos gratuitamente no Hugging Face, uma plataforma popular para compartilhamento de modelos de aprendizado de máquina, a H2O.ai permite que desenvolvedores e empresas modifiquem e adaptem os modelos para necessidades específicas de Document AI.
Ambati destacou as vantagens econômicas de modelos menores e especializados. “Nossa abordagem para transformadores pré-treinados generativos decorre de nosso profundo investimento em Document AI, onde colaboramos com clientes para extrair significado de documentos empresariais”, disse ele. “Esses modelos podem ser executados em qualquer lugar, com uma pequena pegada, de forma eficiente e sustentável, permitindo o ajuste fino em imagens e documentos específicos de domínio a uma fração do custo.”
O anúncio ocorre à medida que as empresas buscam maneiras mais eficientes de processar e extrair informações de grandes volumes de documentos. Métodos tradicionais de OCR e análise de documentos muitas vezes lutam com digitalizações de baixa qualidade, caligrafia desafiadora ou documentos fortemente modificados. Os novos modelos da H2O.ai visam abordar essas questões, oferecendo uma alternativa mais eficiente em recursos a modelos de linguagem maiores que podem ser excessivos para tarefas específicas relacionadas a documentos.
Analistas da indústria observam que a abordagem da H2O.ai pode perturbar o cenário atual dominado por gigantes da tecnologia. Ao focar em modelos menores e mais especializados, a H2O.ai pode ser capaz de capturar uma parte significativa do mercado empresarial que valoriza eficiência e custo-efetividade.
Uma comparação de pontuações médias em oito benchmarks de imagem única mostra que o novo modelo H2OVL Mississippi-2B da H2O.ai (em amarelo) supera vários concorrentes, incluindo ofertas da Microsoft e Google. O modelo fica atrás apenas do Qwen2 VL-2B em desempenho geral entre modelos de visão-linguagem de tamanho semelhante.
“Na H2O.ai, tornar a IA acessível não é apenas uma ideia. É um movimento”, disse Ambati ao VentureBeat. “Ao lançar uma série de pequenos modelos fundamentais que podem ser facilmente ajustados para tarefas específicas, estamos expandindo as possibilidades de criar e usar IA.”
A H2O.ai levantou $256 milhões de investidores, incluindo Commonwealth Bank, Nvidia, Goldman Sachs e Wells Fargo. A abordagem de código aberto da empresa e o foco em soluções de IA práticas e prontas para empresas ajudaram a construir uma comunidade de mais de 20.000 organizações e mais da metade das empresas da Fortune 500 como clientes.
À medida que as empresas continuam a enfrentar a transformação digital e a necessidade de extrair valor de dados não estruturados, os novos modelos de visão-linguagem da H2O.ai podem fornecer uma opção atraente para aqueles que buscam implementar soluções de Document AI sem a sobrecarga computacional de modelos maiores. O verdadeiro teste será em aplicações do mundo real, mas a demonstração da H2O.ai de desempenho competitivo com modelos muito menores sugere uma direção promissora para o futuro da IA empresarial.