A IBM quer ser a líder em LLMs empresariais com seus novos modelos open-source Granite 3.1

A IBM está reivindicando seu lugar no topo do ranking de IA open-source com sua nova série Granite 3.1 lançada hoje.

Os modelos de linguagem de grande escala Granite 3.1 (LLMs) oferecem aos usuários empresariais um comprimento de contexto estendido de 128K tokens, novos modelos de incorporação, detecção de alucinações integrada e desempenho melhorado. De acordo com a IBM, o novo modelo Granite 8B Instruct supera rivais open-source de mesmo tamanho, incluindo Meta Llama 3.1, Qwen 2.5 e Google Gemma 2. A IBM classificou seus modelos em uma série de benchmarks acadêmicos incluídos no OpenLLM Leaderboard.

Os novos modelos fazem parte de uma cadência de lançamento acelerada dos modelos open-source Granite da IBM. O Granite 3.0 foi lançado apenas em outubro. Na época, a IBM afirmou que tinha um portfólio de negócios de $2 bilhões relacionado à IA generativa. Com a atualização Granite 3.1, a IBM está se concentrando em embutir mais capacidade em modelos menores. A ideia básica é que modelos menores são mais fáceis para as empresas executarem e são mais econômicos para operar.

“Nós também melhoramos todos os números – todo o desempenho de praticamente tudo em toda a linha melhorou,” disse David Cox, VP de modelos de IA da IBM Research, à VentureBeat. “Usamos o Granite para muitos casos de uso diferentes, usamos internamente na IBM para nossos produtos, usamos para consultoria, disponibilizamos para nossos clientes e o liberamos como open-source, então temos que ser bons em tudo.”

Por que desempenho e modelos menores importam para a IA empresarial

Existem várias maneiras pelas quais uma empresa pode avaliar o desempenho de um LLM com benchmarks.

A direção que a IBM está tomando é rodar os modelos através de uma gama de testes acadêmicos e do mundo real. Cox enfatizou que a IBM testou e treinou seus modelos para serem otimizados para casos de uso empresariais. O desempenho não se trata apenas de alguma medida abstrata de velocidade, mas sim de uma medida mais sutil de eficiência.

Um aspecto da eficiência que a IBM está buscando é ajudar os usuários a gastar menos tempo para obter resultados desejados.

“Você deve gastar menos tempo ajustando prompts,” disse Cox. “Assim, quanto mais forte um modelo é em uma área, menos tempo você gasta engenhando prompts.”

A eficiência também se refere ao tamanho do modelo. Quanto maior um modelo, mais recursos de computação e GPU geralmente são necessários, o que também significa mais custo.

“Quando as pessoas estão fazendo trabalho de protótipo viável mínimo, muitas vezes pulam para modelos muito grandes, então você pode ir para um modelo de 70 bilhões de parâmetros ou um modelo de 405 bilhões de parâmetros para construir seu protótipo,” disse Cox. “Mas a realidade é que muitos desses não são econômicos, então outra coisa que estamos tentando fazer é empurrar o máximo de capacidade possível para o menor pacote possível.”

O contexto importa para a IA agentic empresarial

Além da promessa de desempenho e eficiência melhorados, a IBM expandiu dramaticamente o comprimento do contexto do Granite.

Com o lançamento inicial do Granite 3.0, o comprimento do contexto estava limitado a 4k. No Granite 3.1, a IBM aumentou isso para 128k, permitindo o processamento de documentos muito mais longos. O contexto estendido é uma atualização significativa para os usuários de IA empresarial, tanto para geração aumentada por recuperação (RAG) quanto para IA agentic.

Sistemas de IA agentic e agentes de IA frequentemente precisam processar e raciocinar sobre sequências mais longas de informações, como documentos maiores, rastros de logs ou conversas prolongadas. O aumento do comprimento do contexto para 128k permite que esses sistemas de IA agentic tenham acesso a mais informações contextuais, permitindo que compreendam e respondam melhor a consultas ou tarefas complexas.

A IBM também está lançando uma série de modelos de incorporação para ajudar a acelerar o processo de conversão de dados em vetores. O modelo Granite-Embedding-30M-English pode atingir um desempenho de 0,16 segundos por consulta, o que a IBM afirma ser mais rápido do que opções rivais, incluindo o Arctic da Snowflake.

Como a IBM melhorou o Granite 3.1 para atender às necessidades da IA empresarial

Então, como a IBM conseguiu melhorar seu desempenho para o Granite 3.1? Não foi uma coisa específica, mas sim uma série de inovações de processo e técnicas, explicou Cox.

A IBM desenvolveu pipelines de treinamento em múltiplas etapas cada vez mais avançados, disse ele. Isso permitiu que a empresa extraísse mais desempenho dos modelos. Além disso, uma parte crítica de qualquer treinamento de LLM é o dado. Em vez de se concentrar apenas em aumentar a quantidade de dados de treinamento, a IBM enfatizou a melhoria da qualidade dos dados usados para treinar os modelos Granite.

“Não se trata de quantidade,” disse Cox. “Não é como se fôssemos sair e conseguir 10 vezes mais dados e isso magicamente tornaria os modelos melhores.”

Reduzindo alucinações diretamente no modelo

Uma abordagem comum para reduzir o risco de alucinações e saídas errantes em LLMs é usar barreiras de proteção. Essas geralmente são implantadas como recursos externos ao lado de um LLM.

Com o Granite 3.1, a IBM está integrando diretamente a proteção contra alucinações no modelo. Os modelos Granite Guardian 3.1 8B e 2B agora incluem uma capacidade de detecção de alucinações de chamada de função.

“O modelo pode nativamente realizar sua própria proteção, o que pode oferecer diferentes oportunidades para os desenvolvedores capturarem coisas,” disse Cox.

Ele explicou que realizar a detecção de alucinações no próprio modelo otimiza todo o processo. A detecção interna significa menos chamadas de inferência, tornando o modelo mais eficiente e preciso.

Como as empresas podem usar o Granite 3.1 hoje e o que vem a seguir

Os novos modelos Granite estão agora disponíveis gratuitamente como open-source para usuários empresariais. Os modelos também estão disponíveis através do serviço de IA empresarial Watsonx da IBM e serão integrados aos produtos comerciais da IBM.

A empresa planeja manter um ritmo agressivo para atualizar os modelos Granite. Olhando para o futuro, o plano para o Granite 3.2 é adicionar funcionalidade multimodal que será apresentada no início de 2025.

“Você verá ao longo dos próximos lançamentos que estamos adicionando mais desses tipos de recursos diferenciados até as novidades que anunciaremos na conferência IBM Think do próximo ano,” disse Cox.

Fonte

Compartilhe esse conteúdo: