A verificação da RAG: Novo framework open-source permite que empresas meçam cientificamente o desempenho da IA

As empresas estão investindo tempo e dinheiro na construção de sistemas de geração aumentada por recuperação (RAG). O objetivo é ter um sistema de IA empresarial preciso, mas esses sistemas estão realmente funcionando?

A incapacidade de medir objetivamente se os sistemas RAG estão realmente funcionando é um ponto cego crítico. Uma solução potencial para esse desafio é o lançamento de hoje do framework open-source Open RAG Eval. O novo framework foi desenvolvido pelo provedor de plataforma RAG para empresas Vectara, em colaboração com o professor Jimmy Lin e sua equipe de pesquisa da Universidade de Waterloo.

O Open RAG Eval transforma a abordagem de comparação subjetiva ‘isso parece melhor do que aquilo’ em uma metodologia de avaliação rigorosa e reproduzível que pode medir a precisão da recuperação, a qualidade da geração e as taxas de alucinação em implantações RAG empresariais.

O framework avalia a qualidade da resposta usando duas categorias principais de métricas: métricas de recuperação e métricas de geração. Isso permite que as organizações apliquem essa avaliação a qualquer pipeline RAG, seja usando a plataforma da Vectara ou soluções personalizadas. Para tomadores de decisão técnica, isso significa finalmente ter uma maneira sistemática de identificar exatamente quais componentes de suas implementações RAG precisam de otimização.

“Se você não pode medir, não pode melhorar”, disse Jimmy Lin, professor da Universidade de Waterloo, em uma entrevista exclusiva ao VentureBeat. “Na recuperação de informações e vetores densos, você poderia medir muitas coisas, ndcg [Normalized Discounted Cumulative Gain], precisão, recall… mas quando se tratava de respostas corretas, não tínhamos como, é por isso que começamos nesse caminho.”

Por que a avaliação RAG se tornou o gargalo para a adoção de IA nas empresas

A Vectara foi uma pioneira no espaço RAG. A empresa foi lançada em outubro de 2022, antes que o ChatGPT se tornasse um nome conhecido. A Vectara realmente apresentou uma tecnologia que originalmente se referia como IA fundamentada em maio de 2023, como uma forma de limitar alucinações, antes que o acrônimo RAG fosse comumente usado.

Nos últimos meses, para muitas empresas, as implementações RAG se tornaram cada vez mais complexas e difíceis de avaliar. Um desafio chave é que as organizações estão indo além de simples perguntas e respostas para sistemas agentes de múltiplas etapas.

“No mundo agente, a avaliação é duplamente importante, porque esses agentes de IA tendem a ser de múltiplas etapas”, disse Am Awadallah, CEO e cofundador da Vectara, ao VentureBeat. “Se você não detectar a alucinação no primeiro passo, isso se acumula com o segundo passo, se acumula com o terceiro passo, e você acaba com a ação ou resposta errada no final do pipeline.”

Como o Open RAG Eval funciona: quebrando a caixa preta em componentes mensuráveis

O framework Open RAG Eval aborda a avaliação através de uma metodologia baseada em nuggets.

Lin explicou que a abordagem de nuggets quebra as respostas em fatos essenciais e depois mede quão efetivamente um sistema captura os nuggets.

O framework avalia sistemas RAG em quatro métricas específicas:

Detecção de alucinação – Mede o grau em que o conteúdo gerado contém informações fabricadas não suportadas por documentos de origem.

Citação – Quantifica quão bem as citações na resposta são suportadas por documentos de origem.

Auto nugget – Avalia a presença de informações essenciais dos documentos de origem nas respostas geradas.

UMBRELA (Método Unificado para Avaliação de Recuperação com Avaliação de LLM) – Um método holístico para avaliar o desempenho geral do recuperador.

Importante, o framework avalia todo o pipeline RAG de ponta a ponta, fornecendo visibilidade sobre como modelos de embedding, sistemas de recuperação, estratégias de chunking e LLMs interagem para produzir saídas finais.

A inovação técnica: automação através de LLMs

O que torna o Open RAG Eval tecnicamente significativo é como ele usa grandes modelos de linguagem para automatizar o que anteriormente era um processo de avaliação manual e intensivo em mão de obra.

“O estado da arte antes de começarmos era comparações de esquerda para direita”, explicou Lin. “Então isso é, você prefere o da esquerda? Você prefere o da direita? Ou ambos são bons, ou ambos são ruins? Essa era uma forma de fazer as coisas.”

Lin observou que a abordagem de avaliação baseada em nuggets em si não é nova, mas sua automação através de LLMs representa um avanço.

O framework usa Python com engenharia de prompt sofisticada para fazer com que LLMs realizem tarefas de avaliação como identificar nuggets e avaliar alucinações, tudo envolto em um pipeline de avaliação estruturado.

Paisagem competitiva: como o Open RAG Eval se encaixa no ecossistema de avaliação

À medida que o uso de IA nas empresas continua a amadurecer, há um número crescente de frameworks de avaliação. Na semana passada, a Hugging Face lançou o Yourbench para testar modelos contra os dados internos da empresa. No final de janeiro, a Galileo lançou sua tecnologia de Avaliações Agentic.

O Open RAG Eval é diferente porque se concentra fortemente no pipeline RAG, não apenas nas saídas de LLM. O framework também tem uma forte base acadêmica e é construído sobre ciência de recuperação de informações estabelecida, em vez de métodos ad-hoc.

O framework se baseia nas contribuições anteriores da Vectara para a comunidade de IA open-source, incluindo seu Modelo de Avaliação de Alucinações Hughes (HHEM), que foi baixado mais de 3,5 milhões de vezes no Hugging Face e se tornou um padrão de referência para detecção de alucinações.

“Não estamos chamando de framework de avaliação da Vectara, estamos chamando de framework Open RAG Eval porque realmente queremos que outras empresas e instituições comecem a ajudar a construir isso”, enfatizou Awadallah. “Precisamos de algo assim no mercado, para todos nós, para fazer esses sistemas evoluírem da maneira certa.”

O que o Open RAG Eval significa no mundo real

Embora ainda seja um esforço em estágio inicial, a Vectara já tem múltiplos usuários interessados em usar o framework Open RAG Eval.

Entre eles está Jeff Hummel, SVP de Produto e Tecnologia da empresa de imóveis Anywhere.re. Hummel espera que a parceria com a Vectara permita que ele simplifique o processo de avaliação RAG de sua empresa.

Hummel observou que escalar sua implantação RAG introduziu desafios significativos em torno da complexidade da infraestrutura, velocidade de iteração e custos crescentes.

“Conhecer os benchmarks e expectativas em termos de desempenho e precisão ajuda nossa equipe a ser preditiva em nossos cálculos de escalonamento”, disse Hummel. “Para ser franco, não havia muitos frameworks para definir benchmarks nesses atributos; dependíamos muito do feedback dos usuários, que às vezes era objetivo e não se traduzia em sucesso em escala.”

Da medição à otimização: aplicações práticas para implementadores de RAG

Para tomadores de decisão técnica, o Open RAG Eval pode ajudar a responder perguntas cruciais sobre a implantação e configuração de RAG:

Se deve usar chunking de token fixo ou chunking semântico

Se deve usar busca híbrida ou vetorial, e quais valores usar para lambda na busca híbrida

Qual LLM usar e como otimizar prompts RAG

Quais limiares usar para detecção e correção de alucinações

Na prática, as organizações podem estabelecer pontuações de base para seus sistemas RAG existentes, fazer alterações de configuração direcionadas e medir a melhoria resultante. Essa abordagem iterativa substitui a adivinhação por otimização orientada por dados.

Embora este lançamento inicial se concentre na medição, o roteiro inclui capacidades de otimização que poderiam sugerir automaticamente melhorias de configuração com base nos resultados da avaliação. Versões futuras também podem incorporar métricas de custo para ajudar as organizações a equilibrar desempenho com despesas operacionais.

Para empresas que buscam liderar na adoção de IA, o Open RAG Eval significa que podem implementar uma abordagem científica para avaliação, em vez de depender de avaliações subjetivas ou alegações de fornecedores. Para aqueles que estão mais no início de sua jornada de IA, fornece uma maneira estruturada de abordar a avaliação desde o início, potencialmente evitando erros dispendiosos enquanto constroem sua infraestrutura RAG.

Fonte

Compartilhe esse conteúdo: