À medida que as empresas começam a experimentar a geração aumentada de recuperação multimodal (RAG), as empresas que fornecem embeddings multimodais — uma forma de transformar dados em arquivos legíveis por RAG — aconselham as empresas a começar pequeno ao iniciar com a incorporação de imagens e vídeos.
O RAG multimodal, RAG que também pode apresentar uma variedade de tipos de arquivos, desde texto, imagens ou vídeos, depende de modelos de embedding que transformam dados em representações numéricas que os modelos de IA podem ler. Embeddings que podem processar todos os tipos de arquivos permitem que as empresas encontrem informações de gráficos financeiros, catálogos de produtos ou qualquer vídeo informativo que tenham e obtenham uma visão mais holística de sua empresa.
A Cohere, que atualizou seu modelo de embeddings, Embed 3, para processar imagens e vídeos no mês passado, disse que as empresas precisam preparar seus dados de maneira diferente, garantir um desempenho adequado dos embeddings e melhor utilizar o RAG multimodal.
“Antes de comprometer recursos extensivos com embeddings multimodais, é uma boa ideia testá-lo em uma escala mais limitada. Isso permite que você avalie o desempenho do modelo e sua adequação para casos de uso específicos e deve fornecer insights sobre quaisquer ajustes necessários antes do pleno implantação”, disse um post do blog do arquiteto de soluções da Cohere, Yann Stoneman.
A empresa disse que muitos dos processos discutidos no post estão presentes em muitos outros modelos de embedding multimodal.
Stoneman disse que, dependendo de algumas indústrias, os modelos podem precisar também de “treinamento adicional para captar detalhes finos e variações em imagens”. Ele usou aplicações médicas como exemplo, onde exames de radiologia ou fotos de células microscópicas exigem um sistema de embedding especializado que compreenda as nuances desses tipos de imagens.
Preparação de dados é fundamental
Antes de alimentar imagens a um sistema RAG multimodal, elas devem ser pré-processadas para que o modelo de embedding possa lê-las bem.
As imagens podem precisar ser redimensionadas para que todas tenham um tamanho consistente, enquanto as organizações precisam descobrir se desejam melhorar fotos de baixa resolução para que detalhes importantes não sejam perdidos ou tornar imagens de alta resolução de menor qualidade para que não sobrecarregue o tempo de processamento.
“O sistema deve ser capaz de processar ponteiros de imagem (por exemplo, URLs ou caminhos de arquivo) juntamente com dados de texto, o que pode não ser possível com embeddings baseados em texto. Para criar uma experiência de usuário suave, as organizações podem precisar implementar código personalizado para integrar a recuperação de imagem com a recuperação de texto existente”, disse o blog.
Embeddings multimodais se tornam mais úteis
Muitos sistemas RAG lidam principalmente com dados de texto porque usar informações baseadas em texto como embeddings é mais fácil do que imagens ou vídeos. No entanto, como a maioria das empresas possui todos os tipos de dados, o RAG que pode pesquisar imagens e textos se tornou mais popular. As organizações muitas vezes tiveram que implementar sistemas RAG e bancos de dados separados, impedindo buscas de modalidade mista.
A busca multimodal não é nada nova, já que OpenAI e Google oferecem o mesmo em seus respectivos chatbots. A OpenAI lançou sua última geração de modelos de embeddings em janeiro. Outras empresas também fornecem uma maneira para as empresas aproveitarem seus diferentes dados para RAG multimodal.