Linkup conecta LLMs com fontes de conteúdo premium (legalmente)

Se você já usou o ChatGPT Search ou o Perplexity, sabe que poder pesquisar na web e obter citações em linha melhora bastante esses chatbots de IA. Os resultados são melhores quando envolvem informações atualizadas, e a pesquisa na web pode reduzir as chamadas alucinações (ou seja, quando uma IA generativa fornece informações incorretas).

É por isso que a startup francesa Linkup está construindo uma API que permite que desenvolvedores acessem conteúdo da web de fontes premium e confiáveis e entreguem os resultados a um modelo de linguagem grande (LLM) para enriquecer suas respostas. Muitos desenvolvedores de IA chamam esse fluxo de trabalho de Geração Aumentada por Recuperação (ou RAG).

Mais importante ainda, o futuro dos bots de raspagem é incerto. Se não houver um acordo financeiro pré-existente entre os editores de conteúdo e as entidades que raspam as páginas da web, esses bots estão retirando conteúdo da web aberta sem pagar, e muitas pessoas não estão felizes com esse acordo — o que está aumentando o escrutínio regulatório em torno do treinamento de IA.

Agora também existem casos legais de alto perfil em andamento, como o processo contínuo entre a OpenAI, criadora do ChatGPT, e o New York Times — portanto, a situação em torno da raspagem da web pode mudar em um futuro próximo. É por isso que a OpenAI assinou contratos de licenciamento de conteúdo de vários anos com grandes editores, como AP, Axel Springer, Condé Nast, El País, Financial Times, Le Monde e outros.

“Fundamos a empresa na época em que a OpenAI estava fazendo acordos com fontes de notícias… para fins de treinamento ou inferência, para aumentar as respostas dos modelos OpenAI e seus produtos. E pensamos: ‘Ok, isso é ótimo porque finalmente temos empresas de IA que pagam suas fontes,'” disse Philippe Mizrahi, cofundador e CEO da Linkup, ao TechCrunch, explicando o que levou os fundadores a criar um negócio para conectar desenvolvedores de IA com fornecedores de conteúdo para — esperançosamente — o benefício mútuo deles.

Atualmente, os editores de conteúdo enfrentam uma decisão difícil sobre o que fazer em relação à sede de dados da GenAI. Eles podem bloquear raspadores da web usando o arquivo de metadados (não legalmente vinculativo) robots.txt (que indica se um site pode ser usado para treinar um modelo de IA ou não). Além disso, eles podem processar empresas de IA que acreditam ter violado seus direitos autorais. Alternativamente, eles podem deixar os bots indexarem seu conteúdo livremente (er, YOLO?). Ou podem licenciar conteúdo para desenvolvedores de IA para obter alguma compensação por sua propriedade intelectual.

Mas há milhares de empresas de IA (ou empresas de tecnologia usando IA) que não têm a escala e o alcance da OpenAI. Ao mesmo tempo, o que é ótimo sobre a web é que há um longo tail de editores de conteúdo. Mas isso significa que um pequeno editor de conteúdo geralmente não possui recursos financeiros suficientes para entrar com um processo. Também significa que será difícil mudar de um modelo de raspagem para um modelo de licenciamento para milhões de sites.

É por isso que a Linkup não é apenas uma solução técnica. É um mercado; um intermediário entre editores de conteúdo e empresas que querem aumentar suas respostas de LLM com conteúdo da web.

A Linkup assina contratos de licenciamento de conteúdo com editores e se integra com seus CMS para que possa buscar conteúdo de editores sem qualquer raspagem. A Linkup, então, paga parceiros de conteúdo com base em quantas vezes seu conteúdo é acessado pelos clientes da Linkup.

“Estamos realmente direcionando aplicações que estão implementando IA em seus próprios produtos,” disse Mizrahi. “Portanto, o caso de uso típico é que eu crio uma aplicação de IA usando um modelo da Mistral ou OpenAI. Eu construo meu próprio pipeline, mas preciso enriquecer esse pipeline com informações externas.”

Como uma observação, enquanto o ChatGPT pode navegar na web, os modelos GPT não conseguem. A OpenAI fornece tanto um aplicativo extremamente popular (ChatGPT) quanto LLMs que os desenvolvedores podem usar com uma API (GPT). Mas a pesquisa na web é um recurso do ChatGPT.

“Há um exemplo que gosto, que é um dos nossos clientes… construiu uma aplicação interna para seus vendedores,” disse Mizrahi também. “Por um lado, eles listaram todas as vantagens de seus próprios produtos. E graças a nós, eles obtêm informações frescas e de qualidade sobre seus prospects e colocam isso em um LLM da Mistral. E o LLM da Mistral vai gerar uma espécie de apresentação de vendas para os representantes de vendas, que eles terão à sua frente quando fizerem as ligações com os leads dos clientes.”

A princípio, a Linkup decidiu se concentrar em informações corporativas e de negócios. Além de sites de notícias, a startup trabalha com bancos de dados de conhecimento — pense em Statista, Xerfi ou outros recursos semelhantes.

Não é a única startup trabalhando para trazer conteúdo premium a LLMs com contratos de licenciamento nos bastidores. O concorrente mais visível é a ScalePost, uma startup que trabalha com o Perplexity para acelerar seus contratos de licenciamento com editores.

A Linkup levantou uma rodada de seed de €3 milhões (cerca de $3,2 milhões nas taxas atuais de câmbio) há alguns meses com Axeleo Capital, Motier Ventures, Seedcamp e uma centena de anjos investidores. Há cerca de 10 pessoas trabalhando na startup neste momento, e ela planeja contratar mais 10 funcionários ao longo do próximo ano.

Fonte

Compartilhe esse conteúdo: