A ‘loja de tudo’ da Converge Bio para LLMs em biotecnologia arrecada US$ 5,5 milhões em rodada seed

A IA está encontrando seu caminho em todos os cantos da biotecnologia e da pesquisa farmacêutica, mas, como em outras indústrias, nunca é tão simples de implementar quanto se gostaria. A Converge Bio construiu uma ferramenta para as empresas fazerem seus LLMs focados em biologia realmente funcionarem, desde “enriquecer” seus dados até explicar suas respostas. A empresa arrecadou US$ 5,5 milhões em uma rodada seed para escalar seu produto.

“Um modelo é apenas um modelo. Não é suficiente”, disse o CEO e cofundador Dov Gertz. “Um pipeline precisa ser criado para que as empresas possam realmente usar o modelo em seu próprio processo de P&D. O mercado é muito fragmentado, mas a farmacêutica e a biotecnologia querem consumir essa tecnologia de forma consolidada, em um só lugar. Queremos ser esse lugar.”

Se você não é um engenheiro de aprendizado de máquina trabalhando em descoberta de medicamentos, esse pode não ser um problema familiar para você. Mas basicamente, existem modelos fundacionais poderosos por aí, grandes modelos de linguagem treinados não em livros e na internet, mas em enormes bancos de dados de DNA, estruturas de proteínas e genômica.

Esses são modelos poderosos e versáteis, mas, como os LLMs usados em produtos como ChatGPT e Cursor, eles requerem muito trabalho para serem moldados em algo que as pessoas possam realmente usar no dia a dia. Esse trabalho é especialmente difícil em domínios especializados como microbiologia ou imunologia. Transformar um LLM “cru” treinado em bilhões de sequências de proteínas em algo que um técnico de laboratório possa usar como parte de sua pesquisa normal é um problema não trivial.

Como exemplo, Gertz sugeriu a pesquisa de anticorpos. Um LLM treinado na biologia específica de anticorpos existe, mas é muito geral. A Converge Bio oferece uma série de melhorias que podem ser feitas de forma segura e usando a propriedade intelectual própria da empresa.

Primeiro, está o “enriquecimento de dados”, que aumenta o LLM de anticorpos com dados relacionados importantes, como interações anticorpo-antígeno e proteína-proteína. Em seguida, carregado com mais conhecimento específico, ele pode ser ajustado para o antígeno específico que a equipe está buscando direcionar e que eles podem ter dados proprietários em dish.

“Agora temos uma aplicação: a entrada é uma sequência, a saída é a afinidade de ligação”, disse Gertz. Então, a plataforma fornece outra camada importante: a explicabilidade. Os pesquisadores podem aprofundar-se na saída para descobrir não apenas que “essa sequência funciona melhor do que essa”, mas localizar até o nível de aminoácido ou par de bases qual parte da sequência parece estar fazendo com que funcione melhor.

Por último, ela gera novas sequências que proporcionam resultados aprimorados, igualmente com explicabilidade. Gertz observou que a explicabilidade os surpreendeu com sua popularidade entre os clientes — faz sentido, já que permite que os especialistas apliquem sua expertise de domínio (digamos, interações de proteínas) a essa nova e mais obscura região da bioinformática e aprendizado de máquina.

A Converge usa muitos modelos fundacionais de código aberto e gratuitos por aí, mas também está trabalhando para criar o seu próprio. Já possui um processo proprietário, disse Gertz, para a parte de explicabilidade. E o “currículo” de enriquecimento de dados é inteiramente deles também — não é um processo trivial. As metodologias de treinamento, ele apontou, são um dos poucos segredos bem guardados pelas empresas de IA mais bem-sucedidas.

Isso faz parte do fosso que eles esperam construir, junto com o fato de que, como Gertz colocou, “Esta é provavelmente a maior oportunidade na biotecnologia em cinco décadas.”

No entanto, muitas, talvez a maioria, das empresas de biotecnologia não têm uma solução dedicada para realizar trabalhos relacionados a LLM em seu campo, e estão buscando ativamente nichos que soluções generalistas não atendem.

“A ideia é ser a loja de tudo para genAI em biotecnologia e, em seguida, usar isso como uma cunha para oferecer mais ao longo do tempo”, disse Gertz. “O comportamento na farmacêutica e na biotecnologia é que, uma vez que eles têm laços com um fornecedor em quem confiam, querem usá-los em outros casos de uso, seja design de anticorpos ou design de vacinas. É por isso que acho que esse posicionamento é o melhor para este momento no mercado.”

Os investidores parecem concordar, colocando US$ 5,5 milhões em uma rodada seed liderada por TLV partners.

A empresa usará o dinheiro para contratar e adquirir clientes, como as startups costumam fazer nesse estágio, mas também publicará um artigo científico sobre design de anticorpos (usando seus próprios sistemas, é claro) e treinará “um modelo fundacional adequado.”

Fonte

Compartilhe esse conteúdo: