Twelve Labs está construindo IA que pode analisar e pesquisar vídeos

Modelos de IA que entendem vídeos tão bem quanto texto podem desbloquear novas aplicações poderosas. Pelo menos, é isso que Jae Lee, o cofundador da Twelve Labs, acredita.

É verdade que Lee é um pouco tendencioso. A Twelve Labs treina modelos de análise de vídeo para uma variedade de casos de uso. Mas pode haver algo em sua afirmação.

Usando os modelos da Twelve Labs, os usuários podem pesquisar vídeos por momentos específicos, resumir clipes ou fazer perguntas como “Quando a pessoa de camisa vermelha entrou no restaurante?” É um conjunto poderoso de capacidades — o que talvez explique por que a empresa atraiu grandes investidores, incluindo Nvidia, Samsung e Intel.

Pesquisa de vídeo

Para Lee, um cientista de dados por formação, a pesquisa básica nunca fez sentido para vídeos. Pesquisas por palavras-chave podem puxar títulos, tags e descrições, mas não conseguem acessar o conteúdo real dos clipes.

“O vídeo é o meio que mais cresce — e o mais intensivo em dados —, mas a maioria das organizações não vai dedicar recursos humanos para vasculhar todos os seus arquivos de vídeo”, disse Lee ao TechCrunch. “Mesmo que você tentasse marcar manualmente, isso não resolveria o problema. Encontrar um momento ou ângulo específico em vídeos pode ser como procurar uma agulha em um palheiro.”

Depois de não conseguir encontrar uma solução melhor, Lee recrutou colegas, Aiden Lee, SJ Kim, Dave Chung e Soyoung Lee para construir uma. Essa foi a gênese da Twelve Labs, que treina modelos para mapear texto ao que está acontecendo dentro de um vídeo, incluindo ações, objetos e sons de fundo.

Modelos como o Gemini do Google podem pesquisar filmagens, e Microsoft e Amazon, entre outros, oferecem serviços de análise de vídeo para identificar objetos em clipes. Mas Lee argumenta que os produtos da Twelve Labs se destacam com suas opções de personalização, que permitem que os clientes ajustem os modelos usando seus próprios dados.

Lee disse: “Empresas como OpenAI e Google estão investindo pesadamente em modelos multimodais de uso geral, mas esses modelos não são otimizados para vídeo. Nossa diferenciação reside em ser video-first desde o início… Acreditamos que o vídeo merece nosso foco exclusivo — não é um complemento.”

Os desenvolvedores podem criar aplicativos em cima dos modelos da Twelve Labs para pesquisar através de filmagens de vídeo e mais. A tecnologia da empresa pode impulsionar coisas como inserção de anúncios, moderação de conteúdo e geração automática de clipes de destaque.

Quando conversei com Lee no ano passado, perguntei sobre o potencial de viés nos modelos da Twelve Labs. É um grande fator de risco. Um estudo de 2021 descobriu que treinar um modelo de entendimento de vídeo em clipes de notícias locais, que tendem a cobrir crimes de forma racializada, poderia fazer o modelo aprender padrões racistas.

Lee disse na época que a Twelve Labs estava planejando lançar benchmarks e conjuntos de dados relacionados à ética dos modelos. A empresa ainda não lançou. Em nossa conversa recente, Lee me garantiu que essas ferramentas estão a caminho e que a Twelve Labs realiza testes de viés em todos os seus modelos antes de lançá-los.

“Não lançamos benchmarks de viés formais ainda porque queremos garantir que sejam significativos, práticos e acionáveis”, disse ele. “Nosso objetivo geral é desenvolver benchmarks que não apenas nos responsabilizem, mas também estabeleçam um padrão na indústria… Até que tenhamos realizado totalmente esse objetivo — e temos uma equipe trabalhando nisso — estamos trabalhando ativamente para criar IA que capacite organizações de forma responsável, respeite as liberdades civis das pessoas e impulsione a mudança tecnológica.”

Lee acrescentou que a Twelve Labs treina seus modelos com uma mistura de dados de domínio público e licenciados, e não utiliza dados de clientes para treinamento.

Modo de crescimento

A análise de vídeo continua sendo o núcleo do que a Twelve Labs faz. Mas, para se manter ágil, a empresa também está se expandindo para áreas como pesquisa “qualquer-para-qualquer” e embeddings multimodais.

Um dos modelos da Twelve Labs, Marengo, pode pesquisar através de imagens e áudios além de vídeo, e aceitar uma gravação de áudio de referência, imagem ou clipe de vídeo para ajudar a orientar uma pesquisa.

Em outro lugar, a empresa oferece uma API, a Embed API, para criar embeddings multimodais para vídeos, textos, imagens e arquivos de áudio. Embeddings são representações matemáticas que capturam o significado e as relações entre diferentes pontos de dados, tornando-os úteis para aplicações como detecção de anomalias.

O crescente portfólio de produtos da Twelve Labs ajudou a startup a garantir clientes nos setores de empresas, mídia e entretenimento. Dois parceiros importantes são Databricks e Snowflake, ambos os quais estão integrando as ferramentas da Twelve Labs em suas ofertas.

A Databricks desenvolveu uma integração que permite que os clientes invoquem o serviço de embedding da Twelve Labs a partir de pipelines de dados existentes. A Snowflake, por outro lado, está criando conectores para os modelos da Twelve Labs no Cortex AI, seu serviço de IA totalmente gerenciado.

“Atualmente, temos mais de 30.000 desenvolvedores usando nossa plataforma, variando de indivíduos experimentando a grandes empresas integrando nossa tecnologia em seus fluxos de trabalho”, disse Lee. “Por exemplo, temos parceria com municípios para casos de uso como detecção de ameaças em tempo real, melhorando os tempos de resposta de emergência e ajudando na gestão de tráfego.”

Como demonstração de apoio estratégico, tanto a Databricks quanto a Snowflake investiram na Twelve Labs este mês através de seus respectivos braços de capital de risco. SK Telecom e Hubspot Ventures se juntaram, junto com a In-Q-Tel, uma VC sem fins lucrativos baseada em Arlington, Virginia, que investe em startups que apoiam capacidades de inteligência dos EUA.

O total de novos investimentos chegou a 30 milhões de dólares, elevando o total arrecadado pela Twelve Labs para 107,1 milhões de dólares. Lee diz que os recursos serão usados para desenvolvimento de produtos e contratações.

“Estamos em uma posição fiscal muito forte, mas vimos uma oportunidade de aprofundar relacionamentos estratégicos-chave com líderes que acreditam profundamente na Twelve Labs”, disse Lee. “Atualmente, temos 73 funcionários em tempo integral e estamos planejando investimentos significativos na contratação de engenheiros, pesquisadores e funções voltadas para o cliente.”

Nova contratação

Falando em contratações, a Twelve Labs anunciou na quinta-feira que está adicionando um presidente à sua C-suite: Yoon Kim, ex-CTO da SK Telecom e um dos principais arquitetos por trás da Siri da Apple. Yoon também atuará como diretor de estratégia da Twelve Labs, liderando o plano de expansão agressiva da startup.

“Embora seja incomum para uma empresa da idade e estágio da Twelve Labs contratar um presidente, essa medida é um testemunho da demanda que experimentamos”, disse Lee, acrescentando que Yoon dividirá seu tempo entre a sede da Twelve Labs em San Francisco e seus escritórios em Seul. “Yoon é a pessoa certa para nos ajudar a executar — ele será instrumental em impulsionar o crescimento futuro com aquisições-chave, expandindo nossa presença global e alinhando nossas equipes em direção a metas ambiciosas.”

Lee diz que o objetivo é crescer em novos e adjacentes verticais, como automotivo e segurança, nos próximos anos. Considerando a participação da In-Q-Tel, segurança (e possivelmente trabalho de defesa) parece uma certeza; Lee não confirmou diretamente.

“A investimento da In-Q-Tel reflete a versatilidade e o potencial da nossa tecnologia em muitos setores, incluindo segurança nacional”, disse Lee. “Estamos sempre abertos a explorar oportunidades onde nossa tecnologia possa ter um impacto positivo, significativo e responsável que alinhe com nossas diretrizes éticas.”

Fonte

Compartilhe esse conteúdo: