Esta Semana em IA: Talvez devêssemos ignorar os benchmarks de IA por enquanto

Bem-vindo ao boletim informativo regular de IA do TechCrunch! Estamos entrando em hiato por um tempo, mas você pode encontrar toda a nossa cobertura de IA, incluindo minhas colunas, nossa análise diária e histórias de notícias de última hora, no TechCrunch. Se você quiser essas histórias e muito mais na sua caixa de entrada todos os dias, inscreva-se em nossos boletins diários aqui.

Esta semana, a startup de IA do bilionário Elon Musk, xAI, lançou seu mais recente modelo de IA, Grok 3, que alimenta os aplicativos de chatbot Grok da empresa. Treinado em cerca de 200.000 GPUs, o modelo supera vários outros modelos líderes, incluindo os da OpenAI, em benchmarks de matemática, programação e mais.

Mas o que esses benchmarks realmente nos dizem?

Aqui no TC, frequentemente relutamos em relatar números de benchmark porque são uma das poucas maneiras (relativamente) padronizadas que a indústria de IA mede melhorias de modelo. Os benchmarks de IA populares tendem a testar conhecimentos esotéricos e dão pontuações agregadas que correlacionam mal com a proficiência nas tarefas que a maioria das pessoas se importa.

Como o professor da Wharton, Ethan Mollick, apontou em uma série de postagens no X após a revelação do Grok 3 na segunda-feira, há uma “necessidade urgente de melhores baterias de testes e autoridades de testes independentes”. As empresas de IA frequentemente relatam resultados de benchmark de forma autônoma, como Mollick aludiu, tornando esses resultados ainda mais difíceis de aceitar ao pé da letra.

“Os benchmarks públicos são tanto ‘meh’ quanto saturados, deixando muitos testes de IA parecidos com análises de comida, baseados no gosto”, escreveu Mollick. “Se a IA é crítica para o trabalho, precisamos de mais.”

Não há escassez de testes independentes e organizações propondo novos benchmarks para IA, mas seu mérito relativo está longe de ser uma questão resolvida dentro da indústria. Alguns comentaristas e especialistas em IA propõem alinhar benchmarks com impacto econômico para garantir sua utilidade, enquanto outros argumentam que a adoção e a utilidade são os verdadeiros benchmarks.

Esse debate pode continuar até o fim dos tempos. Talvez devêssemos, como o usuário do X Roon prescreve, simplesmente prestar menos atenção a novos modelos e benchmarks, a menos que haja grandes avanços técnicos em IA. Para nossa sanidade coletiva, essa pode não ser a pior ideia, mesmo que induza algum nível de FOMO em relação à IA.

Como mencionado acima, Esta Semana em IA está entrando em hiato. Obrigado por nos acompanhar, leitores, nesta montanha-russa de jornada. Até a próxima.

Notícias

Créditos da imagem: Nathan Laine/Bloomberg / Getty Images

OpenAI tenta “desfazer a censura” do ChatGPT: Max escreveu sobre como a OpenAI está mudando sua abordagem de desenvolvimento de IA para abraçar explicitamente a “liberdade intelectual”, não importa quão desafiador ou controverso o tópico possa ser.

A nova startup de Mira: A nova startup do ex-CTO da OpenAI, Mira Murati, chamada Thinking Machines Lab, pretende construir ferramentas para “fazer a IA funcionar para as necessidades e objetivos únicos das pessoas”.

Grok 3 vem aí: A startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA, Grok 3, e revelou novas capacidades para os aplicativos Grok para iOS e web.

Uma conferência muito Llama: A Meta realizará sua primeira conferência para desenvolvedores dedicada à IA generativa nesta primavera. Chamado de LlamaCon, em homenagem à família de modelos de IA generativa Llama da Meta, a conferência está agendada para 29 de abril.

IA e a soberania digital da Europa: Paul fez um perfil do OpenEuroLLM, uma colaboração entre cerca de 20 organizações para construir “uma série de modelos fundacionais para IA transparente na Europa” que preserva a “diversidade linguística e cultural” de todas as línguas da UE.

Artigo de pesquisa da semana

Créditos da imagem: Jakub Porzycki/NurPhoto / Getty Images

Pesquisadores da OpenAI criaram um novo benchmark de IA, SWE-Lancer, que visa avaliar a destreza em codificação de sistemas de IA poderosos. O benchmark consiste em mais de 1.400 tarefas de engenharia de software freelance que variam de correções de bugs e implementações de recursos a propostas de implementação técnica de “nível gerencial”.

De acordo com a OpenAI, o modelo de IA de melhor desempenho, o Claude 3.5 Sonnet da Anthropic, pontua 40,3% no benchmark completo do SWE-Lancer — sugerindo que a IA ainda tem um longo caminho a percorrer. Vale ressaltar que os pesquisadores não avaliaram modelos mais novos, como o o3-mini da OpenAI ou o R1 da empresa de IA chinesa DeepSeek.

Modelo da semana

Uma empresa de IA chinesa chamada Stepfun lançou um modelo de IA “aberto”, Step-Audio, que pode entender e gerar fala em vários idiomas. O Step-Audio suporta chinês, inglês e japonês e permite que os usuários ajustem a emoção e até o dialeto do áudio sintético que cria, incluindo canto.

A Stepfun é uma das várias startups chinesas de IA bem financiadas que estão lançando modelos sob uma licença permissiva. Fundada em 2023, a Stepfun recentemente fechou uma rodada de financiamento no valor de várias centenas de milhões de dólares de uma série de investidores, incluindo empresas de private equity estatais chinesas.

Mistura

Créditos da imagem: Nous Research

O Nous Research, um grupo de pesquisa em IA, lançou o que afirma ser um dos primeiros modelos de IA que unifica raciocínio e “capacidades intuitivas de modelo de linguagem”.

O modelo, DeepHermes-3 Preview, pode alternar entre modos de “raciocínio” e “pensamento” para melhorar a precisão à custa de um pouco mais de computação. No modo “raciocínio”, o DeepHermes-3 Preview, semelhante a outros modelos de IA de raciocínio, “pensa” mais tempo para problemas difíceis e mostra seu processo de pensamento para chegar à resposta.

Fonte

Compartilhe esse conteúdo: