Modelos de IA de Código Aberto Podem Ser Mais Custosos a Longo Prazo, Revela Estudo

Com a crescente adoção de IA pelas empresas, escolher qual modelo utilizar é uma grande decisão. Embora os modelos de código aberto possam parecer mais baratos inicialmente, um novo estudo alerta que essas economias podem evaporar rapidamente, devido ao poder computacional extra que eles requerem.

Na verdade, os modelos de IA de código aberto consomem significativamente mais recursos computacionais do que seus rivais de código fechado ao realizarem as mesmas tarefas, de acordo com um estudo publicado na quinta-feira pela Nous Research.

Os pesquisadores testaram dezenas de modelos de IA, incluindo sistemas fechados da Google e OpenAI, bem como modelos de código aberto da DeepSeek e Magistral. Eles mediram o quanto de esforço computacional cada um exigiu para completar tarefas idênticas em três categorias: perguntas simples de conhecimento, problemas de matemática e quebra-cabeças lógicos.

Para isso, eles utilizaram o número de tokens que cada modelo usou para resolver e responder questões como recurso computacional consumido.

“Modelos de peso aberto usam de 1,5 a 4 vezes mais tokens do que os fechados—e até 10 vezes para perguntas simples de conhecimento—tornando-os algumas vezes mais caros por consulta, apesar dos custos mais baixos por token,” escreveram os autores do estudo.

Por que a eficiência de tokens é importante

Em IA, um token é uma peça de texto ou dados—pode ser uma palavra, parte de uma palavra ou até mesmo uma pontuação—que os modelos usam para entender a linguagem. Os modelos processam e geram texto um token de cada vez, então, quanto mais tokens eles usam, mais poder computacional e tempo uma tarefa requer.

Como a maioria dos modelos fechados não revela seu processo de raciocínio bruto ou cadeia de pensamento (CoT), os pesquisadores mediram sua eficiência computacional contando os tokens que usaram em vez disso. Como os modelos são cobrados pelo total de tokens de saída usados em seu processo de raciocínio e na geração da resposta final, os tokens de conclusão servem como um proxy para o esforço necessário para produzir uma resposta.

Essa é uma consideração importante para as empresas que utilizam IA por vários motivos.

“Primeiro, embora a hospedagem de modelos de peso aberto possa ser mais barata, essa vantagem de custo pode ser facilmente compensada se eles exigirem mais tokens para raciocinar sobre um determinado problema,” escreveram os pesquisadores. “Segundo, um aumento no número de tokens levará a tempos de geração mais longos e aumento da latência.”

Modelos fechados foram os vencedores claros

O estudo descobriu que os modelos abertos consistentemente usam mais tokens do que os modelos fechados para as mesmas tarefas, às vezes três vezes mais para perguntas simples de conhecimento. A diferença se reduziu para menos do que o dobro em problemas de matemática e lógicos.

“Modelos fechados (OpenAI, Grok-4) otimizam para menos tokens para cortar custos, enquanto modelos abertos (DeepSeek, Qwen) usam mais tokens, possivelmente para melhor raciocínio,” escreveram os autores do estudo.

Entre os modelos abertos, o llama-3.3-nemotron-super-49b-v1 foi o mais eficiente, enquanto os modelos Magistral foram os mais ineficientes.

Os modelos da OpenAI também se destacaram. Tanto seus modelos o4-mini quanto os novos modelos de peso aberto gpt-oss mostraram uma impressionante eficiência de tokens, especialmente em problemas de matemática.

Os pesquisadores notaram que os modelos gpt-oss da OpenAI, com suas cadeias de pensamento concisas, poderiam servir como um parâmetro para melhorar a eficiência de tokens em outros modelos abertos.

Fonte

Compartilhe esse conteúdo: