Ai2 lança novos modelos de linguagem competitivos com o Llama do Meta

Há uma nova família de modelos de IA na área, e é uma das poucas que pode ser reproduzida do zero.

Na terça-feira, a Ai2, a organização sem fins lucrativos de pesquisa em IA fundada pelo falecido Paul Allen, lançou o OLMo 2, a segunda família de modelos de sua série OLMo. (OLMo é a abreviação de ‘Open Language Model’). Embora não faltem modelos de linguagem ‘abertos’ para escolher (veja: Llama do Meta), o OLMo 2 atende à definição de IA de código aberto da Open Source Initiative, o que significa que as ferramentas e dados usados para desenvolvê-lo estão disponíveis publicamente.

A Open Source Initiative, a instituição de longa data que visa definir e ‘administrar’ tudo relacionado ao código aberto, finalizou sua definição de IA de código aberto em outubro. Mas os primeiros modelos OLMo, lançados em fevereiro, também atenderam ao critério.

“OLMo 2 [foi] desenvolvido do início ao fim com dados de treinamento abertos e acessíveis, código de treinamento de código aberto, receitas de treinamento reprodutíveis, avaliações transparentes, pontos de verificação intermediários e mais”, escreveu a AI2 em um post no blog. “Ao compartilhar abertamente nossos dados, receitas e descobertas, esperamos fornecer à comunidade de código aberto os recursos necessários para descobrir novas e inovadoras abordagens.”

Há dois modelos na família OLMo 2: um com 7 bilhões de parâmetros (OLMo 7B) e um com 13 bilhões de parâmetros (OLMo 13B). Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam um desempenho melhor do que aqueles com menos parâmetros.

Como a maioria dos modelos de linguagem, OLMo 2 7B e 13B podem realizar uma variedade de tarefas baseadas em texto, como responder perguntas, resumir documentos e escrever códigos.

Para treinar os modelos, a Ai2 usou um conjunto de dados de 5 trilhões de tokens. Tokens representam partes de dados brutos; 1 milhão de tokens equivale a cerca de 750.000 palavras. O conjunto de treinamento incluía sites “filtrados por alta qualidade”, artigos acadêmicos, fóruns de perguntas e respostas, e cadernos de matemática “sintéticos e gerados por humanos”.

A Ai2 afirma que o resultado são modelos que são competitivos, em termos de desempenho, com modelos abertos como a versão Llama 3.1 do Meta.

“Não apenas observamos uma melhoria dramática no desempenho em todas as tarefas em comparação com nosso modelo OLMo anterior, mas, notavelmente, OLMo 2 7B supera o Llama 3.1 8B”, escreve a Ai2. “OLMo 2 [representa] os melhores modelos de linguagem totalmente abertos até hoje.”

Os modelos OLMo 2 e todos os seus componentes podem ser baixados do site da Ai2. Eles estão sob a licença Apache 2.0, o que significa que podem ser usados comercialmente.

Recentemente, houve algum debate sobre a segurança de modelos abertos, uma vez que modelos Llama foram supostamente usados por pesquisadores chineses para desenvolver ferramentas de defesa. Quando perguntei ao engenheiro da Ai2, Dirk Groeneveld, em fevereiro se ele estava preocupado com o OLMo sendo abusado, ele me disse que acredita que os benefícios, em última análise, superam os danos.

“Sim, é possível que modelos abertos possam ser usados de forma inadequada ou para fins não intencionais”, disse ele. “[No entanto, essa abordagem também promove avanços técnicos que levam a modelos mais éticos; é um pré-requisito para verificação e reprodutibilidade, pois isso só pode ser alcançado com acesso a toda a pilha; e reduz a crescente concentração de poder, criando acesso mais equitativo.”

Fonte

Compartilhe esse conteúdo: