Cohere lança novos modelos de IA para fechar a lacuna linguística global

Cohere hoje lançou dois novos modelos de peso aberto em seu projeto Aya para fechar a lacuna linguística em modelos fundamentais.

Aya Expanse 8B e 35B, agora disponíveis no Hugging Face, expandem os avanços de desempenho em 23 idiomas. Cohere disse em um post no blog que o modelo de 8B parâmetros “torna os avanços mais acessíveis a pesquisadores em todo o mundo”, enquanto o modelo de 32B parâmetros oferece capacidades multilíngues de ponta.

O projeto Aya busca expandir o acesso a modelos fundamentais em mais idiomas globais além do inglês. Cohere for AI, o braço de pesquisa da empresa, lançou a iniciativa Aya no ano passado. Em fevereiro, lançou o modelo de linguagem grande (LLM) Aya 101, um modelo de 13 bilhões de parâmetros cobrindo 101 idiomas. A Cohere for AI também lançou o conjunto de dados Aya para ajudar a expandir o acesso a outros idiomas para treinamento de modelos.

Aya Expanse utiliza grande parte da mesma receita usada para construir o Aya 101.

“As melhorias no Aya Expanse são o resultado de um foco sustentado em expandir como a IA serve idiomas ao redor do mundo, repensando os blocos de construção fundamentais das inovações em aprendizado de máquina”, disse a Cohere. “Nossa agenda de pesquisa nos últimos anos incluiu um foco dedicado em fechar a lacuna linguística, com várias inovações que foram críticas para a receita atual: arbitragem de dados, treinamento de preferências para desempenho e segurança gerais e, finalmente, fusão de modelos.”

Cohere disse que os dois modelos Aya Expanse superaram consistentemente modelos de IA de tamanho semelhante da Google, Mistral e Meta.

Aya Expanse 32B teve um desempenho melhor em testes de benchmark multilíngues do que o Gemma 2 27B, Mistral 8x22B e até mesmo o muito maior Llama 3.1 70B. O menor 8B também teve um desempenho melhor do que Gemma 2 9B, Llama 3.1 8B e Ministral 8B.

Cohere desenvolveu os modelos Aya usando um método de amostragem de dados chamado arbitragem de dados como meio de evitar a geração de gibberish que ocorre quando os modelos dependem de dados sintéticos. Muitos modelos usam dados sintéticos criados a partir de um modelo “professor” para fins de treinamento. No entanto, devido à dificuldade em encontrar bons modelos professor para outros idiomas, especialmente para idiomas de baixo recurso.

A empresa também se concentrou em guiar os modelos em direção a “preferências globais” e levando em conta diferentes perspectivas culturais e linguísticas. A Cohere disse que descobriu uma maneira de melhorar o desempenho e a segurança, mesmo enquanto guiava as preferências dos modelos.

“Pensamos nisso como o ‘brilho final’ no treinamento de um modelo de IA”, disse a empresa. “No entanto, o treinamento de preferências e as medidas de segurança muitas vezes se ajustam demais aos danos prevalentes em conjuntos de dados centrados no Ocidente. Problematicamente, esses protocolos de segurança frequentemente falham em se estender a configurações multilíngues. Nosso trabalho é um dos primeiros que estende o treinamento de preferências a um ambiente massivamente multilíngue, levando em conta diferentes perspectivas culturais e linguísticas.”

A iniciativa Aya se concentra em garantir pesquisa em torno de LLMs que tenham um bom desempenho em idiomas além do inglês.

Muitos LLMs eventualmente se tornam disponíveis em outros idiomas, especialmente para idiomas amplamente falados, mas há dificuldade em encontrar dados para treinar modelos com diferentes idiomas. O inglês, afinal, tende a ser a língua oficial de governos, finanças, conversas na internet e negócios, portanto é muito mais fácil encontrar dados em inglês.

Também pode ser difícil avaliar com precisão o desempenho de modelos em diferentes idiomas devido à qualidade das traduções.

Outros desenvolvedores lançaram seus próprios conjuntos de dados de idiomas para promover a pesquisa em LLMs não ingleses. A OpenAI, por exemplo, fez seu Conjunto de Dados Multilíngue de Compreensão de Linguagem de Múltiplas Tarefas no Hugging Face no mês passado. O conjunto de dados visa ajudar a testar melhor o desempenho do LLM em 14 idiomas, incluindo árabe, alemão, suaíli e bengali.

A Cohere tem estado ocupada nas últimas semanas. Esta semana, a empresa adicionou capacidades de busca de imagem ao Embed 3, seu produto de incorporação empresarial usado em sistemas de geração aumentada por recuperação (RAG). Ela também aprimorou o ajuste fino para seu modelo Command R 08-2024 este mês.

Fonte

Compartilhe esse conteúdo: