O problema da ‘strawberrry’: Como superar as limitações da IA

Até agora, modelos de linguagem de grande porte (LLMs) como ChatGPT e Claude se tornaram uma palavra comum em todo o mundo. Muitas pessoas começaram a se preocupar que a IA está vindo para seus empregos, então é irônico ver quase todos os sistemas baseados em LLMs lutando em uma tarefa simples: Contar o número de “r”s na palavra “strawberry”. Eles não estão falhando exclusivamente com a letra “r”; outros exemplos incluem contar “m”s em “mammal” e “p”s em “hippopotamus”. Neste artigo, vou analisar a razão para essas falhas e fornecer uma solução simples.

LLMs são poderosos sistemas de IA treinados em vastas quantidades de texto para entender e gerar linguagem semelhante à humana. Eles se destacam em tarefas como responder perguntas, traduzir idiomas, resumir conteúdo e até gerar escrita criativa, prevendo e construindo respostas coerentes com base na entrada que recebem. Os LLMs são projetados para reconhecer padrões no texto, o que lhes permite lidar com uma ampla gama de tarefas relacionadas à linguagem com precisão impressionante.

Apesar de seu poder, falhar em contar o número de “r”s na palavra “strawberry” é um lembrete de que os LLMs não são capazes de “pensar” como os humanos. Eles não processam as informações que lhes fornecemos como um humano faria.

Quase todos os LLMs de alto desempenho atuais são construídos sobre transformadores. Essa arquitetura de aprendizado profundo não ingere diretamente o texto como sua entrada. Eles usam um processo chamado tokenização, que transforma o texto em representações numéricas, ou tokens. Alguns tokens podem ser palavras inteiras (como “macaco”), enquanto outros podem ser partes de uma palavra (como “ma” e “caco”). Cada token é como um código que o modelo entende. Ao dividir tudo em tokens, o modelo pode prever melhor o próximo token em uma frase.

Os LLMs não memorizam palavras; eles tentam entender como esses tokens se encaixam de diferentes maneiras, tornando-os bons em adivinhar o que vem a seguir. No caso da palavra “hippopotamus”, o modelo pode ver os tokens das letras “hip”, “pop”, “o” e “tamus”, e não saber que a palavra “hippopotamus” é composta pelas letras — “h”, “i”, “p”, “p”, “o”, “p”, “o”, “t”, “a”, “m”, “u”, “s”.

Uma arquitetura de modelo que pode olhar diretamente para letras individuais sem tokenizá-las pode potencialmente não ter esse problema, mas para as arquiteturas de transformadores de hoje, não é viável computacionalmente.

Além disso, ao observar como os LLMs geram texto de saída: Eles preveem qual será a próxima palavra com base nos tokens de entrada e saída anteriores. Embora isso funcione para gerar texto humano coerente, não é adequado para tarefas simples como contar letras. Quando solicitado a responder o número de “r”s na palavra “strawberry”, os LLMs estão apenas prevendo a resposta com base na estrutura da frase de entrada.

Aqui está uma solução

Embora os LLMs possam não ser capazes de “pensar” ou raciocinar logicamente, eles são adeptos em entender texto estruturado. Um excelente exemplo de texto estruturado é o código de computador, de muitas linguagens de programação. Se pedirmos ao ChatGPT para usar Python para contar o número de “r”s em “strawberry”, ele provavelmente obterá a resposta correta. Quando há necessidade de LLMs fazerem contagens ou qualquer outra tarefa que possa exigir raciocínio lógico ou computação aritmética, o software mais amplo pode ser projetado de tal forma que os prompts incluam pedir ao LLM para usar uma linguagem de programação para processar a consulta de entrada.

Conclusão

Um simples experimento de contagem de letras expõe uma limitação fundamental dos LLMs como ChatGPT e Claude. Apesar de suas impressionantes capacidades em gerar texto semelhante ao humano, escrever código e responder a qualquer pergunta que lhes seja feita, esses modelos de IA ainda não podem “pensar” como um humano. O experimento mostra os modelos pelo que são, algoritmos preditivos de correspondência de padrões, e não “inteligência” capaz de entender ou raciocinar. No entanto, ter um conhecimento prévio sobre que tipo de prompts funcionam bem pode aliviar o problema até certo ponto. À medida que a integração da IA em nossas vidas aumenta, reconhecer suas limitações é crucial para um uso responsável e expectativas realistas desses modelos.

Fonte