A tração da IA na vasta repositório de artigos de revistas da internet reproduziu um erro que se infiltrou em dezenas de artigos de pesquisa—e agora uma equipe de pesquisadores encontrou a fonte do problema.
É a pergunta na ponta da língua de todos: O que diabos é ‘microscopia eletrônica vegetativa’? Acontece que o termo é sem sentido.
Parece técnico—talvez até credível—mas é completo nonsense. E ainda assim, está aparecendo em artigos científicos, respostas de IA e até mesmo em periódicos revisados por pares. Então… como essa frase fantasma se tornou parte do nosso conhecimento coletivo?
Como relatado meticulosamente pelo Retraction Watch em fevereiro, o termo pode ter sido extraído de colunas paralelas de texto em um artigo de 1959 sobre paredes celulares bacterianas. A IA parece ter saltado as colunas, lendo duas linhas de texto não relacionadas como uma única frase contínua, segundo um investigador.
O texto farkakte é um caso clássico do que os pesquisadores chamam de fóssil digital: Um erro que é preservado nas camadas de dados de treinamento da IA e aparece inesperadamente em saídas futuras. Os fósseis digitais são “quase impossíveis de remover de nossos repositórios de conhecimento”, de acordo com uma equipe de pesquisadores de IA que rastreou o curioso caso da ‘microscopia eletrônica vegetativa’, como observado na The Conversation.
O processo de fossilização começou com um simples erro, como a equipe relatou. Nos anos 1950, dois artigos foram publicados na Bacteriological Reviews que foram posteriormente digitalizados. O layout das colunas como apareceram nesses artigos confundiu o software de digitalização, que misturou a palavra ‘vegetativa’ de uma coluna com ‘eletrônica’ de outra. A fusão é uma chamada ‘frase torturada’—uma que está oculta à vista, mas aparente para software e modelos de linguagem que “leem” texto.
Como cronicado pelo Retraction Watch, quase 70 anos após a publicação dos artigos de biologia, ‘microscopia eletrônica vegetativa’ começou a aparecer em artigos de pesquisa do Irã.
Lá, um erro de tradução em Farsi pode ter ajudado a reintroduzir o termo: as palavras para ‘vegetativa’ e ‘digitalização’ diferem por apenas um ponto na escrita persa—e a microscopia eletrônica de varredura é uma coisa muito real. Isso pode ter sido tudo o que foi necessário para que a terminologia falsa escorregasse de volta para o registro científico.
Mas mesmo que o erro tenha começado com uma tradução humana, a IA o replicou pela web, de acordo com a equipe que descreveu suas descobertas na The Conversation. Os pesquisadores solicitaram modelos de IA com trechos dos artigos originais, e de fato, os modelos de IA completaram confiavelmente frases com o termo BS, em vez de opções cientificamente válidas. Modelos mais antigos, como o GPT-2 da OpenAI e o BERT, não produziram o erro, dando aos pesquisadores uma indicação de quando a contaminação dos dados de treinamento dos modelos ocorreu.
“Também descobrimos que o erro persiste em modelos posteriores, incluindo o GPT-4o e o Claude 3.5 da Anthropic”, escreveu o grupo em sua postagem. “Isso sugere que o termo sem sentido pode agora estar permanentemente embutido nas bases de conhecimento da IA.”
O grupo identificou o conjunto de dados CommonCrawl—um repositório colossal de páginas da internet raspadas—como a provável fonte do infeliz termo que foi, em última análise, capturado por modelos de IA. Mas, por mais complicado que foi encontrar a fonte dos erros, eliminá-los é ainda mais difícil. O CommonCrawl consiste em petabytes de dados, o que dificulta para pesquisadores fora das maiores empresas de tecnologia resolverem problemas em grande escala. Isso sem mencionar o fato de que as principais empresas de IA são notoriamente resistentes a compartilhar seus dados de treinamento.
Mas as empresas de IA são apenas parte do problema—editores famintos por periódicos são outra fera. Como relatado pelo Retraction Watch, o gigante editorial Elsevier tentou justificar a sensatez da ‘microscopia eletrônica vegetativa’ antes de, em última análise, emitir uma correção.
O periódico Frontiers teve seu próprio debacle no ano passado, quando foi forçado a retractar um artigo que incluía imagens geradas por IA sem sentido de genitais de ratazanas e caminhos biológicos. No início deste ano, uma equipe de pesquisadores na Misinformation Review da Harvard Kennedy School destacou o agravamento do problema dos chamados ‘junk science’ no Google Scholar, essencialmente subprodutos não científicos que são arrastados pelo motor.
A IA tem casos de uso genuínos nas ciências, mas sua implantação descontrolada em grande escala está repleta de perigos de desinformação, tanto para pesquisadores quanto para o público inclinado à ciência. Uma vez que os relíquias errôneas da digitalização se tornam embutidas no registro fóssil da internet, pesquisas recentes indicam que é bastante difícil de controlar.