Um juiz de Nova York recentemente chamou a atenção de uma testemunha especialista por usar o chatbot Copilot da Microsoft para estimar de forma imprecisa os danos em uma disputa imobiliária que dependia parcialmente de uma avaliação precisa dos danos para vencer.
Em uma ordem na quinta-feira, o juiz Jonathan Schopf advertiu que “devido à natureza da rápida evolução da inteligência artificial e suas questões de confiabilidade inerentes”, qualquer uso de IA deve ser divulgado antes do testemunho ou evidência ser admitida em tribunal. Admitindo que o tribunal “não tem uma compreensão objetiva de como o Copilot funciona”, Schopf sugeriu que o sistema jurídico poderia ser interrompido se os especialistas começassem a depender excessivamente de chatbots em massa.
Seu aviso veio após um testemunha especialista, Charles Ranson, ter usado de forma duvidosa o Copilot para verificar cálculos em uma disputa sobre uma propriedade de aluguel de $485.000 nas Bahamas que havia sido incluída em um trust para o filho de um homem falecido. O tribunal estava sendo solicitado a avaliar se a executora e fiduciária—irmã do homem falecido—violou seus deveres fiduciários ao atrasar a venda da propriedade enquanto a usava para férias pessoais.
Para vencer, o filho sobrevivente teve que provar que sua tia violou seus deveres ao reter a propriedade, que suas férias lá eram uma forma de auto-negociação, e que ele sofreu danos devido ao suposto uso indevido da propriedade por ela.
Cabe a Ranson descobrir quanto seria devido ao filho se a tia tivesse vendido a propriedade em 2008 em comparação ao preço de venda real em 2022. Mas Ranson, um especialista em litígios de trust e propriedade, “não tinha nenhuma experiência relevante em imóveis”, disse Schopf, constatando que o testemunho de Ranson era “totalmente especulativo” e não considerava fatos óbvios, como o impacto da pandemia nos preços de aluguel ou despesas de trust como impostos sobre imóveis.
Aparentemente porque Ranson não tinha a experiência relevante em imóveis, ele recorreu ao Copilot para preencher as lacunas e calcular os números. A ação surpreendeu o especialista em direito da Internet Eric Goldman, que disse à Ars que “advogados contratam testemunhas especialistas por sua expertise especializada, e não faz sentido que uma testemunha especialista essencialmente terceirize essa expertise para IA generativa.”
“Se a testemunha especialista está simplesmente pedindo a um chatbot um cálculo, então os advogados poderiam fazer esse mesmo pedido diretamente sem depender da testemunha especialista (e pagar as substanciais taxas da especialista)”, sugeriu Goldman.
Talvez a equipe jurídica do filho não estivesse ciente do grande papel que o Copilot desempenhou. Schopf observou que Ranson não conseguia se lembrar dos comandos que usou para chegar à sua estimativa de danos. A testemunha especialista também não conseguia lembrar de nenhuma fonte para as informações que obteve do chatbot e admitiu que não tinha uma compreensão básica de como o Copilot “funciona ou como chega a um determinado resultado.”
A Ars não conseguiu entrar em contato com Ranson imediatamente para comentar. Mas na ordem de Schopf, o juiz escreveu que Ranson defendeu o uso do Copilot como uma prática comum para testemunhas especialistas como ele hoje.
“Ranson foi categórico em seu testemunho de que o uso do Copilot ou outras ferramentas de inteligência artificial, para redação de relatórios periciais é geralmente aceito no campo dos serviços fiduciários e representa o futuro da análise de decisões fiduciárias; no entanto, ele não conseguiu nomear nenhuma publicação sobre seu uso ou quaisquer outras fontes para confirmar que é uma metodologia geralmente aceita”, escreveu Schopf.
Goldman observou que a dependência de Ranson no Copilot para “o que era essencialmente um cálculo numérico era especialmente intrigante devido às conhecidas tendências alucinatórias da IA generativa, o que torna os cálculos numéricos não confiáveis.”
Como Ranson foi tão ruim em explicar como o Copilot funciona, Schopf se deu ao trabalho de realmente tentar usar o Copilot para gerar as estimativas que Ranson obteve—e ele não conseguiu.
Cada vez, o tribunal inseriu a mesma consulta no Copilot—”Você pode calcular o valor de $250.000 investidos no Vanguard Balanced Index Fund de 31 de dezembro de 2004 até 31 de janeiro de 2021?”—e cada vez o Copilot gerou uma resposta ligeiramente diferente.
Isso “coloca em dúvida a confiabilidade e a precisão do Copilot para gerar evidências a serem utilizadas em um processo judicial”, escreveu Schopf.
Chatbot não é o culpado, diz juiz
Enquanto o tribunal experimentava o Copilot, eles também indagaram o chatbot sobre uma questão legal mais ampla: As respostas do Copilot são precisas o suficiente para serem citadas em tribunal?
O tribunal descobriu que o Copilot tinha menos fé em suas saídas do que Ranson aparentemente tinha. Quando perguntado “você é preciso” ou “confiável”, o Copilot respondeu que “minha precisão é tão boa quanto minhas fontes, então para questões críticas, é sempre sábio verificar.” Quando perguntado mais especificamente, “Suas cálculos são confiáveis o suficiente para uso em tribunal”, o Copilot igualmente recomendou que as saídas “devem sempre ser verificadas por especialistas e acompanhadas de avaliações profissionais antes de serem usadas em tribunal.”
Embora parecesse claro que Ranson não verificou as saídas antes de usá-las em tribunal, Schopf observou que pelo menos “os desenvolvedores do programa Copilot reconhecem a necessidade de sua supervisão por um operador humano treinado para verificar a precisão das informações submetidas, bem como a saída.”
A Microsoft recusou o pedido da Ars para comentar.
Até que uma regra clara exista dizendo aos tribunais quando aceitar testemunhos gerados por IA, Schopf sugeriu que os tribunais devem exigir divulgações dos advogados para impedir que testemunhos inadmissíveis gerados por chatbots interrompam o sistema jurídico.
“O uso da inteligência artificial é uma realidade em rápido crescimento em muitas indústrias”, escreveu Schopf. “O mero fato de que a inteligência artificial desempenhou um papel, que continua a se expandir em nossas vidas cotidianas, não torna os resultados gerados pela inteligência artificial admissíveis em tribunal.”
No final, Schopf constatou que não houve violação do dever fiduciário, negando a necessidade do testemunho sobre danos de Ranson, copiado do Copilot, no caso da propriedade nas Bahamas. Schopf negou todas as objeções do filho na íntegra (assim como quaisquer reivindicações futuras) após criticar longamente o uso indevido do chatbot por Ranson.
Mas em sua ordem, o juiz sugeriu que Ranson parecia ter tudo errado antes de envolver o chatbot.
“Se ele foi ou não contratado e/ou qualificado como um especialista em danos em áreas além dos deveres fiduciários, seu testemunho mostra que ele admitidamente não realizou uma análise completa do problema, utilizou um período de tempo incorreto para danos, e falhou em considerar elementos óbvios em seus cálculos, tudo isso vai contra o peso e a credibilidade de sua opinião”, escreveu Schopf.
Schopf observou que as evidências mostraram que, em vez de o filho ter perdido dinheiro com a gestão do trust por sua tia—o que os supostos outputs do chatbot de Ranson apoiavam—, a venda da propriedade em 2022 levou a “nenhuma perda de capital atribuível” e “na verdade, gerou um lucro geral para o Trust.”
Goldman sugeriu que Ranson aparentemente não se esforçou muito ao empregar o Copilot de uma forma que parecia prejudicar sua credibilidade em tribunal.
“Não teria sido difícil para o especialista extrair os dados necessários diretamente de fontes primárias, então o processo nem mesmo economizou muito tempo—mas esse atalho custou a credibilidade do especialista.”