A Waymo quer usar o Gemini do Google para treinar seus robotáxis

A Waymo tem há muito tempo promovido seus vínculos com o DeepMind do Google e suas décadas de pesquisa em IA como uma vantagem estratégica sobre seus rivais no espaço de direção autônoma. Agora, a empresa controlada pela Alphabet está dando um passo adiante ao desenvolver um novo modelo de treinamento para seus robotáxis baseado no modelo de linguagem multimodal grande (MLLM) Gemini do Google.

A Waymo lançou hoje um novo artigo de pesquisa que introduz um “Modelo Multimodal de Ponta a Ponta para Direção Autônoma”, também conhecido como EMMA. Este novo modelo de treinamento de ponta a ponta processa dados de sensores para gerar “trajetórias futuras para veículos autônomos”, ajudando os veículos sem motorista da Waymo a tomar decisões sobre onde ir e como evitar obstáculos.

Mas, mais importante, esta é uma das primeiras indicações de que o líder em direção autônoma tem planos de usar MLLMs em suas operações. E é um sinal de que esses LLMs podem se libertar de seu uso atual como chatbots, organizadores de e-mails e geradores de imagens e encontrar aplicação em um ambiente completamente novo na estrada. Em seu artigo de pesquisa, a Waymo propõe “desenvolver um sistema de direção autônoma no qual o MLLM seja um cidadão de primeira classe”.

Modelo Multimodal de Ponta a Ponta para Direção Autônoma, também conhecido como EMMA

O artigo descreve como, historicamente, os sistemas de direção autônoma desenvolveram “módulos” específicos para as várias funções, incluindo percepção, mapeamento, previsão e planejamento. Essa abordagem tem se mostrado útil por muitos anos, mas tem problemas de escalabilidade “devido aos erros acumulados entre os módulos e à comunicação inter-módulos limitada”. Além disso, esses módulos podem ter dificuldade em responder a “ambientes novos” porque, por natureza, são “pré-definidos”, o que pode dificultar a adaptação.

A Waymo afirma que MLLMs como o Gemini apresentam uma solução interessante para alguns desses desafios por duas razões: o chat é um “generalista” treinado em vastos conjuntos de dados extraídos da internet “que fornecem um rico ‘conhecimento do mundo’ além do que está contido em registros comuns de direção”; e demonstram capacidades de raciocínio “superiores” através de técnicas como “raciocínio em cadeia”, que imita o raciocínio humano ao decompor tarefas complexas em uma série de etapas lógicas.

Modelo EMMA da Waymo.

A Waymo desenvolveu o EMMA como uma ferramenta para ajudar seus robotáxis a navegar em ambientes complexos. A empresa identificou várias situações nas quais o modelo ajudou seus carros sem motorista a encontrar a rota certa, incluindo o encontro com vários animais ou construções na estrada.

Outras empresas, como a Tesla, falaram extensivamente sobre o desenvolvimento de modelos de ponta a ponta para seus carros autônomos. Elon Musk afirma que a versão mais recente de seu sistema de Direção Autônoma Total (12.5.5) usa um sistema de IA de “redes neurais de ponta a ponta” que traduz imagens de câmeras em decisões de direção.

Isso é uma clara indicação de que a Waymo, que tem uma vantagem sobre a Tesla na implantação de veículos realmente sem motorista na estrada, também está interessada em seguir um sistema de ponta a ponta. A empresa disse que seu modelo EMMA se destacou na previsão de trajetórias, detecção de objetos e compreensão de gráficos de estrada.

“Isso sugere uma avenida promissora para pesquisa futura, onde até mesmo mais tarefas centrais de direção autônoma poderiam ser combinadas em uma configuração semelhante e ampliada”, disse a empresa em um post no blog hoje.

Mas o EMMA também tem suas limitações, e a Waymo reconhece que será necessária mais pesquisa antes que o modelo seja colocado em prática. Por exemplo, o EMMA não conseguiu incorporar entradas de sensores 3D de lidar ou radar, que a Waymo disse ser “computacionalmente caro”. E ele só pode processar uma pequena quantidade de quadros de imagem por vez.

Há também riscos em usar MLLMs para treinar robotáxis que não são mencionados no artigo de pesquisa. Chatbots como o Gemini frequentemente alucinam ou falham em tarefas simples, como ler relógios ou contar objetos. A Waymo tem muito pouca margem para erro quando seus veículos autônomos estão viajando a 40 mph em uma estrada movimentada. Mais pesquisa será necessária antes que esses modelos possam ser implantados em larga escala — e a Waymo é clara sobre isso.

“Esperamos que nossos resultados inspirem mais pesquisas para mitigar esses problemas”, escreve a equipe de pesquisa da empresa, “e para evoluir ainda mais o estado da arte nas arquiteturas de modelos de direção autônoma.”

Fonte

Compartilhe esse conteúdo: