Meta revela ferramentas de IA para dar aos robôs um toque humano no mundo físico

Meta fez vários anúncios importantes para robótica e sistemas de IA incorporada esta semana. Isso inclui o lançamento de benchmarks e artefatos para uma melhor compreensão e interação com o mundo físico. Sparsh, Digit 360 e Digit Plexus, os três artefatos de pesquisa lançados pela Meta, focam na percepção tátil, destreza robótica e interação humano-robô. A Meta também está lançando o PARTNR, um novo benchmark para avaliar o planejamento e raciocínio na colaboração humano-robô.

O lançamento ocorre em um momento em que os avanços em modelos fundamentais renovaram o interesse em robótica, e as empresas de IA estão gradualmente expandindo sua corrida do reino digital para o mundo físico.

Há uma nova esperança na indústria de que, com a ajuda de modelos fundamentais, como grandes modelos de linguagem (LLMs) e modelos de linguagem-visual (VLMs), os robôs possam realizar tarefas mais complexas que exigem raciocínio e planejamento.

Percepção tátil

Sparsh, que foi criado em colaboração com a Universidade de Washington e a Universidade Carnegie Mellon, é uma família de modelos de codificador para sensoriamento tátil baseado em visão. Ele é destinado a fornecer aos robôs capacidades de percepção tátil. A percepção tátil é crucial para tarefas de robótica, como determinar quanta pressão pode ser aplicada a um determinado objeto para evitar danificá-lo.

A abordagem clássica para incorporar sensores táteis baseados em visão em tarefas robóticas é usar dados rotulados para treinar modelos personalizados que podem prever estados úteis. Essa abordagem não se generaliza entre diferentes sensores e tarefas.

A Meta descreve o Sparsh como um modelo de propósito geral que pode ser aplicado a diferentes tipos de sensores táteis baseados em visão e várias tarefas. Para superar os desafios enfrentados por gerações anteriores de modelos de percepção tátil, os pesquisadores treinaram os modelos Sparsh por meio de aprendizado auto-supervisionado (SSL), o que elimina a necessidade de dados rotulados. O modelo foi treinado em mais de 460.000 imagens táteis, consolidadas de diferentes conjuntos de dados. De acordo com os experimentos dos pesquisadores, o Sparsh ganha uma melhoria média de 95,1% em relação a modelos de ponta a ponta específicos de tarefas e sensores sob um orçamento limitado de dados rotulados. Os pesquisadores criaram diferentes versões do Sparsh com base em várias arquiteturas, incluindo os modelos I-JEPA e DINO da Meta.

Sensores táteis

Além de aproveitar os dados existentes, a Meta também está lançando hardware para coletar informações táteis ricas do físico. O Digit 360 é um sensor tátil em forma de dedo artificial com mais de 18 características de sensoriamento. O sensor possui mais de 8 milhões de taxéis para capturar deformações omnidirecionais e granulares na superfície da ponta do dedo. O Digit 360 captura várias modalidades de sensoriamento para fornecer uma compreensão mais rica do ambiente e das interações com objetos.

O Digit 360 também possui modelos de IA em dispositivo para reduzir a dependência de servidores baseados em nuvem. Isso permite que ele processe informações localmente e responda ao toque com latência mínima, semelhante ao arco reflexo em humanos e animais.

“Além de avançar na destreza robótica, este sensor inovador tem aplicações potenciais significativas, desde medicina e próteses até realidade virtual e telepresença”, escrevem os pesquisadores da Meta.

A Meta está liberando publicamente o código e os designs do Digit 360 para estimular a pesquisa e inovação impulsionadas pela comunidade na percepção tátil. Mas, assim como no lançamento de modelos de código aberto, ela tem muito a ganhar com a potencial adoção de seu hardware e modelos. Os pesquisadores acreditam que as informações capturadas pelo Digit 360 podem ajudar no desenvolvimento de ambientes virtuais mais realistas, o que pode ser grande para os projetos de metaverso da Meta no futuro.

A Meta também está lançando o Digit Plexus, uma plataforma de hardware-software que visa facilitar o desenvolvimento de aplicações robóticas. O Digit Plexus pode integrar vários sensores táteis de ponta de dedo e pele em uma única mão robótica, codificar os dados táteis coletados dos sensores e transmiti-los a um computador host através de um único cabo. A Meta está liberando o código e o design do Digit Plexus para permitir que os pesquisadores construam sobre a plataforma e avancem na pesquisa de destreza robótica.

A Meta fabricará o Digit 360 em parceria com o fabricante de sensores táteis GelSight Inc. Eles também se associarão à empresa sul-coreana de robótica Wonik Robotics para desenvolver uma mão robótica totalmente integrada com sensores táteis na plataforma Digit Plexus.

Avaliação da colaboração humano-robô

A Meta também está lançando Tarefas de Planejamento e Raciocínio na colaboração humano-robô (PARTNR), um benchmark para avaliar a eficácia dos modelos de IA ao colaborar com humanos em tarefas domésticas.

O PARTNR é construído sobre o Habitat, o ambiente simulado da Meta. Inclui 100.000 tarefas em linguagem natural em 60 casas e envolve mais de 5.800 objetos únicos. O benchmark é projetado para avaliar o desempenho de LLMs e VLMs em seguir instruções de humanos.

O novo benchmark da Meta se junta a um número crescente de projetos que estão explorando o uso de LLMs e VLMs em configurações de robótica e IA incorporada. No ano passado, esses modelos mostraram grande promessa para servir como módulos de planejamento e raciocínio para robôs em tarefas complexas. Startups como Figure e Covariant desenvolveram protótipos que usam modelos fundamentais para planejamento. Ao mesmo tempo, laboratórios de IA estão trabalhando para criar melhores modelos fundamentais para robótica. Um exemplo é o projeto RT-X do Google DeepMind, que reúne conjuntos de dados de vários robôs para treinar um modelo de visão-linguagem-ação (VLA) que se generaliza para várias morfologias e tarefas robóticas.

Fonte

Compartilhe esse conteúdo: