O MIT apresentou esta semana um novo modelo para treinar robôs. Ao invés do conjunto padrão de dados usados para ensinar novas tarefas aos robôs, o método é amplo, imitando os enormes volumes de informação utilizados para treinar grandes modelos de linguagem (LLMs).
Os pesquisadores observam que o aprendizado por imitação — em que o agente aprende seguindo um indivíduo realizando uma tarefa — pode falhar quando pequenos desafios são introduzidos. Esses podem ser fatores como iluminação, um ambiente diferente ou novos obstáculos. Nessas situações, os robôs simplesmente não têm dados suficientes para se adaptar.
A equipe se inspirou em modelos como o GPT-4 para uma abordagem de resolução de problemas baseada em dados de força bruta.
“No domínio da linguagem, os dados são apenas frases”, diz Lirui Wang, autor principal do novo artigo. “Na robótica, dada toda a heterogeneidade nos dados, se quisermos pré-treinar de maneira semelhante, precisamos de uma arquitetura diferente.”
A equipe introduziu uma nova arquitetura chamada Transformers Pré-treinados Heterogêneos (HPT), que reúne informações de diferentes sensores e ambientes. Um transformer foi então utilizado para compilar os dados em modelos de treinamento. Quanto maior o transformer, melhor a saída.
Os usuários então inserem o design do robô, a configuração e o trabalho que desejam realizar.
“Nosso sonho é ter um cérebro universal de robô que você possa baixar e usar para seu robô sem nenhum treinamento”, disse David Held, professor associado da CMU, sobre a pesquisa. “Embora ainda estejamos nos estágios iniciais, continuaremos avançando e esperamos que a escalabilidade leve a um avanço nas políticas robóticas, como aconteceu com grandes modelos de linguagem.”
A pesquisa foi financiada, em parte, pelo Toyota Research Institute. No ano passado, no TechCrunch Disrupt, o TRI apresentou um método para treinar robôs da noite para o dia. Mais recentemente, firmou uma parceria histórica que unirá sua pesquisa de aprendizado de robôs com o hardware da Boston Dynamics.