O avatar de IA da Nvidia sentou-se na tela do meu computador e me deixou desconfortável

A Nvidia revelou um protótipo de avatar de IA na CES 2025 que vive na área de trabalho do seu PC. O assistente de IA, R2X, se parece com um personagem de videogame e pode ajudá-lo a navegar pelos aplicativos do seu computador.

O avatar R2X é renderizado e animado usando os modelos de IA da Nvidia, e os usuários podem executar o avatar em LLMs populares de sua escolha, como o GPT-4o da OpenAI ou o Grok da xAI. Os usuários podem conversar com o R2X por meio de texto e voz, enviar arquivos para processamento ou até mesmo permitir que o assistente de IA veja o que está acontecendo ao vivo na sua tela ou câmera.

As empresas de tecnologia estão criando muitos avatares de IA recentemente, não apenas em videogames, mas também para clientes empresariais e consumidores. As primeiras demonstrações são estranhas, mas alguns acreditam que esses avatares são uma interface promissora para assistentes de IA. Com o R2X, a Nvidia está tentando combinar as capacidades generativas de videogame com assistentes de IA de ponta para criar um assistente de IA que pareça e se sinta como um humano.

Assim como o recurso Recall da Microsoft (que foi adiado devido a preocupações com a privacidade), o R2X pode tirar capturas de tela constantes da sua tela e executá-las através de um modelo de IA para processamento, embora esse recurso esteja desativado por padrão. Quando ativado, ele pode oferecer feedback sobre os aplicativos em execução no seu computador e, por exemplo, ajudá-lo a resolver uma tarefa de codificação complexa.

O R2X ainda é um protótipo, e até a Nvidia admite que ainda há alguns bugs a serem resolvidos. Em demonstrações com a TechCrunch, o avatar da Nvidia teve uma sensação de vale estranha — seu rosto às vezes ficava preso em posições estranhas, e seu tom parecia um pouco agressivo em alguns momentos. E, de forma geral, acho estranho ter um pequeno avatar humanoide me encarando enquanto trabalho.

Ele geralmente ofereceu instruções úteis e visualizou com precisão o que estava na tela. Mas em um momento, o avatar nos deu instruções incorretas e, mais tarde, o avatar parou de conseguir visualizar a tela. Isso pode ser um problema com o modelo de IA subjacente (neste caso, o GPT-4o), mas o exemplo mostra as limitações dessa tecnologia inicial.

Em uma demonstração, um líder de produto da Nvidia mostrou como o R2X pode visualizar e ajudar os usuários com os aplicativos na sua tela. Especificamente, o R2X nos ajudou a usar o recurso de preenchimento generativo do Adobe Photoshop. A foto que selecionamos era do CEO da Nvidia, Jensen Huang, em um restaurante asiático com dois trabalhadores do restaurante. O avatar da Nvidia alucina e deu instruções erradas sobre onde encontrar o recurso de preenchimento generativo. Mas após mudar o modelo de IA que usamos para o Grok da xAI, o avatar recuperou suas habilidades de visualização da tela.

Em outra demonstração, o R2X foi capaz de ingerir um PDF da área de trabalho e, em seguida, responder perguntas sobre ele. Esse processo é alimentado por um recurso de geração aumentada de recuperação local, que dá a esses avatares de IA a capacidade de extrair informações de um documento e processá-las usando seu LLM subjacente.

A Nvidia está usando alguns modelos de IA de sua divisão de videogames para alimentar a aparência desses avatares. Para gerar avatares, a Nvidia usa seu algoritmo de rostos neurais RTX. Para automatizar o movimento do rosto, lábios e língua, a Nvidia está usando um novo modelo chamado Audio2Face™-3D. Esse modelo parecia travar em alguns momentos, mantendo o rosto dos avatares em posições estranhas.

A empresa também afirma que esses avatares R2X poderão participar de reuniões do Microsoft Teams, atuando como um assistente pessoal.

Um líder de produto da Nvidia diz que a empresa está trabalhando para dar a esses avatares de IA habilidades agentivas também, para que o R2X possa um dia realizar ações na sua área de trabalho. Essas habilidades parecem estar longe de se concretizar e provavelmente exigiriam parcerias com fabricantes de software como Microsoft e Adobe, que estão tentando desenvolver sistemas agentivos semelhantes.

Não está imediatamente claro como a Nvidia está gerando as vozes nesses produtos. A voz do R2X ao usar o GPT-4o soa única em relação a qualquer uma das vozes predefinidas do ChatGPT, enquanto o chatbot Grok da xAI ainda não possui um modo de voz.

A empresa planeja tornar esses avatares de código aberto na primeira metade de 2025. A Nvidia vê isso como uma nova interface de usuário para desenvolvedores construírem, permitindo que os usuários conectem seus produtos de software de IA favoritos ou até mesmo executem esses avatares localmente.

Fonte

Compartilhe esse conteúdo: