O velho ditado diz que, com tecnologia, você nunca deve comprar a primeira geração de qualquer coisa nova. Espere os desenvolvedores resolverem os problemas, então volte a conferir. Estamos agora dois anos na “revolução” da IA, e estamos sendo arrastados para o terceiro. A IA deveria ser a próxima grande novidade já; as arestas deveriam ter sido aparadas, e as peças do quebra-cabeça deveriam se encaixar. Não está lá ainda. Este ano foi grande para a IA, mas o próximo ano mostrará a verdadeira promessa da inteligência artificial em dispositivo se concretizando. Onde já ouvimos isso antes?
A IA não atendeu a muitas das promessas feitas pelas empresas de tecnologia, grandes e pequenas. Em 2024, dispositivos específicos de IA falharam. A IA no Mac ou PC também não deixou uma forte impressão. Não houve uma onda de aplicativos de IA que utilizassem os processadores neurais dos novos laptops, e a maioria dos aplicativos depende de computação em nuvem. As principais aplicações de IA parecem ser programadores encontrando maneiras de acabar com sua própria indústria. Caso contrário, golpistas estão usando a IA para encher a internet com falsificações, lixo e porcarias. A IA em dispositivo empurra consumidores comuns a escrever ou resumir e-mails com IA. Isso não soa exatamente como o aplicativo killer de IA.
É por isso que as grandes empresas de tecnologia estão agora promovendo a IA “agente”. As empresas prometem que grandes modelos de linguagem farão todo o seu trabalho chato por você de forma perfeita e não intrusiva. Talvez, com agentes, a IA possa ganhar vida em 2025. Só vimos algumas demonstrações de como essa IA funcionará. Pesquisas mostram que os recursos atuais de IA não entusiasmam os usuários da Apple e do Android. Em essência, a grande tecnologia precisa que a IA agente decole. Sem isso, os usuários comuns se perguntarão qual é a graça.
Ninguém Desvendou a IA Vestível
O Rabbit R1 deveria ser seu dispositivo de IA para tudo. A última atualização beta finalmente adicionou um “modo de ensino” que foi prometido no início. Foto: Kyle Barr / Gizmodo
Este ano trouxe uma enxurrada de dispositivos vestíveis e portáteis de IA, como o Humane AI Pin e o Rabbit R1. Ambos os dispositivos foram lançados muito cedo, com software obtuso que efetivamente forneceu pouco mais do que acesso rápido a um chatbot de IA como o ChatGPT.
Houve uma avalanche de produtos ruins tão grande que não tivemos tempo de cobrir tudo. Eu usei o Timekettle X1 Interpreter Hub, um dispositivo de tradução do tamanho de um bolso que se gaba de suas capacidades de tradução de IA. Ele poderia se manter em uma conversa em inglês e espanhol em nossos testes. No entanto, tentar inglês para urdu começaria a inserir celebridades paquistanesas aleatórias ou referências a Deus no meio de uma interpretação. Foi insultante e hilário em igual medida para meu colega que fala urdu. Ele teve um desempenho pior em alguns outros idiomas do que o aplicativo Google Translate.
E não foram apenas marcas menores que não conseguiram cumprir a promessa total da IA específica do dispositivo. As características de reconhecimento de imagem da IA dos óculos Ray-Ban da Meta às vezes lutam para compreender o que está à sua frente. Pelo menos esses óculos ainda podem tirar fotos sem precisar de IA baseada em nuvem, algo que outros dispositivos não conseguem gerenciar. O Humane AI Pin, de $700, não atendeu às suas promessas elevadas. Os revisores notaram que ele frequentemente falhava em identificar objetos corretamente à sua frente, e mesmo quando estava preciso, era prejudicado por uma vida útil de bateria ruim e problemas de aquecimento. A Humane posteriormente lembrou o pacote de carregamento devido a preocupações com riscos de incêndio. Uma vez avaliada em cerca de $850 milhões, a empresa supostamente viu mais devoluções do que vendas até o meio do ano.
A promessa da IA específica do dispositivo foi esmagada repetidamente. O Rabbit R1 foi lançado algumas semanas após o Humane Pin. O CEO Jesse Lyu comparou diretamente seu dispositivo de $200 aos rivais e afirmou que seu “sistema operacional personalizado” e “modelo de ação grande” seriam seu verdadeiro assistente de IA. O lançamento foi um desastre. Os usuários rapidamente abriram o LAM e descobriram que o sistema operacional baseado em Android poderia rodar em telefones. A maioria de suas capacidades era facilitada pela nuvem. O dispositivo também poderia se conectar a alguns aplicativos externos, mas hackers éticos e desenvolvedores descobriram que podiam acessar dados de usuários também disponíveis para a equipe interna da Rabbit.
Houve mais hardware centrado em IA, como o Plaud NotePin, que oferece transcrição e anotação baseadas em IA. Funciona graças a um caso de uso limitado. Inevitavelmente, você se perguntará se seu dispositivo atual pode lidar com essas mesmas capacidades. O Google tem o Pixel Recorder, e iPhones e Macs têm gravações de voz com capacidades de transcrição.
Para seu crédito, os desenvolvedores de hardware de IA tentaram melhorar seus dispositivos. Em novembro, a Rabbit atualizou seu sistema operacional para permitir “agentes de IA personalizados” com um modo de ensino. Isso era essencialmente prometido com o LAM há meio ano. O modo ainda está em beta, mas o problema permanece que o dispositivo não tem acesso direto aos aplicativos que você deseja usar.
Em dezembro, a Humane começou a promover seu CosmOS, “construído do zero para a IA”, para dispositivos fora do AI Pin. Eles querem colocá-lo em carros, usá-lo para tecnologia de casa inteligente e até colocá-lo em sua TV para analisar a ação na tela. O “condutor inteligente” funcionará essencialmente como qualquer outra oferta de agente, mergulhando em seus dispositivos e informações para realizar tarefas em seu nome.
A transição de “dispositivo de IA” para “dispositivo de IA agente” foi tranquila. A promessa desses dispositivos falhou em impressionar, mas agora eles usam a mesma estratégia de hype para a IA agente. Esperamos mais desses tipos de dispositivos na CES 2025 no próximo mês. Eles usarão a mesma linguagem para “assistente de IA”, mas será na nova versão da moda da Agente. O veredito está em aberto sobre se serão bons, mas não parece bom se esses dispositivos não conseguem descobrir algo que seu telefone já não faça.
O ‘PC de IA’ Ainda Não Se Materializou
O grande lançamento do Copilot+ PC resultou em alguns aplicativos de gerador de imagem de IA estranhos e transcrições de vídeo. Foto: Artem Golub / Gizmodo
Fabricantes de chips como Intel e Qualcomm enfatizaram o ponto sobre seus processadores neurais ou NPUs. Essa foi a história com os chips Snapdragon X Elite e X Plus da Qualcomm. A Microsoft chamou qualquer PC com chip ARM da Qualcomm de “PC Copilot+”. Todos aqueles “PCs de IA” com Meteor Lake da Intel foram deixados de fora.
Eu sentei em frente à Intel em janeiro e perguntei a um dos VPs seniores da empresa, Sachin Katti, se a corrida inicial de “PCs de IA” era realmente capaz de rodar IA em dispositivo. Sim, eles poderiam, ele me disse. O único problema era a falta de aplicativos. Pela primeira vez na história da tecnologia, a tecnologia superou os aplicativos disponíveis. Era responsabilidade dos desenvolvedores atender à demanda, disse ele.
Os maiores aplicativos de IA em 2024 eram chatbots—como Perplexity, Claude, ChatGPT, e mais—nenhum dos quais exigia processamento de IA em dispositivo. Então veio o Copilot+. Foi o ponto de virada para chips baseados em ARM em PCs com os novos Snapdragon X Elite e X Plus da Qualcomm. Cada chip tinha um NPU capaz de 45 TOPS, ou trilhões de operações por segundo (um valor derivado que, argumentavelmente, não é ótimo para descrever capacidades de IA). Nenhum dos chips Intel anteriores atendia aos requisitos para ser Copilot+. Não seria até os meses seguintes que os chips Strix Point da AMD e Lunar Lake da Intel poderiam reivindicar o cobiçado título de Copilot+.
Usar esses recursos era outra questão. Os PCs enviados com o novo botão Copilot para acesso instantâneo ao chatbot preferido da Microsoft. No entanto, os únicos recursos de IA em dispositivo incluídos eram alguns geradores de imagem de IA e legendas ao vivo em videochamadas ou em vídeos. O recurso de IA principal da Microsoft, Recall, deveria dar ao seu PC “memória fotográfica” ao capturar tudo o que você fez e, em seguida, transcrevê-lo com IA.
A Microsoft adiou o recurso pouco antes de muitos OEMs planejarem lançar seus primeiros laptops. Pesquisadores de segurança provaram que as transcrições de capturas de tela poderiam ser acessadas sem qualquer camada de segurança real. A Microsoft só permitiu que testadores beta do Windows 11 acessassem o recurso em novembro. Julgando pela última versão beta, o Recall ainda requer algum ajuste. Funciona. Se você está bem com sua vida e algumas informações potencialmente sensíveis sendo capturadas, é útil para aqueles com memória ruim.
Então você chega à Apple, e os recursos atuais de IA chegaram tão tarde em 2024 que era melhor que todos fossem adiados até 2025. A última versão estável do macOS Sequoia 15.2 chegou em dezembro, trazendo o Image Playground e a integração do ChatGPT com a Siri para Macs. Pelo menos, você só precisa de um Mac com chip M para acessar esses recursos, ao contrário do iPhone, que requer um modelo iPhone 15 Pro ou iPhone 16.
Se você tem um dispositivo Apple mais antigo, não está perdendo nada. O Image Playground cria imagens caricaturais de você ou de seus amigos com rostos que parecem uma mistura entre um artista de caricatura preguiçoso e o modo de cabeça grande em um jogo de vídeo antigo. A integração do ChatGPT oferece pouco mais do que uma pesquisa típica no Google. Também dificulta encontrar chats passados através do widget embutido, que agora está proeminentemente na barra de ferramentas superior.
Os NPUs desses dispositivos só podem executar tarefas de IA simplistas ou de fundo. Para tarefas de IA mais complexas, como rodar os modelos de IA de ponta promovidos por essas empresas, você precisa de uma GPU. Uma Nvidia GeForce RTX 4090 pode fazer mais de 1.300 TOPS, 26 vezes o que os NPUs de ponta de hoje podem fazer. Em dezembro, a Nvidia lançou o Orin Nano de $250, que foi construído especificamente para executar aplicações de IA localmente. O processador promete 67 TOPS.
Enquanto a IA Atinge ‘a Parede’, a IA Agente Precisa Assumir a Responsabilidade
Sam Altman, CEO da OpenAI, fala com a mídia ao chegar ao Sun Valley Lodge para a Conferência Allen & Company em 11 de julho de 2023. Foto por Kevin Dietsch/Getty Images
Os modelos Gemini mais recentes e melhores estão disponíveis para os novos proprietários do Chromebook Plus, então me familiarizei com a IA em dispositivo do Google, mesmo além dos telefones. Em dezembro, o Google lançou o Gemini 2.0, o modo avançado para assinantes do Gemini Advanced. Você teria que ser um usuário muito dedicado para notar a diferença entre os modelos. A nova versão deve ter melhor capacidade de codificação e linguagem, mas se você a usa apenas para texto, a diferença é que o 2.0 Pro será mais verboso do que o 1.5 Pro.
Uma grande razão pela qual a IA está se tornando “agente” é “a parede”. Nos círculos de IA, é o termo coloquial para como fornecer mais dados de treinamento à IA resulta em retornos decrescentes. O cofundador da OpenAI, Ilya Sutskever, que não economizou palavras sobre seu antigo empregador, disse a uma multidão em uma conferência em Vancouver que os desenvolvedores de IA estão ficando sem dados para treinar modelos de IA, dizendo: “Temos que lidar com os dados que temos. Só há uma internet.” Isso não quer dizer que os modelos de IA não possam melhorar. Sutskever, agora cofundador da startup AI Labs, disse anteriormente à Reuters que a era da “escalabilidade” acabou e que agora é a hora da “descoberta”.
Modelos mais novos, como o modelo GPT-o1 da OpenAI, são projetados com melhor raciocínio em mente. Mas melhores benchmarks não resultam necessariamente em melhores resultados para um usuário comum. Se você já não está impressionado com os modelos de IA de hoje, provavelmente não ficará impressionado com os grandes lançamentos do próximo ano. É por isso que a OpenAI está promovendo agentes de IA Altera, e relatos sugerem que a grande empresa de IA de Sam Altman lançará um agente de IA autônomo codinome “Operador”.
É por isso que os agentes precisam decolar. A Anthropic, criadores do Claude, nos ofereceu um gostinho do que isso implica em uma demonstração lançada em outubro. As demonstrações mostram como os usuários poderiam pedir ao Claude 3.5 Sonnet para acessar o Google Chrome, digitar uma pesquisa no Google e, em seguida, adicionar um evento ao calendário do usuário.
Estamos tentando algo fundamentalmente novo.
Em vez de criar ferramentas específicas para ajudar Claude a concluir tarefas individuais, estamos ensinando habilidades gerais de computação—permitindo que ele use uma ampla gama de ferramentas e programas de software padrão projetados para pessoas. pic.twitter.com/42u8VeTvXd
— Anthropic (@AnthropicAI) 22 de outubro de 2024
É uma demonstração divertida, embora você esteja oferecendo à IA um olhar profundo em sua vida pessoal. A Anthropic observou que a IA acidentalmente parou a gravação de tela da empresa em um ponto, o que foi por conta própria. Se a IA falhar em qualquer parte de uma longa cadeia de tarefas, pode causar uma cascata de problemas para todo o prompt. Imagine se ela reserva o voo errado para você ou coloca o horário errado em seu calendário para quando você deve buscar sua mãe no aeroporto.
No final do ano passado, especulei sobre a ascensão da IA em PCs. Isso foi antes de a Microsoft trazer a chave Copilot para este mundo. Eu me perguntei como seria se a IA pudesse assumir meu PC e controlar as configurações sem precisar vasculhar as configurações do Windows. Imagine dizer ao seu PC para trazer os controles para a configuração de brilho do seu laptop sem precisar navegar pelo Windows ou pelo bloatware que foi incluído primeiro em seu dispositivo. O que aconteceria se pudesse fazer isso sem uma conexão com a internet, usando modelos armazenados no dispositivo para que eu não tivesse que me preocupar com agências externas acessando meus e-mails ou calendários?
Configurações não são sexy, mas facilitar para os usuários seria uma bênção. A Apple prometeu que a Apple Intelligence será, em vez disso, o tipo de assistente da vida cotidiana. Ela quer que você imagine se cada usuário de iPhone, iPad ou Mac tivesse um mordomo capaz de mergulhar em seus e-mails, extrair as informações necessárias e transformar isso em um evento de calendário.
A IA Agente Tem Implicações de Privacidade, e Não Sabemos Como a Grande Tecnologia Abordará Isso
Aplicativos agentes dão à IA acesso a muitas de suas informações sensíveis. Esta não é a IA que pode ser tratada em dispositivo; ela requer processamento em nuvem. A Apple promete manter suas informações seguras com uma estrutura de computação em nuvem privada que cria um firewall entre suas informações e os servidores da empresa.
Até agora, as iniciativas de agentes da Microsoft se concentraram em seu setor empresarial, especificamente para aqueles que usam aplicativos 365 em ambientes de negócios. Ela promove um Copilot Studio para empresas criarem seus próprios agentes de IA internos.
Como seu FAQ afirma, a OpenAI tem acesso direto aos seus registros de chat no ChatGPT, mas afirma que é limitado a “pessoal autorizado”. O Google não detalhou seus planos de privacidade para quando o Gemini se tornar agente, mas a empresa tem acesso à sua atividade, incluindo seus chats. Ela afirma que usa essas informações para “melhorar produtos do Google e tecnologias de aprendizado de máquina”.
A IA Agente está chegando. Com o tempo, ela deslizará para nossos telefones, computadores e outros dispositivos sob a bandeira de recursos “experimentais” ou “beta”. Os principais fabricantes de chips continuarão a alardear o valor de TOPS de suas novas CPUs, e Google, Microsoft e Apple tentarão superar uns aos outros com seus assistentes baseados em IA. Será a mesma velha história, na marcha sem fim do hype.