O primeiro Amazon Echo, lá em 2014, foi apresentado como um dispositivo para algumas coisas simples: tocar música, fazer perguntas básicas, obter a previsão do tempo. Desde então, a Amazon encontrou algumas novas funções para as pessoas, como controlar dispositivos inteligentes. Mas uma década depois, a Alexa ainda é principalmente para tocar música, fazer perguntas básicas e obter a previsão do tempo. E isso se deve, em grande parte, ao fato de que, mesmo com a Amazon tornando a Alexa onipresente em dispositivos e lares, ela nunca convenceu os desenvolvedores a se importarem.
A Alexa nunca deveria ter uma loja de aplicativos. Em vez disso, tinha “habilidades”, que a Amazon esperava que os desenvolvedores usassem para conectar a Alexa a novas funcionalidades e informações. Os desenvolvedores não deveriam construir suas próprias coisas em cima de um sistema operacional, eles deveriam criar novas funções para a Alexa. A diferença é sutil, mas importante. Nossos telefones são principalmente uma série de experiências desconectadas — o Instagram é um universo totalmente separado do TikTok e do Snapchat e do seu aplicativo de calendário e do Gmail. Isso simplesmente não funciona para a Alexa ou qualquer outro assistente bem-sucedido. Se ela conhece sua lista de tarefas, mas não seu calendário ou conhece seu tipo favorito de pizza, mas não seu número de cartão de crédito, não pode fazer muito. Ela precisa de acesso a tudo e todas as ferramentas necessárias à sua disposição para realizar as tarefas para você.
No mundo dos sonhos da Amazon, onde a “computação ambiental” é perfeita e está em toda parte, você apenas perguntaria à Alexa uma questão ou daria uma instrução: “Encontre algo divertido para fazer neste fim de semana.” “Reserve meu trem para Nova York na próxima semana.” “Me atualize sobre aprendizado profundo.” A Alexa teria acesso a todos os aplicativos e fontes de informação necessárias, mas você nunca precisaria se preocupar com isso; a Alexa apenas lidaria com isso da maneira que precisasse e traria as respostas para você. Existem mil questões complicadas sobre como isso realmente funciona, mas essa ainda é a grande ideia.
“As habilidades da Alexa tornaram rápido e fácil para os desenvolvedores criar experiências orientadas por voz, desbloqueando uma nova maneira para desenvolvedores e marcas se envolverem com seus clientes,” disse a porta-voz da Amazon, Jill Tornifoglio, em um comunicado. Os clientes as utilizam bilhões de vezes por ano, disse ela, e à medida que a empresa abraça a IA generativa, “estamos empolgados com o que vem a seguir.”
Em retrospectiva, a ideia da Amazon estava praticamente certa. Todos esses anos depois, a OpenAI e outras empresas também estão tentando construir seus próprios ecossistemas de terceiros em torno de chatbots, que são apenas outra abordagem da ideia de uma interface interativa para a internet. Mas, apesar de toda a sua previsão sobre a revolução da IA, a Amazon nunca descobriu como fazer as habilidades funcionarem. Ela nunca resolveu alguns problemas fundamentais para os desenvolvedores, nunca quebrou a interface do usuário e nunca encontrou uma maneira de mostrar às pessoas todas as coisas que seu dispositivo Alexa poderia fazer se apenas perguntassem.
A Amazon certamente fez o seu melhor para fazer as habilidades acontecerem. A empresa lançou constantemente novas ferramentas para desenvolvedores, pagou-os em créditos da AWS e dinheiro quando suas habilidades eram utilizadas (embora tenha parado de fazer isso recentemente) e tentou tornar o desenvolvimento de habilidades praticamente sem esforço. E, em algum nível, todo esse esforço valeu a pena: a Amazon afirma que existem mais de 160.000 habilidades disponíveis para a plataforma. Isso é insignificante em comparação com os milhões de aplicativos na loja de aplicativos dos smartphones, mas ainda é um grande número.
A interface para encontrar e usar todas essas habilidades, no entanto, sempre foi uma bagunça. Vamos apenas pegar um exemplo simples: se você pedir à Alexa para pedir uma pizza, ela pode lhe dizer que tem algumas habilidades para isso e recomendar a Domino’s. (Se você está se perguntando por que a Amazon escolheria a Domino’s e não a Pizza Hut ou DoorDash ou qualquer outro serviço de entrega de pizza? Ótima pergunta. Sem ideia.) Você responde sim. “Aqui está a Domino’s,” diz a Alexa. Então, um momento depois: “Aqui está a habilidade da Domino’s, da Domino’s Pizza, LLC.” Outro momento, então: “Para vincular seu perfil da Domino’s Pizza, por favor, vá para as configurações de habilidades no seu aplicativo Alexa. Precisaremos do seu endereço de e-mail para fazer um pedido como convidado. Por favor, habilite as permissões de ‘Endereço de E-mail’ no seu aplicativo Alexa.” Nesse ponto, você precisa encontrar uma configuração enterrada em um aplicativo que pode nem estar no seu telefone; seria muito mais fácil simplesmente ir ao site da Domino’s. Ou, bem, ligar para o lugar.
Se você souber a habilidade que está procurando, o sistema é um pouco melhor. Você pode dizer “Alexa, abra Sons da Natureza” ou “Alexa, habilite Jeopardy,” e ela abrirá a habilidade com esse nome. Mas se você não se lembrar de que a habilidade se chama “Yoga Fácil,” pedir à Alexa para iniciar um treino de yoga não levará você a lugar nenhum.
A Alexa pode fazer muitas coisas. Descobrir quais são é o verdadeiro desafio.
Existem pequenos pontos de atrito como esse em todo o sistema. Quando você ativou uma habilidade, precisa dizer explicitamente “parar” ou “cancelar” para sair dela e usar outra. Você não pode facilmente fazer coisas entre habilidades — eu gostaria de verificar o preço da minha pizza, mas a Alexa não deixará. E talvez o mais frustrante de tudo, mesmo depois de habilitar uma habilidade, você ainda precisa se dirigir a ela especificamente. Dizer “Alexa, peça à AnyList para adicionar espaguete à minha lista de compras” não é uma interação perfeita com um assistente onisciente; isso é ter que aprender a linguagem incrivelmente específica de um computador apenas para usá-lo corretamente.
Como se revelou, muitas das habilidades mais populares da Alexa têm duas coisas em comum: são jogos simples de perguntas e respostas, e são feitas por uma empresa chamada Volley. De Song Quiz a Jeopardy, de Quem Quer Ser um Milionário a Você é Mais Inteligente que um 5º Ano, a Volley é uma das empresas que conseguiu criar habilidades que realmente funcionam. E Max Child, cofundador e CEO da Volley, diz que colocar sua habilidade na frente das pessoas é uma das partes mais importantes — e difíceis — do trabalho.
“Acho que uma das razões subestimadas pelas quais as lojas de aplicativos iOS e Android são tão bem-sucedidas é porque os anúncios do Facebook são tão bons,” diz ele. O pipeline de um anúncio hiper-direcionado para uma instalação de aplicativo foi aperfeiçoado implacavelmente ao longo dos anos, e não há nada parecido para assistentes de voz. O equivalente mais próximo provavelmente é as pessoas perguntando aos seus dispositivos Alexa o que podem fazer — o que Child diz que realmente acontece! — mas não há como competir com anúncios em feed e horas de rolagem social. “Porque você não tem esse marketing hiper-direcionado, acaba tendo que fazer marketing amplo, e você tem que construir jogos amplos.” Daí jogos como Jeopardy e Millionaire, que são grandes marcas que atraem praticamente todos.
Uma maneira pela qual a Volley ganha dinheiro é através de assinaturas. A experiência completa de Jeopardy, por exemplo, custa $12,99 por mês, e como tantas outras assinaturas modernas, é muito mais fácil se inscrever do que cancelar. Também é uma das poucas maneiras de ganhar dinheiro com uma habilidade: os desenvolvedores podem ter anúncios em áudio em alguns tipos de habilidades, ou pedir aos usuários para adicionar seus dados de cartão de crédito diretamente da maneira que a Domino’s faz, mas pedir a um usuário que usa voz para pegar seu telefone e vasculhar configurações é uma barreira alta a ser superada. Os anúncios só são úteis em grande escala — houve um breve momento em que muitas empresas de mídia pensaram que os chamados “briefings relâmpago” poderiam ser um sucesso, mas isso não se concretizou muito.
Esses desafios não são únicos, a propósito. As lojas de aplicativos móveis têm problemas semelhantes enormes de descoberta, questões de monetização, sistemas de assinatura duvidosos e mais. É apenas que, com a Alexa, a solução parecia tão atraente: você não deveria, e não precisaria, nem de uma loja de aplicativos. Você deveria apenas poder pedir o que quer, e a Alexa poderia fazer isso por você.
Uma década depois, parece que uma IA de voz onipotente e capaz pode ser impossível de realizar. Se a Amazon tornasse tudo tão perfeito e rápido que você nunca precisasse saber que está interagindo com um desenvolvedor de terceiros e sua pizza simplesmente aparecesse magicamente na sua porta, isso levanta algumas grandes preocupações de privacidade e questões sobre como a Amazon escolhe esses provedores. Se ela pedisse que você escolhesse todas essas configurações padrão para si mesmo, estaria inscrevendo cada novo usuário em uma quantidade enorme de trabalho. Se permitir que os desenvolvedores possuam e operem ainda mais da experiência, isso destrói a simplicidade ambiental que torna a Alexa tão atraente em primeiro lugar. Muita simplicidade e abstração é, na verdade, um problema.
Estamos em um ponto de inflexão, no entanto. Uma década após seu lançamento, a Alexa está mudando de duas maneiras principais. Uma é uma boa notícia para o futuro das habilidades, a outra pode ser ruim. A boa notícia é que a Alexa não é mais uma experiência apenas de voz, ou mesmo de voz em primeiro lugar — à medida que os dispositivos Echo Show e Fire TV se tornaram mais populares, mais pessoas estão interagindo com a Alexa com uma tela próxima. Isso pode resolver muitos problemas de interação e dar aos desenvolvedores novas maneiras de colocar suas habilidades na frente dos usuários. (As telas também são um ótimo lugar para anunciar sua habilidade, um fato que a Amazon talvez saiba demais.) Quando a Alexa pode mostrar coisas, ela pode fazer muito mais.
Já, Child diz que a maioria dos jogadores da Volley está em um dispositivo com uma tela. “Estamos muito otimistas em relação às TVs inteligentes,” ele diz, rindo. “Cada TV inteligente que é vendida agora tem um microfone no controle remoto. Eu realmente acho que jogos de voz casuais … podem fazer muito sentido, e acho que podem ser ainda mais imersivos.”
A Amazon também está prestes a reestruturar a Alexa em torno de LLMs, que podem ser a chave para fazer tudo isso funcionar. Uma Alexa mais inteligente, alimentada por IA, poderia finalmente entender o que você realmente está tentando fazer e eliminar parte da sintaxe estranha necessária para usar habilidades. Ela poderia entender perguntas mais complicadas e instruções de múltiplas etapas e usar habilidades em seu nome. “Os desenvolvedores agora precisam apenas descrever as capacidades de seu dispositivo,” disse Charlie French, da Amazon, no evento de lançamento da IA da Alexa no ano passado. “Eles não precisam tentar prever o que um cliente vai dizer.” A Amazon é apenas uma das empresas que prometem que os LLMs poderão fazer coisas em seu nome sem trabalho extra necessário; nesse mundo, as habilidades precisam realmente existir, ou o modelo simplesmente descobrirá como pedir pizza?
Há algumas evidências de que a Amazon está atrasada em seu trabalho de IA e que conectar um modelo de linguagem não fará a Alexa se tornar incrível de repente. (Mesmo os melhores LLMs parecem que estão apenas um pouco perto de quase serem bons o suficiente para fazer essas coisas.) Mas mesmo que isso aconteça, isso apenas torna a pergunta maior mais importante: o que os assistentes virtuais realmente podem fazer por nós? E como pedimos que eles façam isso? As respostas corretas são “qualquer coisa que você quiser” e “de qualquer maneira que você goste.” Isso requer muitos desenvolvedores para dar novos poderes à Alexa. O que requer que a Amazon lhes dê um produto e um negócio que valham o esforço.