Por anos, CEOs das grandes empresas de tecnologia têm promovido visões de agentes de IA que podem usar aplicativos de software de forma autônoma para concluir tarefas para as pessoas. Mas ao testar os atuais agentes de IA para consumidores, seja o Agente ChatGPT da OpenAI ou o Comet da Perplexity, você rapidamente perceberá como a tecnologia ainda é limitada. Tornar os agentes de IA mais robustos pode exigir um novo conjunto de técnicas que a indústria ainda está descobrindo.
Uma dessas técnicas é simular cuidadosamente espaços de trabalho onde os agentes podem ser treinados em tarefas de múltiplos passos — conhecidas como ambientes de aprendizado por reforço (RL). Assim como conjuntos de dados rotulados alimentaram a última onda de IA, os ambientes de RL estão começando a parecer um elemento crítico no desenvolvimento de agentes.
Pesquisadores de IA, fundadores e investidores dizem ao TechCrunch que os principais laboratórios de IA estão agora exigindo mais ambientes de RL, e não faltam startups esperando para fornecê-los.
“Todos os grandes laboratórios de IA estão construindo ambientes de RL internamente”, disse Jennifer Li, sócia-gerente da Andreessen Horowitz, em entrevista ao TechCrunch. “Mas, como você pode imaginar, criar esses conjuntos de dados é muito complexo, então os laboratórios de IA também estão procurando fornecedores de terceiros que possam criar ambientes e avaliações de alta qualidade. Todos estão de olho nesse espaço.”
O impulso por ambientes de RL criou uma nova classe de startups bem financiadas, como Mechanize Work e Prime Intellect, que visam liderar o espaço. Enquanto isso, grandes empresas de rotulagem de dados como Mercor e Surge dizem que estão investindo mais em ambientes de RL para acompanhar as mudanças da indústria de conjuntos de dados estáticos para simulações interativas. Os principais laboratórios também estão considerando investir pesadamente: de acordo com o The Information, líderes da Anthropic discutiram gastar mais de 1 bilhão de dólares em ambientes de RL no próximo ano.
A esperança para investidores e fundadores é que uma dessas startups surja como a “Scale AI para ambientes”, referindo-se ao poderoso laboratório de rotulação de dados de 29 bilhões de dólares que alimentou a era dos chatbots.
A pergunta é se os ambientes de RL realmente avançarão a fronteira do progresso da IA.
O que é um ambiente de RL?
Em essência, os ambientes de RL são terrenos de treinamento que simulam o que um agente de IA estaria fazendo em um aplicativo de software real. Um fundador descreveu a construção deles em uma entrevista recente como “criar um videogame muito chato”.
Por exemplo, um ambiente poderia simular um navegador Chrome e encarregar um agente de IA de comprar um par de meias na Amazon. O agente é avaliado com base em seu desempenho e recebe um sinal de recompensa quando tem sucesso (neste caso, comprando um par de meias digno).
Embora tal tarefa pareça relativamente simples, há muitos lugares onde um agente de IA pode tropeçar. Ele pode se perder navegando pelos menus suspensos da página da web ou comprar muitas meias. E como os desenvolvedores não podem prever exatamente qual desvio um agente tomará, o ambiente em si deve ser robusto o suficiente para capturar qualquer comportamento inesperado e ainda fornecer feedback útil. Isso torna a construção de ambientes muito mais complexa do que um conjunto de dados estático.
Alguns ambientes são bastante robustos, permitindo que os agentes de IA usem ferramentas, acessem a internet ou utilizem vários aplicativos de software para concluir uma tarefa determinada. Outros são mais restritos, visando ajudar um agente a aprender tarefas específicas em aplicativos de software corporativo.
Embora os ambientes de RL sejam a tendência em Silicon Valley agora, há muitos precedentes para o uso dessa técnica. Um dos primeiros projetos da OpenAI em 2016 foi construir “RL Gyms”, que eram bastante semelhantes à concepção moderna de ambientes. No mesmo ano, o Google DeepMind treinou o AlphaGo — um sistema de IA que poderia vencer um campeão mundial no jogo de tabuleiro Go — usando técnicas de RL dentro de um ambiente simulado.
O que é único sobre os ambientes de hoje é que os pesquisadores estão tentando construir agentes de IA que usam computadores com grandes modelos de transformadores. Ao contrário do AlphaGo, que era um sistema de IA especializado trabalhando em ambientes fechados, os agentes de IA de hoje estão sendo treinados para ter capacidades mais gerais. Pesquisadores de IA hoje têm um ponto de partida mais forte, mas também um objetivo complicado onde mais pode dar errado.
Um campo lotado
Empresas de rotulagem de dados de IA como Scale AI, Surge e Mercor estão tentando acompanhar o momento e construir ambientes de RL. Essas empresas têm mais recursos do que muitas startups no espaço, bem como relacionamentos profundos com laboratórios de IA.
O CEO da Surge, Edwin Chen, disse ao TechCrunch que viu um “aumento significativo” na demanda por ambientes de RL dentro dos laboratórios de IA. A Surge — que supostamente gerou 1,2 bilhão de dólares em receita no ano passado trabalhando com laboratórios de IA como OpenAI, Google, Anthropic e Meta — recentemente formou uma nova organização interna especificamente encarregada de desenvolver ambientes de RL, disse ele.
Logo atrás da Surge está a Mercor, uma startup avaliada em 10 bilhões de dólares, que também trabalhou com OpenAI, Meta e Anthropic. A Mercor está apresentando a investidores seu negócio de construção de ambientes de RL para tarefas específicas de domínio, como codificação, saúde e direito, de acordo com materiais de marketing vistos pelo TechCrunch.
O CEO da Mercor, Brendan Foody, disse ao TechCrunch em uma entrevista que “poucos entendem quão grande é a oportunidade em torno dos ambientes de RL de verdade”.
A Scale AI costumava dominar o espaço de rotulagem de dados, mas perdeu terreno desde que a Meta investiu 14 bilhões de dólares e contratou seu CEO. Desde então, Google e OpenAI deixaram a Scale AI como cliente, e a startup enfrenta até mesmo competição por trabalho de rotulagem de dados dentro da Meta. Mas, ainda assim, a Scale está tentando acompanhar o momento e construir ambientes.
“Esta é apenas a natureza do negócio [da Scale AI]”, disse Chetan Rane, chefe de produto da Scale AI para agentes e ambientes de RL. “A Scale provou sua capacidade de se adaptar rapidamente. Fizemos isso nos primeiros dias de veículos autônomos, nossa primeira unidade de negócios. Quando o ChatGPT foi lançado, a Scale AI se adaptou a isso. E agora, mais uma vez, estamos nos adaptando a novos espaços de fronteira como agentes e ambientes.”
Alguns jogadores mais novos estão se concentrando exclusivamente em ambientes desde o início. Entre eles está a Mechanize Work, uma startup fundada há aproximadamente seis meses com o audacioso objetivo de “automatizar todos os trabalhos”. No entanto, o cofundador Matthew Barnett diz ao TechCrunch que sua empresa está começando com ambientes de RL para agentes de codificação de IA.
A Mechanize Work visa fornecer aos laboratórios de IA um pequeno número de ambientes de RL robustos, diz Barnett, em vez de grandes empresas de dados que criam uma ampla gama de ambientes de RL simples. Para isso, a startup está oferecendo a engenheiros de software salários de 500.000 dólares — muito mais do que um contratado por hora poderia ganhar trabalhando na Scale AI ou na Surge.
A Mechanize Work já está trabalhando com a Anthropic em ambientes de RL, disseram duas fontes familiarizadas com o assunto ao TechCrunch. A Mechanize Work e a Anthropic se recusaram a comentar sobre a parceria.
Outras startups estão apostando que os ambientes de RL serão influentes fora dos laboratórios de IA. A Prime Intellect — uma startup apoiada pelo pesquisador de IA Andrej Karpathy, Founders Fund e Menlo Ventures — está direcionando desenvolvedores menores com seus ambientes de RL.
No mês passado, a Prime Intellect lançou um hub de ambientes de RL, que visa ser um “Hugging Face para ambientes de RL”. A ideia é dar aos desenvolvedores de código aberto acesso aos mesmos recursos que os grandes laboratórios de IA têm, e vender esses desenvolvedores acesso a recursos computacionais no processo.
Treinar agentes geralmente capazes em ambientes de RL pode ser mais caro em termos computacionais do que técnicas de treinamento de IA anteriores, de acordo com o pesquisador da Prime Intellect, Will Brown. Juntamente com startups que estão construindo ambientes de RL, há outra oportunidade para provedores de GPU que podem alimentar o processo.
“Os ambientes de RL vão ser grandes demais para que uma única empresa domine”, disse Brown em uma entrevista. “Parte do que estamos fazendo é apenas tentar construir uma boa infraestrutura de código aberto em torno disso. O serviço que vendemos é computação, então é uma entrada conveniente para o uso de GPUs, mas estamos pensando nisso mais a longo prazo.”
Vai escalar?
A questão em aberto em torno dos ambientes de RL é se a técnica vai escalar como os métodos de treinamento de IA anteriores.
O aprendizado por reforço alimentou alguns dos maiores avanços em IA no último ano, incluindo modelos como o o1 da OpenAI e o Claude Opus 4 da Anthropic. Esses são avanços particularmente importantes porque os métodos anteriormente usados para melhorar modelos de IA estão mostrando retornos decrescentes.
Os ambientes fazem parte da aposta maior dos laboratórios de IA em RL, que muitos acreditam que continuará a impulsionar o progresso à medida que adicionam mais dados e recursos computacionais ao processo. Alguns dos pesquisadores da OpenAI por trás do o1 disseram anteriormente ao TechCrunch que a empresa originalmente investiu em modelos de raciocínio de IA — que foram criados através de investimentos em RL e computação em tempo de teste — porque achavam que isso escalaría bem.
A melhor maneira de escalar RL continua incerta, mas os ambientes parecem ser uma candidata promissora. Em vez de simplesmente recompensar chatbots por respostas de texto, eles permitem que agentes operem em simulações com ferramentas e computadores à sua disposição. Isso é muito mais intensivo em recursos, mas potencialmente mais recompensador.
Alguns são céticos de que todos esses ambientes de RL vão prosperar. Ross Taylor, um ex-líder de pesquisa de IA da Meta que co-fundou a General Reasoning, disse ao TechCrunch que os ambientes de RL são propensos a “hackeamento de recompensa”. Esse é um processo em que modelos de IA trapaceiam para obter uma recompensa, sem realmente realizar a tarefa.
“Acho que as pessoas estão subestimando quão difícil é escalar ambientes”, disse Taylor. “Mesmo os melhores ambientes de RL disponíveis publicamente tipicamente não funcionam sem sérias modificações.”
O chefe de engenharia da OpenAI para seu negócio de API, Sherwin Wu, disse em um podcast recente que estava “cético” em relação às startups de ambientes de RL. Wu observou que é um espaço muito competitivo, mas também que a pesquisa em IA está evoluindo tão rapidamente que é difícil atender bem aos laboratórios de IA.
Karpathy, um investidor na Prime Intellect que chamou os ambientes de RL de um potencial avanço, também expressou cautela em relação ao espaço de RL mais amplamente. Em uma postagem no X, ele levantou preocupações sobre quanto mais progresso em IA pode ser extraído de RL.
