Por que as startups de IA estão assumindo o controle dos dados

Durante uma semana neste verão, Taylor e sua colega de quarto usaram câmeras GoPro presas em suas testas enquanto pintavam, esculpiam e faziam tarefas domésticas. Elas estavam treinando um modelo de visão de IA, sincronizando cuidadosamente suas filmagens para que o sistema pudesse obter múltiplos ângulos sobre o mesmo comportamento. Era um trabalho difícil de muitas maneiras, mas elas foram bem pagas por isso — e permitiu que Taylor passasse a maior parte do dia fazendo arte.

“Nos acordávamos, fazíamos nossa rotina normal e então colocávamos as câmeras na cabeça e sincronizávamos os horários”, ela me contou. “Então, fazíamos nosso café da manhã e lavávamos a louça. Depois, íamos por caminhos separados e trabalhávamos na arte.”

Elas foram contratadas para produzir cinco horas de filmagens sincronizadas por dia, mas Taylor rapidamente aprendeu que precisava reservar sete horas por dia para o trabalho, para deixar tempo suficiente para pausas e recuperação física.

“Isso te dava dores de cabeça”, disse ela. “Você tira e fica com um quadrado vermelho na testa.”

Taylor, que pediu para não revelar seu sobrenome, estava trabalhando como freelancer de dados para a Turing Labs, uma empresa de IA que a conectou ao TechCrunch. O objetivo da Turing não era ensinar a IA a fazer pinturas a óleo, mas sim adquirir habilidades mais abstratas em resolução de problemas sequenciais e raciocínio visual. Ao contrário de um grande modelo de linguagem, o modelo de visão da Turing seria treinado inteiramente em vídeo — e a maior parte seria coletada diretamente pela Turing.

Juntamente com artistas como Taylor, a Turing está contratando chefs, trabalhadores da construção civil e eletricistas — qualquer um que trabalhe com as mãos. O Chief AGI Officer da Turing, Sudarshan Sivaraman, disse ao TechCrunch que a coleta manual é a única maneira de obter um conjunto de dados variado o suficiente.

“Estamos fazendo isso para muitos tipos diferentes de trabalho braçal, para que tenhamos uma diversidade de dados na fase de pré-treinamento”, disse Sivaraman ao TechCrunch. “Depois de capturar todas essas informações, os modelos serão capazes de entender como uma determinada tarefa é realizada.”

O trabalho da Turing em modelos de visão faz parte de uma mudança crescente em como as empresas de IA lidam com dados. Onde os conjuntos de treinamento costumavam ser coletados livremente da web ou de anotadores mal pagos, as empresas agora estão pagando caro por dados cuidadosamente selecionados.

Com o poder bruto da IA já estabelecido, as empresas estão buscando dados de treinamento proprietários como uma vantagem competitiva. E, em vez de terceirizar a tarefa para contratados, muitas vezes estão assumindo o trabalho elas mesmas.

A empresa de e-mail Fyxer, que usa modelos de IA para classificar e-mails e redigir respostas, é um exemplo. Após alguns experimentos iniciais, o fundador Richard Hollingsworth descobriu que a melhor abordagem era usar uma série de pequenos modelos com dados de treinamento bem focados. Ao contrário da Turing, a Fyxer está construindo sobre o modelo de base de outra pessoa — mas a percepção subjacente é a mesma.

“Percebemos que a qualidade dos dados, e não a quantidade, é o que realmente define o desempenho”, disse Hollingsworth ao TechCrunch.

Em termos práticos, isso significou algumas escolhas de pessoal não convencionais. Nos primeiros dias, engenheiros e gerentes da Fyxer às vezes eram superados em número por quatro para um pelos assistentes executivos necessários para treinar o modelo, diz Hollingsworth.

“Usamos muitos assistentes executivos experientes, porque precisávamos treinar sobre os fundamentos de se um e-mail deveria ser respondido”, disse ele ao TechCrunch. “É um problema muito orientado para as pessoas. Encontrar ótimas pessoas é muito difícil.”

O ritmo de coleta de dados nunca diminuiu, mas com o tempo Hollingsworth se tornou mais exigente em relação aos conjuntos de dados, preferindo conjuntos menores de dados mais bem selecionados quando chegava a hora do pós-treinamento. Como ele coloca, “a qualidade dos dados, e não a quantidade, é o que realmente define o desempenho.”

Isso é particularmente verdadeiro quando dados sintéticos são usados, ampliando tanto o escopo dos possíveis cenários de treinamento quanto o impacto de quaisquer falhas no conjunto de dados original. No lado da visão, a Turing estima que 75 a 80 por cento de seus dados são sintéticos, extrapolados dos vídeos originais da GoPro. Mas isso torna ainda mais importante manter o conjunto de dados original da mais alta qualidade possível.

“Se os dados de pré-treinamento em si não forem de boa qualidade, então o que quer que você faça com dados sintéticos também não será de boa qualidade”, diz Sivaraman.

Além das preocupações com a qualidade, há uma lógica competitiva poderosa por trás de manter a coleta de dados internamente. Para a Fyxer, o trabalho árduo de coleta de dados é um dos melhores obstáculos que a empresa tem contra a concorrência. Como Hollingsworth vê, qualquer um pode construir um modelo de código aberto em seu produto — mas nem todos podem encontrar anotadores especialistas para treiná-lo em um produto utilizável.

“Acreditamos que a melhor maneira de fazer isso é através dos dados”, disse ele ao TechCrunch, “através da construção de modelos personalizados, através de treinamento de dados de alta qualidade liderado por humanos.

Fonte

Compartilhe esse conteúdo: