AWS agora permite cache de prompt com redução de custo de 90%

A utilização de IA continua a se expandir, e com mais empresas integrando ferramentas de IA em seus fluxos de trabalho, muitas buscam opções para reduzir os custos associados ao funcionamento de modelos de IA.

Para atender à demanda dos clientes, a AWS anunciou duas novas capacidades no Bedrock para cortar o custo de execução de modelos e aplicações de IA, que já estão disponíveis em plataformas concorrentes.

Durante um discurso principal na AWS re:Invent, Swami Sivasubramanian, vice-presidente de IA e Dados da AWS, anunciou o Roteamento Inteligente de Prompts no Bedrock e a chegada do Cache de Prompts.

O Roteamento Inteligente de Prompts ajudaria os clientes a direcionar prompts para o tamanho mais adequado, para que um grande modelo não responda a uma consulta simples.

“Os desenvolvedores precisam dos modelos certos para suas aplicações, por isso oferecemos um conjunto amplo de modelos”, disse Sivasubramanian.

A AWS afirmou que o Roteamento Inteligente de Prompts “pode reduzir custos em até 30% sem comprometer a precisão”. Os usuários devem escolher uma família de modelos, e o Roteamento Inteligente de Prompts do Bedrock direcionará os prompts para os modelos do tamanho correto dentro dessa família.

Movimentar prompts por diferentes modelos para otimizar o uso e o custo ganhou destaque lentamente na indústria de IA. A startup Not Diamond anunciou seu recurso de roteamento inteligente em julho.

A empresa de agentes de voz Argo Labs, cliente da AWS, afirmou que utiliza o Roteamento Inteligente de Prompts para garantir que os modelos do tamanho correto lidem com as diferentes consultas dos clientes. Perguntas simples como “Você tem uma reserva?” são gerenciadas por um modelo menor, mas questões mais complicadas como “Quais opções veganas estão disponíveis?” seriam direcionadas a um maior.

Cache de prompts

A AWS também anunciou que o Bedrock agora suportará cache de prompts, onde o Bedrock pode manter prompts comuns ou repetidos sem acionar o modelo e gerar outro token.

“Os custos de geração de tokens podem frequentemente aumentar, especialmente para prompts repetidos”, disse Sivasubramanian. “Queríamos dar aos clientes uma maneira fácil de armazenar dinamicamente prompts sem sacrificar a precisão.”

A AWS afirmou que o cache de prompts reduz os custos “em até 90% e a latência em até 85% para modelos suportados.”

No entanto, a AWS está um pouco atrasada nessa tendência. O cache de prompts já estava disponível em outras plataformas para ajudar os usuários a cortar custos ao reutilizar prompts. O Claude 3.5 Sonnet e Haiku da Anthropic oferecem cache de prompts em sua API. A OpenAI também expandiu o cache de prompts para sua API.

Utilizar modelos de IA pode ser caro

Executar aplicações de IA continua caro, não apenas por causa dos custos de treinamento de modelos, mas também pelo seu uso. As empresas afirmaram que os custos de uso de IA ainda são uma das maiores barreiras para uma implantação mais ampla.

À medida que as empresas se movem em direção a casos de uso agentes, ainda há um custo associado aos usuários acionando o modelo e o agente para começar suas tarefas. Métodos como cache de prompts e roteamento inteligente podem ajudar a reduzir custos limitando quando um prompt aciona uma API de modelo para responder a uma consulta.

Os desenvolvedores de modelos, entretanto, afirmam que à medida que a adoção cresce, alguns preços de modelos podem cair. A OpenAI disse que antecipa que os custos de IA podem diminuir em breve.

Mais modelos

A AWS, que hospeda muitos modelos da Amazon – incluindo seus novos modelos Nova – e de provedores de código aberto líderes, adicionará novos modelos ao Bedrock. Isso inclui modelos da Poolside, Stable Diffusion 3.5 da Stability AI e Ray 2 da Luma. Espera-se que os modelos sejam lançados no Bedrock em breve.

O CEO e cofundador da Luma, Amit Jain, disse ao VentureBeat que a AWS é o primeiro parceiro provedor de nuvem da empresa a hospedar seus modelos. Jain afirmou que a empresa usou o SageMaker HyperPod da Amazon ao construir e treinar os modelos da Luma.

“A equipe da AWS teve engenheiros que se sentiram parte da nossa equipe porque estavam nos ajudando a resolver problemas. Levou quase uma ou duas semanas para dar vida aos nossos modelos”, disse Jain.

Fonte

Compartilhe esse conteúdo: