top of page
Guilherme Favaron

OpenAI DevDay 2024: Da Voz à Visão

OpenAI DevDay 2024 trouxe uma série de anúncios interessantes que prometem expandir significativamente as capacidades e a acessibilidade da inteligência artificial para desenvolvedores. Vamos explorar as principais novidades apresentadas neste evento crucial para o ecossistema de IA.


OpenAI Dev Day 2024
OpenAI Dev Day 2024

Realtime API: Conversas Naturais em Tempo Real

Uma das revelações mais impressionantes foi a introdução da Realtime API em versão beta pública. Esta nova interface permite que desenvolvedores construam experiências de fala para fala com baixa latência e capacidades multimodais em seus aplicativos. Semelhante ao Modo de Voz Avançado do ChatGPT, a Realtime API suporta conversas naturais de fala para fala utilizando seis vozes predefinidas já disponíveis na API.


A Realtime API resolve um problema comum enfrentado pelos desenvolvedores ao criar assistentes de voz. Anteriormente, era necessário combinar vários modelos separados para transcrição de fala, inferência de texto e síntese de voz. Esse processo muitas vezes resultava em perda de nuances como emoção e ênfase, além de introduzir latência perceptível. Tenho um aplicativo disponível gratuitamente que transforma artigos científicos em PDF em uma conversa leve sobre o tema, ou seja, deixando o artigo em formato de audio e bem acessível para o público leigo. Na construção deste app, enfrentei o desafio das nuances de emoção. Teste e me conte!


A nova API simplifica drasticamente esse fluxo de trabalho, permitindo que toda a interação seja gerenciada com uma única chamada de API.


Sob o capô, a Realtime API estabelece uma conexão WebSocket persistente para trocar mensagens com o GPT-4o. Ela também suporta chamadas de função, possibilitando que assistentes de voz respondam a solicitações dos usuários acionando ações ou buscando novos contextos. Por exemplo, um assistente de voz poderia fazer um pedido em nome do usuário ou recuperar informações relevantes do cliente para personalizar suas respostas.


Alguns casos de uso promissores já estão surgindo. O Healthify, um aplicativo de nutrição e treinamento físico, usa a Realtime API para permitir conversas naturais com seu treinador de IA Ria, envolvendo nutricionistas humanos quando necessário para suporte personalizado. O Speak, um aplicativo de aprendizado de idiomas, utiliza a API para alimentar seu recurso de interpretação de papéis, incentivando os usuários a praticar conversações em um novo idioma.


A precificação da Realtime API é baseada em tokens de texto e áudio. Os tokens de entrada de texto custam $5 por 1M, enquanto os tokens de saída custam $20 por 1M. A entrada de áudio é precificada em $100 por 1M tokens e a saída em $200 por 1M tokens. Isso se traduz em aproximadamente $0,06 por minuto de entrada de áudio e $0,24 por minuto de saída de áudio (todos os valores são em dólares e M significa Milhões).


Fine-tuning com Visão: Aprimorando a Compreensão Visual

Outro anúncio significativo foi a introdução do fine-tuning de visão no GPT-4o. Essa nova funcionalidade permite que os desenvolvedores customizem o modelo para ter capacidades mais robustas de compreensão de imagens, possibilitando aplicações como funcionalidade aprimorada de busca visual, detecção de objetos mais precisa para veículos autônomos ou cidades inteligentes, e análise mais acurada de imagens médicas.


O processo de fine-tuning com visão segue um fluxo similar ao fine-tuning apenas com texto. Os desenvolvedores podem preparar seus conjuntos de dados de imagens para seguir o formato adequado e então fazer o upload desse conjunto para a plataforma da OpenAI. É possível melhorar o desempenho do GPT-4o em tarefas de visão com apenas 100 imagens, e alcançar performances ainda mais altas com volumes maiores de dados de texto e imagem.


A OpenAI colaborou com um pequeno grupo de parceiros de confiança para entender melhor as aplicações do mundo real do fine-tuning com visão. Alguns exemplos impressionantes incluem:


  1. A Grab, uma empresa líder em entrega de alimentos e compartilhamento de viagens, transformou imagens em nível de rua coletadas por seus motoristas em dados de mapeamento usados para alimentar o GrabMaps. Usando fine-tuning de visão com apenas 100 exemplos, a Grab ensinou o GPT-4o a localizar corretamente placas de trânsito e contar divisórias de pistas para refinar seus dados de mapeamento. Como resultado, a Grab conseguiu melhorar a precisão da contagem de pistas em 20% e a localização de placas de limite de velocidade em 13% em comparação com o modelo base GPT-4o.

  2. A Automat, uma empresa de automação empresarial, treinou o GPT-4o para localizar elementos de interface do usuário em uma tela dada uma descrição em linguagem natural. Isso melhorou a taxa de sucesso de seu agente RPA de 16,60% para 61,67% - um aumento de 272% no desempenho em comparação com o GPT-4o base. Além disso, a Automat treinou o GPT-4o em apenas 200 imagens de documentos de seguro não estruturados para alcançar um aumento de 7% na pontuação F em tarefas de extração de informações.

  3. A Coframe está construindo um assistente de engenharia de crescimento baseado em IA que ajuda as empresas a criar e testar continuamente variações de seus sites e interfaces de usuário para otimizar métricas de negócios. Ao fazer fine-tuning do GPT-4o com imagens e código, eles melhoraram a capacidade do modelo de gerar sites com estilo visual consistente e layout correto em 26% em comparação com o GPT-4o base.


O fine-tuning com visão está disponível hoje para todos os desenvolvedores em níveis de uso pagos, suportado na versão mais recente do modelo GPT-4o, gpt-4o-2024-08-06. A OpenAI está oferecendo 1M de tokens de treinamento por dia gratuitamente até 31 de outubro de 2024 para fazer fine-tuning do GPT-4o com imagens. Após essa data, o treinamento de fine-tuning do GPT-4o custará $25 por 1M de tokens e a inferência custará $3,75 por 1M de tokens de entrada e $15 por 1M de tokens de saída.


Prompt Caching: Economia Automática em Entradas Recentes

O Prompt Caching é uma nova funcionalidade que permite aos desenvolvedores reduzir custos e latência ao reutilizar tokens de entrada vistos recentemente. Muitos desenvolvedores usam o mesmo contexto repetidamente em várias chamadas de API ao construir aplicativos de IA, como ao fazer edições em uma base de código ou ter conversas longas e de múltiplos turnos com um chatbot.


A partir de agora, o Prompt Caching é aplicado automaticamente nas versões mais recentes do GPT-4o, GPT-4o mini, o1-preview e o1-mini, bem como nas versões com fine-tuning desses modelos. Os prompts em cache são oferecidos com desconto em comparação com prompts não cacheados. Na arquitetura de agentes de Inteligência artificial, seja ele LangChain, CrewAI, LlamaIndex ou AutoGen, isso já está em uso há algum tempo e em geral é considerado um tipo de "memória".


Por exemplo, para o GPT-4o (gpt-4o-2024-08-06), os tokens de entrada não cacheados custam $2,50 por 1M, enquanto os tokens de entrada cacheados custam $1,25 por 1M. Para o GPT-4o mini (gpt-4o-mini-2024-07-18), os preços são $0,15 e $0,075 por 1M de tokens, respectivamente.


As chamadas de API para modelos suportados se beneficiarão automaticamente do Prompt Caching em prompts com mais de 1.024 tokens. A API armazena em cache o prefixo mais longo de um prompt que foi calculado anteriormente, começando em 1.024 tokens e aumentando em incrementos de 128 tokens. Se você reutilizar prompts com prefixos comuns, o desconto do Prompt Caching será aplicado automaticamente sem exigir alterações em sua integração com a API.


Os caches geralmente são limpos após 5-10 minutos de inatividade e sempre são removidos dentro de uma hora após o último uso do cache. Como todos os serviços de API, o Prompt Caching está sujeito aos compromissos de privacidade da Enterprise da OpenAI, e os caches de prompt não são compartilhados entre organizações. Mas lembre-se que as regras de utilização por parte da OpenAI das informações providas pelos usuários gratuitos são diferentes das de usuários pagos: a informação enviada por usuários gratuitos podem e serão utilizadas para o treinamento de novos modelos, diferente da versão paga.


Model Distillation: Refinando Modelos Eficientes

Por fim, a OpenAI introduziu uma nova oferta de Model Distillation para fornecer aos desenvolvedores um fluxo de trabalho integrado para gerenciar todo o pipeline de destilação diretamente na plataforma OpenAI. Destilação de Modelos, é uma técnica avançada de aprendizado de máquina que permite "destilar" o conhecimento de um modelo de IA maior e mais complexo em um modelo menor e mais eficiente. Isso permite que os desenvolvedores usem facilmente as saídas de modelos de fronteira como o1-preview e GPT-4o para fazer fine-tuning e melhorar o desempenho de modelos mais eficientes em termos de custo, como o GPT-4o mini.


A destilação de modelos envolve o fine-tuning de modelos menores e eficientes em termos de custo usando saídas de modelos mais capazes, permitindo que eles correspondam ao desempenho de modelos avançados em tarefas específicas a um custo muito menor. Até agora, a destilação era um processo multi-etapas e propenso a erros, que exigia que os desenvolvedores orquestrassem manualmente várias operações em ferramentas desconectadas, desde a geração de conjuntos de dados até o fine-tuning de modelos e a medição de melhorias de desempenho.


A nova suíte de Model Distillation inclui:

  1. Stored Completions: Os desenvolvedores podem gerar facilmente conjuntos de dados para destilação capturando e armazenando automaticamente os pares de entrada-saída gerados por um dos modelos da OpenAI através da API.

  2. Evals (beta): Os desenvolvedores podem criar e executar avaliações personalizadas na plataforma para medir o desempenho do modelo em tarefas específicas.

  3. Fine-tuning: Stored Completions e Evals são totalmente integrados com a oferta existente de fine-tuning.


O Model Distillation está disponível hoje para todos os desenvolvedores e pode ser usado para destilar qualquer um dos modelos da OpenAI, incluindo GPT-4o e o1-preview. A OpenAI também está oferecendo 2M de tokens de treinamento gratuitos por dia no GPT-4o mini e 1M de tokens de treinamento gratuitos por dia no GPT-4o até 31 de outubro para ajudar os desenvolvedores a começar com a destilação.


O OpenAI DevDay 2024 apresentou uma série de ferramentas e recursos inovadores que expandem significativamente as possibilidades para desenvolvedores trabalharem com IA. Desde conversas em tempo real até fine-tuning visual, caching inteligente e destilação de modelos, essas novas ofertas prometem tornar o desenvolvimento de IA mais acessível, eficiente e poderoso do que nunca. À medida que essas tecnologias se tornam disponíveis, será fascinante ver as aplicações criativas e impactantes que os desenvolvedores construirão com elas. Eu já estou com coisas no forno prontas pra sairem....


O que é a Realtime API?

A Realtime API é uma nova interface que permite aos desenvolvedores criar experiências de fala para fala com baixa latência em seus aplicativos, suportando conversas naturais usando seis vozes predefinidas.

Como funciona o Vision Fine-Tuning?

O que é Prompt Caching e como ele beneficia os desenvolvedores?

Como funciona o Model Distillation?

Quais modelos suportam Prompt Caching?

Quanto custa usar a Realtime API?

Há alguma oferta promocional para o Vision Fine-Tuning?

Como o Prompt Caching afeta a privacidade dos dados?

Quais são os componentes da suíte de Model Distillation?

Quando essas novas funcionalidades estarão disponíveis?


bottom of page