As atualizações de IA não estão diminuindo. Literalmente dois dias depois que a OpenAI lançou um novo modelo de IA subjacente para ChatGPT chamado GPT-5.3 Instant, a empresa revelou outra atualização ainda mais massiva: GPT-5.4.
Na verdade, o GPT-5.4 vem em duas variedades: Pensamento GPT-5.4 e GPT-5.4 Proeste último projetado para as tarefas mais complexas.
Ambos estarão disponíveis na interface de programação de aplicativos pagos (API) da OpenAI e no aplicativo de desenvolvimento de software Codex, enquanto o GPT-5.4 Thinking estará disponível para todos os assinantes pagos do ChatGPT (Plus, o plano de US$ 20 por mês e superior) e o Pro será reservado para ChatGPT Pro (US$ 200 mensais) e usuários do plano Enterprise.
Os usuários do ChatGPT Free também experimentarão o GPT-5.4, mas somente quando suas consultas forem roteadas automaticamente para o modelo, de acordo com um porta-voz da OpenAI.
As grandes manchetes deste lançamento são a eficiência, com a OpenAI relatando que o GPT-5.4 usa muito menos tokens (47% menos em algumas tarefas) do que seus antecessores e, sem dúvida ainda mais impressionante, um novo modo “nativo” de uso do computador disponível através da API e seu Codex que permite ao GPT-5.4 navegar no computador do usuário como um ser humano e trabalhar em vários aplicativos.
A empresa também está lançando um novo conjunto de integrações ChatGPT que permite que o GPT-5.4 seja conectado diretamente ao Microsoft Excel e ao Planilhas Google dos usuários planilhas e células, permitindo análise granular e conclusão automatizada de tarefas que devem acelerar o trabalho em toda a empresa, mas podem tornar os temores de demissões de colarinho branco ainda mais pronunciados na esteira de ofertas semelhantes de Claude da Anthropic e seu novo aplicativo Cowork.
A OpenAI afirma que o GPT-5.4 suporta até 1 milhão de tokens de contexto na API e no Codex, permitindo que os agentes planejem, executem e verifiquem tarefas em longos horizontes – no entanto, cobra o dobro do custo por 1 milhão de tokens quando a entrada excede 272.000 tokens.
Uso nativo de computadores: um passo em direção a fluxos de trabalho autônomos
A capacidade mais importante que a OpenAI destaca é que GPT-5.4 é seu primeiro modelo de uso geral lançado com recursos nativos de uso de computador de última geração no Codex e na API, permitindo que os agentes operem computadores e executem fluxos de trabalho de várias etapas em aplicativos.
OpenAI diz que o modelo pode escrever código para operar computadores por meio de bibliotecas como Playwright e emitir comandos de mouse e teclado em resposta a capturas de tela. OpenAI também afirma um salto na navegação agente na web.
Os resultados do benchmark são apresentados como evidência de que este não é apenas um wrapper de UI.
No BrowseComp, que mede quão bem os agentes de IA podem navegar persistentemente na web para encontrar informações difíceis de localizar, o OpenAI relata que o GPT-5.4 melhorou 17% em termos absolutos em relação ao GPT-5.2, e o GPT-5.4 Pro atingiu 89,3%, descrito como um novo estado da arte.
No OSWorld-Verified, que mede a navegação na área de trabalho usando capturas de tela mais ações de teclado e mouse, OpenAI relata GPT-5.4 com 75,0% de sucesso, em comparação com 47,3% para GPT-5.2, e notas relataram desempenho humano em 72,4%.
No WebArena-Verified, o GPT-5.4 atinge 67,3% de sucesso usando interação orientada por DOM e captura de tela, em comparação com 65,4% do GPT-5.2. No Online-Mind2Web, OpenAI relata 92,8% de sucesso usando apenas observações baseadas em capturas de tela.
A OpenAI também vincula o uso do computador a melhorias na visão e no manuseio de documentos. No MMMU-Pro, o GPT-5.4 atinge 81,2% de sucesso sem o uso de ferramentas, em comparação com 79,5% do GPT-5.2, e a OpenAI afirma que alcança esse resultado usando uma fração dos “tokens de pensamento”.
No OmniDocBench, o erro médio do GPT-5.4 é relatado em 0,109, melhorado de 0,140 para GPT-5.2. A postagem também descreve suporte expandido para entradas de imagem de alta fidelidade, incluindo um nível de detalhe “original” de até 10,24 milhões de pixels.
A OpenAI posiciona o GPT-5.4 como construído para fluxos de trabalho mais longos e de várias etapas – trabalho que cada vez mais se parece com um agente mantendo o estado em muitas ações, em vez de um chatbot respondendo uma vez.
Pesquisa de ferramentas e orquestração aprimorada de ferramentas
À medida que os ecossistemas de ferramentas crescem, a OpenAI argumenta que a abordagem ingênua – despejar todas as definições de ferramentas no prompt – cria um imposto pago sobre cada solicitação: custo, latência e poluição de contexto.
GPT-5.4 introduz a pesquisa de ferramentas na API como uma correção estrutural. Em vez de receber todas as definições de ferramentas antecipadamente, o modelo recebe uma lista leve de ferramentas, além de um recurso de pesquisa, e recupera definições completas de ferramentas somente quando elas são realmente necessárias.
A OpenAI descreve o ganho de eficiência com uma comparação concreta: em 250 tarefas do benchmark MCP Atlas da Scale, executadas com 36 servidores MCP habilitados, a configuração de pesquisa da ferramenta reduziu o uso total de tokens em 47%, ao mesmo tempo que alcançou a mesma precisão de uma configuração que expôs todas as funções do MCP diretamente no contexto.
Esse número de 47% é especificamente sobre a configuração de pesquisa de ferramentas nessa avaliação – não uma afirmação geral de que o GPT-5.4 usa 47% menos tokens para cada tipo de tarefa.
Melhorias para desenvolvedores e fluxos de trabalho de codificação
O argumento de codificação da OpenAI é que o GPT-5.4 combina os pontos fortes de codificação do GPT-5.3-Codex com ferramentas mais fortes e recursos de uso de computador que são importantes quando as tarefas não são únicas.
O GPT-5.4 corresponde ou supera o GPT-5.3-Codex no SWE-Bench Pro, ao mesmo tempo que apresenta menor latência em todos os esforços de raciocínio.
Codex também recebe botões de nível de fluxo de trabalho. A OpenAI afirma que o modo /fast oferece desempenho até 1,5x mais rápido em todos os modelos suportados, incluindo GPT-5.4, descrevendo-o como o mesmo modelo e inteligência “apenas mais rápido”.
E descreve o lançamento de uma habilidade experimental do Codex, “Playwright (Interactive)”, destinada a demonstrar como a codificação e o uso do computador podem funcionar em conjunto – depurando visualmente aplicativos da Web e Electron e testando um aplicativo enquanto ele está sendo construído.
OpenAI para Microsoft Excel e Planilhas Google
Juntamente com o GPT-5.4, a OpenAI está anunciando um conjunto de produtos seguros de IA em ChatGPT desenvolvidos para empresas e instituições financeiras, alimentados por GPT-5.4 para raciocínio financeiro avançado e modelagem baseada em Excel.
A peça central é ChatGPT para Excel e Planilhas Google (beta), que a OpenAI descreve como ChatGPT incorporado diretamente em planilhas para construir, analisar e atualizar modelos financeiros complexos usando fórmulas e estruturas nas quais as equipes já confiam.
A suíte também inclui novas integrações de aplicativos ChatGPT destinadas a unificar dados internos, de mercado e da empresa em um único fluxo de trabalho, nomeando FactSet, MSCI, Third Bridge e Moody’s.
E introduz “habilidades” reutilizáveis para trabalhos financeiros recorrentes, como previsões de lucros, análises comparáveis, análises de DCF e elaboração de memorandos de investimento.
A OpenAI ancora o impulso financeiro com uma afirmação de benchmark interno: o desempenho do modelo aumentou de 43,7% com GPT-5 para 88,0% com GPT-5.4 Pensando em um benchmark de banco de investimento interno da OpenAI.
Medindo o desempenho da IA em relação ao trabalho profissional
A OpenAI se baseia em benchmarks destinados a se assemelhar a resultados reais de escritório, e não apenas à resolução de quebra-cabeças. No GDPval, uma avaliação que abrange “trabalho de conhecimento bem especificado” em 44 ocupações, a OpenAI relata que o GPT-5.4 iguala ou excede os profissionais da indústria em 83,0% das comparações, em comparação com 71,0% para o GPT-5.2.
A empresa também destaca melhorias específicas nos tipos de artefatos que tendem a expor os pontos fracos do modelo: tabelas estruturadas, fórmulas, coerência narrativa e qualidade de design.
Em um benchmark interno de tarefas de modelagem de planilhas modeladas a partir do que um analista júnior de banco de investimento poderia fazer, o GPT-5.4 atinge uma pontuação média de 87,5%, em comparação com 68,4% do GPT-5.2.
E em um conjunto de solicitações de avaliação de apresentação, a OpenAI diz que os avaliadores humanos preferiram as apresentações do GPT-5.4 68,0% das vezes em vez do GPT-5.2, citando uma estética mais forte, maior variedade visual e uso mais eficaz da geração de imagens.
Melhorando a confiabilidade e reduzindo alucinações
OpenAI descreve o GPT-5.4 como seu modelo mais factual e conecta essa afirmação a um conjunto de dados prático: prompts desidentificados onde os usuários sinalizaram anteriormente erros factuais. Nesse conjunto, OpenAI relata GPT-5.4 reivindicações individuais têm 33% menos probabilidade de serem falsas e sua respostas completas têm 18% menos probabilidade de conter erros em comparação com GPT-5.2.
Em declarações fornecidas ao VentureBeat da OpenAI e atribuídas aos primeiros testadores do GPT-5.4, Daniel Swiecki da Walleye Capital diz que nas avaliações internas de finanças e Excel, o GPT-5.4 melhorou a precisão em 30 pontos percentuais, o que ele vincula à automação expandida para atualizações de modelo e análise de cenário.
Brendan Foody, CEO da Mercor, considera o GPT-5.4 o melhor modelo que a empresa já experimentou e diz que agora está no topo do benchmark APEX-Agents da Mercor para trabalho de serviços profissionais, enfatizando resultados de longo prazo, como apresentações de slides, modelos financeiros e análises jurídicas.
Preço e disponibilidade
Na API, OpenAI diz que o pensamento GPT-5.4 está disponível como gpt-5.4 e GPT-5.4 Pro como gpt-5.4-pro. O preço é o seguinte:
-
GPT-5.4: US$ 2,50/1 milhão de tokens de entrada; Tokens de saída de US$ 15/1 milhão
-
GPT-5.4 Pró: Tokens de entrada de US$ 30/1 milhão; Tokens de saída de US$ 180/1 milhão
-
Lote + Flex: meia taxa; Processamento prioritário: Taxa 2×
Isso torna o GPT-5.4 um dos modelos mais caros para rodar na API em comparação com o campo inteiro, conforme pode ser visto na tabela abaixo.
|
Modelo |
Entrada |
Saída |
Custo total |
Fonte |
|
Qwen3 Turbo |
US$ 0,05 |
US$ 0,20 |
US$ 0,25 |
|
|
Qwen3.5-Flash |
US$ 0,10 |
US$ 0,40 |
US$ 0,50 |
|
|
deepseek-chat (V3.2-Exp) |
US$ 0,28 |
US$ 0,42 |
US$ 0,70 |
|
|
raciocinador de busca profunda (V3.2-Exp) |
US$ 0,28 |
US$ 0,42 |
US$ 0,70 |
|
|
Grok 4.1 Rápido (raciocínio) |
US$ 0,20 |
US$ 0,50 |
US$ 0,70 |
|
|
Grok 4.1 Rápido (sem raciocínio) |
US$ 0,20 |
US$ 0,50 |
US$ 0,70 |
|
|
MiniMax M2.5 |
US$ 0,15 |
US$ 1,20 |
US$ 1,35 |
|
|
Gêmeos 3.1 Flash-Lite |
US$ 0,25 |
US$ 1,50 |
US$ 1,75 |
|
|
MiniMax M2.5-Relâmpago |
US$ 0,30 |
US$ 2,40 |
US$ 2,70 |
|
|
Pré-visualização em Flash do Gêmeos 3 |
US$ 0,50 |
US$ 3,00 |
US$ 3,50 |
|
|
Kimi-k2.5 |
US$ 0,60 |
US$ 3,00 |
US$ 3,60 |
|
|
GLM-5 |
US$ 1,00 |
US$ 3,20 |
US$ 4,20 |
|
|
ERNIE 5.0 |
US$ 0,85 |
US$ 3,40 |
US$ 4,25 |
|
|
Claude Haiku 4.5 |
US$ 1,00 |
US$ 5,00 |
US$ 6,00 |
|
|
Qwen3-Max (23/01/2026) |
US$ 1,20 |
US$ 6,00 |
US$ 7,20 |
|
|
Gêmeos 3 Pro (≤200K) |
US$ 2,00 |
US$ 12,00 |
US$ 14,00 |
|
|
GPT-5.2 |
US$ 1,75 |
US$ 14,00 |
US$ 15,75 |
|
|
Soneto de Claude 4.6 |
US$ 3,00 |
US$ 15,00 |
US$ 18,00 |
|
|
GPT-5.4 |
US$ 2,50 |
US$ 15,00 |
US$ 17,50 |
|
|
Gêmeos 3 Pro (>200K) |
US$ 4,00 |
US$ 18,00 |
US$ 22,00 |
|
|
Claude Opus 4.6 |
US$ 5,00 |
US$ 25,00 |
US$ 30,00 |
|
|
GPT-5.2 Pró |
US$ 21,00 |
US$ 168,00 |
US$ 189,00 |
|
|
GPT-5.4 Pró |
US$ 30,00 |
US$ 180,00 |
US$ 210,00 |
Outra observação importante: com o GPT-5.4, as solicitações que excedem 272.000 tokens de entrada são cobradas a 2X a taxa normal, refletindo a capacidade de enviar prompts maiores do que os modelos anteriores suportados.
No Codex, o padrão de compactação é de 272 mil tokens, e o preço mais alto de contexto longo se aplica apenas quando a entrada excede 272 mil – o que significa que os desenvolvedores podem continuar enviando prompts nesse tamanho ou abaixo dele sem acionar a taxa mais alta, mas podem optar por prompts maiores aumentando o limite de compactação, com apenas as solicitações maiores cobradas de forma diferente.
Um porta-voz da OpenAI disse que na API a produção máxima é de 128.000 tokens, o mesmo dos modelos anteriores.
Finalmente, sobre o motivo pelo qual o preço do GPT-5.4 é mais alto no início do estudo, o porta-voz atribuiu-o a três fatores: maior capacidade em tarefas complexas (incluindo codificação, uso de computador, pesquisa profunda, geração avançada de documentos e uso de ferramentas), grandes melhorias de pesquisa do roteiro da OpenAI e raciocínio mais eficiente que usa menos tokens de raciocínio para tarefas comparáveis - acrescentando que a OpenAI acredita que o GPT-5.4 permanece abaixo dos modelos de fronteira comparáveis em preços, mesmo com o aumento.
A mudança mais ampla
Ao longo do lançamento e dos esclarecimentos subsequentes, o GPT-5.4 é posicionado como um modelo destinado a ir além da “geração de respostas” e entrar em fluxos de trabalho profissionais sustentados – aqueles que exigem orquestração de ferramentas, interação com computadores, contexto longo e resultados que se parecem com os artefatos que as pessoas realmente usam no trabalho.
A ênfase da OpenAI na eficiência de tokens, na busca de ferramentas, no uso de computadores nativos e na redução de erros factuais sinalizados pelo usuário apontam na mesma direção: tornar os sistemas de agentes mais viáveis na produção, reduzindo o custo das novas tentativas – seja essa nova tentativa uma nova solicitação humana, um agente chamando outra ferramenta ou uma reexecução do fluxo de trabalho porque a primeira passagem não funcionou.













