Início Tecnologia OpenAI lança GPT-5.4 com modo nativo de uso de computador, plug-ins financeiros...

OpenAI lança GPT-5.4 com modo nativo de uso de computador, plug-ins financeiros para Microsoft Excel, Planilhas Google

44
0

As atualizações de IA não estão diminuindo. Literalmente dois dias depois que a OpenAI lançou um novo modelo de IA subjacente para ChatGPT chamado GPT-5.3 Instant, a empresa revelou outra atualização ainda mais massiva: GPT-5.4.

Na verdade, o GPT-5.4 vem em duas variedades: Pensamento GPT-5.4 e GPT-5.4 Proeste último projetado para as tarefas mais complexas.

Ambos estarão disponíveis na interface de programação de aplicativos pagos (API) da OpenAI e no aplicativo de desenvolvimento de software Codex, enquanto o GPT-5.4 Thinking estará disponível para todos os assinantes pagos do ChatGPT (Plus, o plano de US$ 20 por mês e superior) e o Pro será reservado para ChatGPT Pro (US$ 200 mensais) e usuários do plano Enterprise.

Os usuários do ChatGPT Free também experimentarão o GPT-5.4, mas somente quando suas consultas forem roteadas automaticamente para o modelo, de acordo com um porta-voz da OpenAI.

As grandes manchetes deste lançamento são a eficiência, com a OpenAI relatando que o GPT-5.4 usa muito menos tokens (47% menos em algumas tarefas) do que seus antecessores e, sem dúvida ainda mais impressionante, um novo modo “nativo” de uso do computador disponível através da API e seu Codex que permite ao GPT-5.4 navegar no computador do usuário como um ser humano e trabalhar em vários aplicativos.

A empresa também está lançando um novo conjunto de integrações ChatGPT que permite que o GPT-5.4 seja conectado diretamente ao Microsoft Excel e ao Planilhas Google dos usuários planilhas e células, permitindo análise granular e conclusão automatizada de tarefas que devem acelerar o trabalho em toda a empresa, mas podem tornar os temores de demissões de colarinho branco ainda mais pronunciados na esteira de ofertas semelhantes de Claude da Anthropic e seu novo aplicativo Cowork.

A OpenAI afirma que o GPT-5.4 suporta até 1 milhão de tokens de contexto na API e no Codex, permitindo que os agentes planejem, executem e verifiquem tarefas em longos horizontes – no entanto, cobra o dobro do custo por 1 milhão de tokens quando a entrada excede 272.000 tokens.

Uso nativo de computadores: um passo em direção a fluxos de trabalho autônomos

A capacidade mais importante que a OpenAI destaca é que GPT-5.4 é seu primeiro modelo de uso geral lançado com recursos nativos de uso de computador de última geração no Codex e na API, permitindo que os agentes operem computadores e executem fluxos de trabalho de várias etapas em aplicativos.

OpenAI diz que o modelo pode escrever código para operar computadores por meio de bibliotecas como Playwright e emitir comandos de mouse e teclado em resposta a capturas de tela. OpenAI também afirma um salto na navegação agente na web.

Os resultados do benchmark são apresentados como evidência de que este não é apenas um wrapper de UI.

No BrowseComp, que mede quão bem os agentes de IA podem navegar persistentemente na web para encontrar informações difíceis de localizar, o OpenAI relata que o GPT-5.4 melhorou 17% em termos absolutos em relação ao GPT-5.2, e o GPT-5.4 Pro atingiu 89,3%, descrito como um novo estado da arte.

No OSWorld-Verified, que mede a navegação na área de trabalho usando capturas de tela mais ações de teclado e mouse, OpenAI relata GPT-5.4 com 75,0% de sucesso, em comparação com 47,3% para GPT-5.2, e notas relataram desempenho humano em 72,4%.

No WebArena-Verified, o GPT-5.4 atinge 67,3% de sucesso usando interação orientada por DOM e captura de tela, em comparação com 65,4% do GPT-5.2. No Online-Mind2Web, OpenAI relata 92,8% de sucesso usando apenas observações baseadas em capturas de tela.

A OpenAI também vincula o uso do computador a melhorias na visão e no manuseio de documentos. No MMMU-Pro, o GPT-5.4 atinge 81,2% de sucesso sem o uso de ferramentas, em comparação com 79,5% do GPT-5.2, e a OpenAI afirma que alcança esse resultado usando uma fração dos “tokens de pensamento”.

No OmniDocBench, o erro médio do GPT-5.4 é relatado em 0,109, melhorado de 0,140 para GPT-5.2. A postagem também descreve suporte expandido para entradas de imagem de alta fidelidade, incluindo um nível de detalhe “original” de até 10,24 milhões de pixels.

A OpenAI posiciona o GPT-5.4 como construído para fluxos de trabalho mais longos e de várias etapas – trabalho que cada vez mais se parece com um agente mantendo o estado em muitas ações, em vez de um chatbot respondendo uma vez.

Pesquisa de ferramentas e orquestração aprimorada de ferramentas

À medida que os ecossistemas de ferramentas crescem, a OpenAI argumenta que a abordagem ingênua – despejar todas as definições de ferramentas no prompt – cria um imposto pago sobre cada solicitação: custo, latência e poluição de contexto.

GPT-5.4 introduz a pesquisa de ferramentas na API como uma correção estrutural. Em vez de receber todas as definições de ferramentas antecipadamente, o modelo recebe uma lista leve de ferramentas, além de um recurso de pesquisa, e recupera definições completas de ferramentas somente quando elas são realmente necessárias.

A OpenAI descreve o ganho de eficiência com uma comparação concreta: em 250 tarefas do benchmark MCP Atlas da Scale, executadas com 36 servidores MCP habilitados, a configuração de pesquisa da ferramenta reduziu o uso total de tokens em 47%, ao mesmo tempo que alcançou a mesma precisão de uma configuração que expôs todas as funções do MCP diretamente no contexto.

Esse número de 47% é especificamente sobre a configuração de pesquisa de ferramentas nessa avaliação – não uma afirmação geral de que o GPT-5.4 usa 47% menos tokens para cada tipo de tarefa.

Melhorias para desenvolvedores e fluxos de trabalho de codificação

O argumento de codificação da OpenAI é que o GPT-5.4 combina os pontos fortes de codificação do GPT-5.3-Codex com ferramentas mais fortes e recursos de uso de computador que são importantes quando as tarefas não são únicas.

O GPT-5.4 corresponde ou supera o GPT-5.3-Codex no SWE-Bench Pro, ao mesmo tempo que apresenta menor latência em todos os esforços de raciocínio.

Codex também recebe botões de nível de fluxo de trabalho. A OpenAI afirma que o modo /fast oferece desempenho até 1,5x mais rápido em todos os modelos suportados, incluindo GPT-5.4, descrevendo-o como o mesmo modelo e inteligência “apenas mais rápido”.

E descreve o lançamento de uma habilidade experimental do Codex, “Playwright (Interactive)”, destinada a demonstrar como a codificação e o uso do computador podem funcionar em conjunto – depurando visualmente aplicativos da Web e Electron e testando um aplicativo enquanto ele está sendo construído.

OpenAI para Microsoft Excel e Planilhas Google

Juntamente com o GPT-5.4, a OpenAI está anunciando um conjunto de produtos seguros de IA em ChatGPT desenvolvidos para empresas e instituições financeiras, alimentados por GPT-5.4 para raciocínio financeiro avançado e modelagem baseada em Excel.

A peça central é ChatGPT para Excel e Planilhas Google (beta), que a OpenAI descreve como ChatGPT incorporado diretamente em planilhas para construir, analisar e atualizar modelos financeiros complexos usando fórmulas e estruturas nas quais as equipes já confiam.

A suíte também inclui novas integrações de aplicativos ChatGPT destinadas a unificar dados internos, de mercado e da empresa em um único fluxo de trabalho, nomeando FactSet, MSCI, Third Bridge e Moody’s.

E introduz “habilidades” reutilizáveis ​​para trabalhos financeiros recorrentes, como previsões de lucros, análises comparáveis, análises de DCF e elaboração de memorandos de investimento.

A OpenAI ancora o impulso financeiro com uma afirmação de benchmark interno: o desempenho do modelo aumentou de 43,7% com GPT-5 para 88,0% com GPT-5.4 Pensando em um benchmark de banco de investimento interno da OpenAI.

Medindo o desempenho da IA ​​em relação ao trabalho profissional

A OpenAI se baseia em benchmarks destinados a se assemelhar a resultados reais de escritório, e não apenas à resolução de quebra-cabeças. No GDPval, uma avaliação que abrange “trabalho de conhecimento bem especificado” em 44 ocupações, a OpenAI relata que o GPT-5.4 iguala ou excede os profissionais da indústria em 83,0% das comparações, em comparação com 71,0% para o GPT-5.2.

A empresa também destaca melhorias específicas nos tipos de artefatos que tendem a expor os pontos fracos do modelo: tabelas estruturadas, fórmulas, coerência narrativa e qualidade de design.

Em um benchmark interno de tarefas de modelagem de planilhas modeladas a partir do que um analista júnior de banco de investimento poderia fazer, o GPT-5.4 atinge uma pontuação média de 87,5%, em comparação com 68,4% do GPT-5.2.

E em um conjunto de solicitações de avaliação de apresentação, a OpenAI diz que os avaliadores humanos preferiram as apresentações do GPT-5.4 68,0% das vezes em vez do GPT-5.2, citando uma estética mais forte, maior variedade visual e uso mais eficaz da geração de imagens.

Melhorando a confiabilidade e reduzindo alucinações

OpenAI descreve o GPT-5.4 como seu modelo mais factual e conecta essa afirmação a um conjunto de dados prático: prompts desidentificados onde os usuários sinalizaram anteriormente erros factuais. Nesse conjunto, OpenAI relata GPT-5.4 reivindicações individuais têm 33% menos probabilidade de serem falsas e sua respostas completas têm 18% menos probabilidade de conter erros em comparação com GPT-5.2.

Em declarações fornecidas ao VentureBeat da OpenAI e atribuídas aos primeiros testadores do GPT-5.4, Daniel Swiecki da Walleye Capital diz que nas avaliações internas de finanças e Excel, o GPT-5.4 melhorou a precisão em 30 pontos percentuais, o que ele vincula à automação expandida para atualizações de modelo e análise de cenário.

Brendan Foody, CEO da Mercor, considera o GPT-5.4 o melhor modelo que a empresa já experimentou e diz que agora está no topo do benchmark APEX-Agents da Mercor para trabalho de serviços profissionais, enfatizando resultados de longo prazo, como apresentações de slides, modelos financeiros e análises jurídicas.

Preço e disponibilidade

Na API, OpenAI diz que o pensamento GPT-5.4 está disponível como gpt-5.4 e GPT-5.4 Pro como gpt-5.4-pro. O preço é o seguinte:

  • GPT-5.4: US$ 2,50/1 milhão de tokens de entrada; Tokens de saída de US$ 15/1 milhão

  • GPT-5.4 Pró: Tokens de entrada de US$ 30/1 milhão; Tokens de saída de US$ 180/1 milhão

  • Lote + Flex: meia taxa; Processamento prioritário: Taxa 2×

Isso torna o GPT-5.4 um dos modelos mais caros para rodar na API em comparação com o campo inteiro, conforme pode ser visto na tabela abaixo.

Modelo

Entrada

Saída

Custo total

Fonte

Qwen3 Turbo

US$ 0,05

US$ 0,20

US$ 0,25

Nuvem Alibaba

Qwen3.5-Flash

US$ 0,10

US$ 0,40

US$ 0,50

Nuvem Alibaba

deepseek-chat (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

raciocinador de busca profunda (V3.2-Exp)

US$ 0,28

US$ 0,42

US$ 0,70

DeepSeek

Grok 4.1 Rápido (raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

Grok 4.1 Rápido (sem raciocínio)

US$ 0,20

US$ 0,50

US$ 0,70

xAI

MiniMax M2.5

US$ 0,15

US$ 1,20

US$ 1,35

MiniMax

Gêmeos 3.1 Flash-Lite

US$ 0,25

US$ 1,50

US$ 1,75

Google

MiniMax M2.5-Relâmpago

US$ 0,30

US$ 2,40

US$ 2,70

MiniMax

Pré-visualização em Flash do Gêmeos 3

US$ 0,50

US$ 3,00

US$ 3,50

Google

Kimi-k2.5

US$ 0,60

US$ 3,00

US$ 3,60

Tiro lunar

GLM-5

US$ 1,00

US$ 3,20

US$ 4,20

Z.ai

ERNIE 5.0

US$ 0,85

US$ 3,40

US$ 4,25

Baidu

Claude Haiku 4.5

US$ 1,00

US$ 5,00

US$ 6,00

Antrópico

Qwen3-Max (23/01/2026)

US$ 1,20

US$ 6,00

US$ 7,20

Nuvem Alibaba

Gêmeos 3 Pro (≤200K)

US$ 2,00

US$ 12,00

US$ 14,00

Google

GPT-5.2

US$ 1,75

US$ 14,00

US$ 15,75

OpenAI

Soneto de Claude 4.6

US$ 3,00

US$ 15,00

US$ 18,00

Antrópico

GPT-5.4

US$ 2,50

US$ 15,00

US$ 17,50

OpenAI

Gêmeos 3 Pro (>200K)

US$ 4,00

US$ 18,00

US$ 22,00

Google

Claude Opus 4.6

US$ 5,00

US$ 25,00

US$ 30,00

Antrópico

GPT-5.2 Pró

US$ 21,00

US$ 168,00

US$ 189,00

OpenAI

GPT-5.4 Pró

US$ 30,00

US$ 180,00

US$ 210,00

OpenAI

Outra observação importante: com o GPT-5.4, as solicitações que excedem 272.000 tokens de entrada são cobradas a 2X a taxa normal, refletindo a capacidade de enviar prompts maiores do que os modelos anteriores suportados.

No Codex, o padrão de compactação é de 272 mil tokens, e o preço mais alto de contexto longo se aplica apenas quando a entrada excede 272 mil – o que significa que os desenvolvedores podem continuar enviando prompts nesse tamanho ou abaixo dele sem acionar a taxa mais alta, mas podem optar por prompts maiores aumentando o limite de compactação, com apenas as solicitações maiores cobradas de forma diferente.

Um porta-voz da OpenAI disse que na API a produção máxima é de 128.000 tokens, o mesmo dos modelos anteriores.

Finalmente, sobre o motivo pelo qual o preço do GPT-5.4 é mais alto no início do estudo, o porta-voz atribuiu-o a três fatores: maior capacidade em tarefas complexas (incluindo codificação, uso de computador, pesquisa profunda, geração avançada de documentos e uso de ferramentas), grandes melhorias de pesquisa do roteiro da OpenAI e raciocínio mais eficiente que usa menos tokens de raciocínio para tarefas comparáveis ​​- acrescentando que a OpenAI acredita que o GPT-5.4 permanece abaixo dos modelos de fronteira comparáveis ​​em preços, mesmo com o aumento.

A mudança mais ampla

Ao longo do lançamento e dos esclarecimentos subsequentes, o GPT-5.4 é posicionado como um modelo destinado a ir além da “geração de respostas” e entrar em fluxos de trabalho profissionais sustentados – aqueles que exigem orquestração de ferramentas, interação com computadores, contexto longo e resultados que se parecem com os artefatos que as pessoas realmente usam no trabalho.

A ênfase da OpenAI na eficiência de tokens, na busca de ferramentas, no uso de computadores nativos e na redução de erros factuais sinalizados pelo usuário apontam na mesma direção: tornar os sistemas de agentes mais viáveis ​​na produção, reduzindo o custo das novas tentativas – seja essa nova tentativa uma nova solicitação humana, um agente chamando outra ferramenta ou uma reexecução do fluxo de trabalho porque a primeira passagem não funcionou.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui