Início Tecnologia AI Model Release Tracker: taxas de desalinhamento do Opus 4.8 semelhantes às...

Tecnologia

AI Model Release Tracker: taxas de desalinhamento do Opus 4.8 semelhantes às do Claude Mythos Preview

Por

28 Maio 2026

Elyse Betters Picaro/ZDNET

Siga ZDNET: Adicione-nos como fonte preferencial no Google.

Os laboratórios de IA estão enviando novos modelos sem parar. Além de serem melhores e mais rápidos que seus antecessores, no entanto, nem todo novo modelo será uma grande mudança, apesar de as relações públicas da empresa poderem ser poéticas sobre eles. Os pontos fortes do modelo realmente emergem no contexto: onde os modelos concorrentes estão em falta ou se destacando? Quais modelos possuem especialidades excepcionais e quais estão apenas alcançando os padrões da indústria?

Além disso: como testamos IA na ZDNET

Nosso Model Release Tracker ajuda você a entender a posição dos modelos em relação uns aos outros e se vale a pena uma análise mais aprofundada. Embora não testemos todos os modelos ou atualizações de modelo nesta lista, sempre incluiremos os principais elementos que você precisa saber, juntamente com nosso teste prático especializado, quando aplicável. Também incluímos uma pontuação de especialista para determinados modelos. Curioso para saber como testamos a IA? Confira esse detalhamento do nosso processo.

Aqui estão alguns dos maiores lançamentos de modelos de 2026 até agora e o que você deve saber sobre eles. Atualizaremos esta lista sempre que um novo modelo notável chegar.

Cláudio Opus 4.8

Antrópico | 28 de maio de 2026

O que faz: Substituindo o Opus 4.7 a partir de hoje (pelo mesmo preço), o Opus 4.8 oferece modos de pensamento mais rápidos por um terço do custo da versão anterior, de acordo com a Anthropic. Como a maioria dos modelos da Anthropic, o 4.8 prioriza habilidades de codificação, com pontuação superior a 4,7 em dois benchmarks de codificação, mas não superando totalmente o GPT 5.5 da OpenAI. Também “alcança novos patamares em nossas medidas de características pró-sociais, como apoiar a autonomia do usuário e agir no melhor interesse do usuário”, observou a empresa no comunicado, embora as definições sobre o que isso significa permaneçam obscuras.

Além disso: Anthropic lança Opus 4.8, com a honestidade como seu recurso matador

Por que é importante: A Anthropic sempre priorizou a segurança e a interpretabilidade do modelo, mas parece estar enfatizando ainda mais esse padrão com este lançamento. A empresa disse que o Opus 4.7 teve uma taxa de honestidade de 92%, além de ser menos bajulador e propenso a alucinações em geral. O fato de reivindicar 4,8 mostra taxas de desalinhamento “substancialmente” mais baixas do que 4,7 indica um padrão cada vez mais alto para a segurança do modelo, especialmente porque a Anthropic comparou o alinhamento do 4.8 com o do Mythos Preview.

GPT-5.5 Instantâneo

OpenAI | 5 de maio de 2026

O que isso faz: OpenAI disse em seu anúncio que a versão mais leve do recém-lançado GPT-5.5 da OpenAI é menos detalhada do que seu antecessor, GPT-5.3 Instant. Ele também elogiou menos alucinações e melhor factualidade, dizendo que “o GPT-5.5 Instant produziu 52,5% menos alegações de alucinações do que o GPT-5.3 Instant em avisos de alto risco cobrindo áreas como medicina, direito e finanças.”

Além disso: Mythos da Anthropic está evoluindo mais rápido do que o esperado, relata agência de segurança de IA

Por que isso assuntos: GPT-5.5 Instant substitui GPT-5.3 como modelo padrão no ChatGPT. Novamente, embora a expectativa seja que cada novo modelo de IA se torne mais eficiente, mais fácil de usar e produza menos coisas, uma melhoria significativa nas alucinações para um modelo que a maioria das pessoas usa para consultas rápidas poderia significar menos disseminação de desinformação entre as massas. Isso é especialmente crítico considerando quantas pessoas estão usando o ChatGPT para questões diárias de saúde, por exemplo.

(Divulgação: Ziff Davis, empresa controladora da ZDNET, entrou com uma ação judicial em abril de 2025 contra a OpenAI, alegando que ela violou os direitos autorais de Ziff Davis no treinamento e operação de seus sistemas de IA.)

Nemotron 3 Nano Omni

Nvidia | 28 de abril de 2026

O que faz: O mais recente na família Nemotron aberta da Nvidia, este modelo fornece aos agentes entrada multimodal. Isso significa que eles podem “perceber e raciocinar através de entradas visuais, sonoras e textuais dentro de um único ciclo compartilhado de percepção para ação”. de acordo com a Nvidiaunificando assim vários recursos em um único sistema.

Além disso: a IA é uma corrida armamentista e os EUA querem US$ 9 bilhões em superchips da Nvidia para acompanhar

Por que isso assuntos: Normalmente, os sistemas de agentes precisam usar modelos separados para fala, visão e texto, o que significa que eles saltam entre documentos, vídeo e áudio para concluir tarefas de várias etapas. Isso retarda os fluxos de trabalho, prejudica a coleta dos agentes de contexto e aumenta os custos de inferência. A abordagem da Nvidia, se funcionar, agilizaria esse processo e reduziria o uso de tokens, economizando dinheiro. Experimente abraçar o rosto.

GPT-5.5

OpenAI | 23 de abril de 2026

Pontuação de especialista: 93/100

O que faz: O testador residente da ZDNET, David Gewirtz, tecnicamente deu ao GPT-5.5 uma pontuação A, mas disse que “pode ser descrito de forma redutora como melhor e mais rápido do que o GPT-5.4”, o que esperançosamente é a expectativa mínima para um novo modelo. Especificamente, porém, o modelo melhorou na codificação agente, identificando claramente conceitos, pesquisas científicas e precisão factual.

Além disso: coloquei o GPT-5.5 em um teste de 10 rodadas: ele marcou 93/100, perdendo pontos apenas pela exuberância

Por que é importante: Embora o modelo em si possa não estar muito à frente de seu antecessor imediato, o rápido retorno de 5,4 para 5,4 – menos de dois meses – indica a rapidez com que a codificação de agente está acelerando o ciclo de lançamento do modelo OpenAI. À medida que David Gewirtz entra em colapso, a empresa, assim como outros laboratórios de ponta que usam IA para construir IA, está enviando atualizações em uma taxa exponencialmente crescente.

Imagens ChatGPT 2

OpenAI | 23 de abril de 2026

O que faz: Logo depois pôr do sol Soraseu modelo de vídeo generativo e plataforma social, OpenAI anunciou de forma um tanto confusa o Images 2. O testador de modelo ZDNET David Gewirtz deu uma olhada no Images 2 antes de seu lançamento e ficou impressionado. Embora ele não tenha dado a este modelo uma pontuação de especialista formal, ele disse que é divertido, um grande salto e realmente útil para o trabalho.

Por que é importante: A OpenAI parecia estar saindo do jogo de produtos de IA mais voltados para o consumidor quando descontinuou o Sora, tendo sido derrotada pela Anthropic na garantia de contratos empresariais lucrativos. O fato de a OpenAI ainda ter lançado Imagens 2 dentro dessa narrativa de redirecionamento indica que ela vê os geradores de imagens como relevantes o suficiente para a IA corporativa – especialmente na esteira de Claude Design da Antrópico.

Cláudio Opus 4.7

Antrópico | 16 de abril de 2026

O que é faz: Chegando relativamente rápido depois do Opus 4.6, este modelo apresenta novos máximos de honestidade, redução de bajulação e alucinações. Também parece ter talento para a segurança cibernética, já que apoia o novo Claude Security, lançado pouco depois do próprio modelo – mas não, não é o Mythos, como muitos suspeitavam.

Além disso: a nova ferramenta Claude Security da Anthropic verifica sua base de código em busca de falhas – e ajuda você a decidir o que consertar primeiro

Por que é importante: Alucinações e honestidade estão entre as questões mais difíceis e difíceis de resolver que assolam até mesmo os melhores modelos. Para a Anthropic reivindicar ganhos tão significativos nessas áreas não é pouca coisa para um laboratório de IA que leva a segurança a sério.

Claude Mythos (Prévia)

Antrópico | 7 de abril de 2026

O que é faz: Esta é difícil porque Mythos não está realmente disponível ao público. A Anthropic criou uma grande tempestade na mídia quando posicionou o novo modelo de uso geral como poderoso demais para ser lançado como de costume. Embora o modelo seja aparentemente uma mudança radical em relação aos modelos Anthropic anteriores, a empresa ficou especialmente alarmada por causa da ameaça à segurança que representava, afirmando que “é surpreendentemente capaz em tarefas de segurança de computadores.”

Em resposta a isso, a Anthropic liderou o Projeto Glasswing, um esforço colaborativo com vários laboratórios rivais de IA, incluindo Google, Nvidia e Microsoft, bem como autoridades de segurança como Palo Alto Networks, “para ajudar a proteger o software mais crítico do mundo e preparar a indústria para as práticas que todos precisaremos adotar para nos mantermos à frente dos ciberataques”.

Além disso: Apple, Google e Microsoft unem-se ao Projeto Glasswing da Anthropic para defender o software mais crítico do mundo

Por que é importante: Se acreditarmos na orientação da Anthropic de que o Mythos representa uma ameaça significativa ao software mundial – tanto que apenas um número seleto de parceiros pode acessá-lo – os aparatos de segurança cibernética, tal como estão, podem não estar preparados para enfrentar a fronteira em rápida evolução das capacidades do modelo. O Mythos pode não ser o único modelo do seu calibre, mas simplesmente o primeiro de muitos que surgirão assim que outros laboratórios alcançarem avanços semelhantes.

Por enquanto, apenas algumas semanas após seu lançamento, Mythos está ajudando a detectar bugs de software em massa.

GPT-5.4

OpenAI | 5 de março de 2026

O que é faz: A OpenAI estruturou este novo modelo, lançado apenas três meses após o GPT-5.2, como projetado especificamente para trabalho profissional. De acordo com os testes da própria empresa (que devem sempre ser feitos com cautela até serem verificados por terceiros), o GPT-5.4 corresponde ou supera os profissionais humanos em 83% das vezes.

Por que é importante: À medida que as empresas de IA se concentram mais em ganhar a confiança (e os contratos) das empresas e, ao mesmo tempo, elogiam o que a IA agente pode fazer, elas precisam de modelos que possam lidar com tarefas complexas relacionadas ao trabalho com riscos mínimos, atrasos ou custos proibitivamente altos. Qualquer avanço de modelo que demonstre habilidade em fluxos de trabalho profissionais tem mais chances de ser levado a sério por empresas que lutam para adotar a IA, embora nada garanta uma integração perfeita.

Além disso: o novo GPT-5.4 da OpenAI derrota os humanos no trabalho de nível profissional em testes – em 83%

Claude Opus 4.6

Antrópico | 5 de fevereiro de 2026

O que é faz: Este modelo redefiniu rapidamente o padrão para trabalho de agente autônomo, especialmente para codificação. Isso não é surpresa, dada a autoridade da Anthropic na construção de modelos especialmente adeptos de tarefas de programação. O Opus 4.6 também demonstrou melhorias em tarefas complexas e de longa duração em geral.

Por que é importante: A capacidade do Opus 4.6 de lidar melhor com as tarefas por conta própria significa que você pode transferir com segurança mais do seu fluxo de trabalho para ele – algo com o qual as ofertas de agentes geralmente têm dificuldade.

Além disso: a Anthropic diz que seu novo Claude Opus 4.6 pode acertar os resultados do seu trabalho na primeira tentativa

GPT-5.3-Codex

OpenAI | 5 de fevereiro de 2026

O que é faz: Este novo modelo de codificação – que a OpenAI disse ter ajudado a construir e depurar a si mesmo – pode ser interrompido e redirecionado no meio da tarefa, o que, se for verdade, é um grande benefício para os desenvolvedores que o utilizam em projetos complexos ou mutáveis, com toneladas de tentativa e erro. GPT-5.3-Codex também possui tempos de execução de mais de um dia e uma melhor compreensão da intenção do usuário.

Além disso: o novo modelo Spark da OpenAI codifica 15x mais rápido que o GPT-5.3-Codex – mas há um problema

Por que é importante: A OpenAI está tentando alcançar a liderança da Anthropic em codificação de agentes (e, coincidentemente ou não, lançou o Codex 5.3 no mesmo dia em que a Anthropic lançou o Opus 4.6). Embora os especialistas da ZDNET muitas vezes prefiram o Claude Code a outras ferramentas para codificação de vibração, a suposta mudança da OpenAI em direção a clientes corporativos e longe de ferramentas divertidas para o consumidor poderia eventualmente preencher essa lacuna.

fonte

AI Model Release Tracker: taxas de desalinhamento do Opus 4.8 semelhantes às do Claude Mythos Preview

Cláudio Opus 4.8

GPT-5.5 Instantâneo

Nemotron 3 Nano Omni

GPT-5.5

Imagens ChatGPT 2

Cláudio Opus 4.7

Claude Mythos (Prévia)

GPT-5.4

Claude Opus 4.6

GPT-5.3-Codex

DEIXE UMA RESPOSTA Cancelar resposta

Recente

Tudo o que sabemos sobre a segunda temporada de ‘Off Campus’...

A nave estelar V3 da SpaceX não pode voar novamente até...

I Dream of the Day Antologias de anime fazem um grande...

‘You’re Killing Me’ de Brooke Shields é renovado para a segunda...

Como se inscrever no Startup Battlefield 2026, o que você precisa...

‘The White Lotus’ recria a dramática noite de encerramento de Cannes...

As estrelas de ‘Deli Boys’ Asif Ali e Saagar Shaikh analisam...

Os pesquisadores automatizaram o design da estratégia de raciocínio LLM e...

‘Virgin River’ adiciona Natasha Calis para a 8ª temporada como Doc’s...

A usina Anker Solix C300 está pronta para o verão –...