Início Tecnologia Anthropic lança Claude Opus 4.7: como experimentar, benchmarks, segurança

Anthropic lança Claude Opus 4.7: como experimentar, benchmarks, segurança

26
0

A Anthropic tem enviado produtos e feito notícias em um ritmo alucinante em 2026 e, na quinta-feira, a empresa de IA anunciou o lançamento do Claude Opus 4.7.

Claude Opus 4.7 é o modelo mais inteligente da Antrópico disponível ao público em geral. Notavelmente, Antrópico disse em um comunicado à imprensa que o Opus 4.7 é não tão poderoso quanto Claude Mythos, que a Antrópico considerou perigoso demais para ser divulgado ao público.

Claude Opus é uma família de modelos de raciocínio híbridos capazes de raciocínio em várias etapas e codificação avançada. Até o anúncio de Claude Mythos em 7 de abril, Claude Opus era considerado a série de modelos de IA mais avançada da Anthropic.

Não perca nossas últimas histórias: Adicione o Mashable como uma fonte de notícias confiável no Google.

Como experimentar Claude Opus 4.7

Claude Opus 4.7 já está disponível via Claude AIa API Claude e parceiros da Anthropic, como a Microsoft Foundry. O novo modelo é preço igual como Claude Opus 4.6.

VEJA TAMBÉM:

Anthropic defende a antropomorfização da IA ​​em um artigo de pesquisa “perturbador”

No entanto, a Anthropic observou que, como “o Opus 4.7 pensa mais em níveis de esforço mais elevados”, ele usa mais tokens de saída do que seu antecessor. Os usuários podem ler mais sobre como otimizar o uso de tokens no Guia de migração do Opus 4.7.

Como Claude Opus 4.7 melhora em relação ao 4.6

Como esperado, Claude Opus 4.7 oferece recursos aprimorados em todos os aspectos.

Em particular, a Anthropic diz que Claude Opus 4.7 é melhor em tarefas avançadas de codificação, inteligência visual e análise de documentos. A Anthropic também afirma que o Opus 4.7 é “mais elegante e criativo ao realizar tarefas profissionais, produzindo interfaces, slides e documentos de alta qualidade”.

“Os usuários relatam ser capazes de entregar seu trabalho de codificação mais difícil – o tipo que antes precisava de supervisão rigorosa – para o Opus 4.7 com confiança. O Opus 4.7 lida com tarefas complexas e de longa duração com rigor e consistência, presta atenção precisa às instruções e cria maneiras de verificar seus próprios resultados antes de reportar de volta”, diz um comunicado. Postagem do blog antrópico.

Claude Opus 4.7: Desempenho de referência

A Anthropic divulgou um detalhado cartão modelo descrevendo como Claude Opus 4.7 se compara a outros modelos antrópicos e modelos de fronteira da OpenAI, Google e xAI.

Opus 4.7 está atrás do inédito Claude Mythos, cujo Anthropic relata pontuações significativamente mais altas em benchmarks comuns, como O Último Exame da Humanidade. “Claude Opus 4.7 é menos capaz do que Claude Mythos Preview em todos os eixos relevantes que medimos e não avança nossa fronteira de capacidade”, afirma o cartão modelo.” Isso significa que Claude Opus 4.7 não é evidência de que o desenvolvimento da IA ​​acelerou além das linhas de tendência existentes.

VEJA TAMBÉM:

A indústria de IA tem um grande problema com o Chicken Little

Sobre O Último Exame da Humanidade (sem ferramentas), a Anthropic relata que Claude Opus 4.7 supera todos os outros modelos de fronteira, exceto Claude Mythos.

  • Claude Mythos obteve 56,8 por cento no HLE

  • Claude Opus 4,7 obteve 46,9 por cento

  • Gemini 3.1 Pro obteve 44,4 por cento

  • GPT-5-4 Pro obteve 42,7 por cento

  • Claude Opus 4,6 obteve 40,0 por cento

Com ferramentas, o GPT-5-4-Pro obteve 58,7 por cento em comparação com 54,7 por cento do Opus 4.7. Mythos venceu ambos com 64,7 por cento.

O Mashable não verificou de forma independente esses resultados de benchmark. Os resultados completos estão disponíveis no Placa modelo Opus 4.7.


Crédito: Antrópico

No geral, o Anthropic pontuou o Opus 4.7 acima de outros modelos líderes em alguns benchmarks, embora o Gemini 3.1 Pro e o GPT-5-4 tenham pontuação mais alta em algumas áreas.

Claude Opus 4.7: Segurança e alucinações

A Antrópica também relata que Opus 4.7 mostra um baixo risco de comportamentos desalinhados, com um perfil de risco semelhante ao Opus 4.6.

Por exemplo, a Anthropic diz que o Opus 4.7 tem menos probabilidade de ter alucinações e mostra taxas mais baixas de hacking de recompensas.

“Claude Opus 4.7 é mais confiável e honesto do que o Opus 4.6 ou o Sonnet 4.6, com grandes reduções na taxa de omissões importantes e melhorias moderadas na factualidade e nas taxas de informações alucinadas”, afirma o cartão modelo.

Quer saber mais sobre como tirar o melhor proveito da sua tecnologia? Inscreva-se nos boletins informativos de notícias e ofertas principais do Mashable hoje.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui