Início Tecnologia Como testamos IA na ZDNET

Como testamos IA na ZDNET

14
0

Elyse Betters Picaro/ZDNET

Siga ZDNET: Adicione-nos como fonte preferencial no Google.


Principais conclusões da ZDNET

  • ZDNET testa IA com uso prático no mundo real.
  • Sem influência do fornecedor, sem acesso para revisão pré-publicação.
  • Testes padronizados geram comparações justas dos “melhores”.

Aqui na ZDNET sabemos que temos uma responsabilidade incrível. Sabemos que muitas vezes você toma decisões de compra, em parte, com base em nossas avaliações. É importante que você obtenha avaliações claras, imparciais e bem ponderadas para ter um ponto de partida confiável para decidir onde gastar seu dinheiro e/ou tempo.

E sim, levamos essa responsabilidade tão a sério em relação aos produtos gratuitos, porque o tempo hoje em dia é um recurso tão escasso quanto o dinheiro vivo. Não queremos que você perca seu tempo, assim como não queremos que você desperdice seu dinheiro.

Além disso: política ZDNET AI

Às vezes trabalhamos com fornecedores para obter acesso aos seus produtos e serviços, a fim de analisá-los. Mas eles nunca conseguem ver os comentários antes de publicarmos. Eles nunca influenciam o que dizemos em nossas avaliações. Nossas análises são sempre justas e focadas em avaliar a utilidade dos produtos para nossos leitores.

Como testamos a IA em 2026

Então, vamos falar sobre como testamos IA aqui na ZDNET. Tenha em mente que a IA está se infiltrando em quase tudo, então é um portfólio bem grande. Observamos grandes modelos de linguagem, ferramentas de desenvolvimento, geradores de imagens, aplicativos habilitados para IA e até mesmo dispositivos ocasionais de IA, como aspiradores de pó (bom uso de IA) e pinos de IA (nem tanto).

Testamos produtos e serviços com base em uma ampla gama de fatores. Nossa principal diretriz é que todas as revisões exijam experiência prática e testes no mundo real. Na prática, isso significa que embora possamos relatar um resultado de referência a partir de um comunicado à imprensa, não os consideramos nas análises.

Quando olhamos para produtos e serviços, tendemos a apresentar dois tipos diferentes de avaliações. Quando procuramos os melhores desempenhos em uma categoria, produzimos nossas listas dos “Melhores”. Quando nos aprofundamos em um produto ou serviço, muitas vezes contamos histórias pessoais sobre nossas experiências de longo prazo com esse produto. Essas diferentes abordagens nos permitem explorar produtos e serviços de diversas perspectivas.

Como fazemos análises comparativas

Produzir nossas análises comparativas (também chamadas de “listas das melhores”) é, na verdade, um processo de três etapas. A primeira etapa é a construção de critérios de avaliação que nos ajudem a comparar objetivamente os produtos. A segunda etapa é escolher os produtos a serem comparados. E a terceira etapa é a comparação real dos produtos, teste por teste.

Quando começamos, sempre perguntamos: “Como vamos avaliar esta categoria?” Normalmente construo uma série de testes, que documento no melhor artigo da lista. Os testes nos ajudam a avaliar desempenho, valor, utilidade, precisão, segurança, privacidade e muito mais. Gostamos de padronizar um teste para que, na hora de comparar produtos, saibamos que estamos sendo objetivos.

Por exemplo, na análise dos melhores chatbots, há uma metodologia de teste completa documentada no final do produto. Confira. O mesmo se aplica à melhor comparação de geradores de imagens de IA.

Quando se trata de escolher produtos candidatos, muitas vezes há alguns produtos óbvios que são adicionados à nossa lista de candidatos de seleção. Por exemplo, quando se olha para chatbots, ChatGPT, Gemini e Claude são candidatos óbvios.

Então nos aprofundamos. Analisamos produtos ou serviços que os leitores nos pediram para avaliar. Adicionamos candidatos com base no buzz geral em torno de uma categoria em locais como fóruns, grupos de usuários e mídias sociais. E às vezes (mas nem sempre), adicionaremos um produto como candidato quando um fornecedor chamar nossa atenção para um produto relevante e que seja adequado para a categoria.

Geralmente terminamos com uma lista de candidatos de cinco a dez produtos. Freqüentemente, uma rápida olhada na metodologia de teste eliminará alguns produtos. Alguns são muito caros em comparação com os outros. Alguns simplesmente não se encaixam.

Por exemplo, sou constantemente apresentado por fornecedores com aulas pagas que acham que seu material didático é tão bom que deveria ser incluído em nossa lista de melhores aulas gratuitas. Apesar de seu fervor, seus cursos pagos nunca serão incluídos em uma lista de ofertas gratuitas.

O processo de escolha dos candidatos aos testes, organização do acesso aos produtos e serviços e garantia de que tudo está pronto para a realização dos testes pode variar com o tempo. Quando dei minha primeira olhada nos construtores de sites de IA no ano passado, foram necessários 231 e-mails trocados com fornecedores e mais de seis meses para colocar tudo em ordem para que eu pudesse testar seus produtos. Este ano, a atualização do projeto levou apenas dois meses e menos de 50 e-mails no total.

Isso me leva a dois outros itens: o teste real e o novo teste. O teste real é simples, embora demorado. Como já temos uma metodologia de teste e um conjunto padrão de testes quando temos os produtos em mãos ou as contas de serviço configuradas, podemos simplesmente executar os testes. Registramos os resultados teste por teste, tela por tela.

Mais tarde, tentamos normalizar os resultados, muitas vezes fazendo um pouco de matemática para dar aos produtos um valor de desempenho comparativo e uma ponderação. Os critérios para essas métricas também estão documentados.

E então, a lista é publicada. Mas esse não é o fim da história.

Num campo em rápida mudança como a IA, os produtos e serviços não ficam parados. Alguns produtos irão falhar e queimar, alguns fornecedores ficarão sem financiamento ou alguma outra coisa dará terrivelmente errado. Para outros, eles ficarão cada vez melhores. De qualquer forma, depois de seis meses a um ano, as melhores listas ficam praticamente desatualizadas. Esse foi certamente o caso das análises do construtor de sites de IA. No ano passado, todos eles foram terríveis. Este ano, há alguns que são realmente ótimos.

Algumas das minhas análises comparativas favoritas para a categoria IA incluem:

Vivendo com os produtos

Outra forma de revisarmos os produtos de IA é convivendo com eles e realizando projetos com eles. Elas vão além das avaliações tradicionais porque submetemos os produtos e serviços a dias e semanas (às vezes meses e anos) de trabalho.

Os exemplos mais importantes disso são meus artigos relacionados à codificação. É muito difícil comparar objetivamente as ferramentas de codificação de IA sem realmente construir algo. Mas codificar uma tarefa de classe é muito diferente de construir um produto ou depurar um problema ativo de um cliente.

Freqüentemente, esses projetos estão em andamento. Esse trabalho contínuo gera muitas coisas excelentes para falar. As impressões também mudam.

Quando olhei pela primeira vez para a IA de codificação Codex da OpenAI, era muito cedo e não gostei nada. Conforme o Codex melhorou, fiz outro teste com ele, desta vez para ver se conseguia atualizar meu produto de segurança. Consegui 24 dias de codificação em 12 horas, mas também encontrei algumas armadilhas. À medida que o serviço melhorou ainda mais, fiz outro teste, onde produzi 4 anos de desenvolvimento de produto em 4 dias.

Os mesmos tipos de artigos de revisão experiencial foram publicados sobre Gemini, ChatGPT, Claude Code, os vários geradores de imagens e muito mais. À medida que as ferramentas continuam evoluindo, continuamos encontrando novas maneiras de usá-las e submetendo-as a mais testes e aprofundamentos.

É um processo contínuo e podemos acompanhá-lo nesse passeio. Aqui estão alguns dos meus favoritos do mundo da IA:

Você é uma grande parte do processo

Recebemos muitos comentários dos leitores por e-mail, redes sociais e comentários em artigos. Você nos ajuda a entender o que deseja que vejamos. Também apreciamos que você nos mantenha em um padrão bastante elevado.

Também apreciamos muito quando você compartilha suas impressões sobre os produtos que analisamos. Muitos de vocês são bastante qualificados e bem informados. Portanto, suas perspectivas realmente ajudam a nos manter informados, o que, por sua vez, nos ajuda a crescer em conhecimento e a mantê-los ainda mais informados. Efetivamente, nosso trabalho aqui no ZDNET é revisado por milhões de nossos colegas profissionais, usuários avançados e entusiastas: vocês, leitores do ZDNET.

Somos diligentes em nossas avaliações porque sabemos o quanto elas são importantes para você, o quanto você as leva em consideração ao tomar decisões de compra e que está investindo dinheiro e tempo de verdade em risco, muitas vezes com base em parte no que compartilhamos no ZDNET.

Sinta-se sempre à vontade para entrar em contato se quiser que vejamos algo novo. Em qual categoria, produto ou serviço de IA você deseja que mergulhemos a seguir? Deixe-nos saber nos comentários abaixo.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de se inscrever meu boletim informativo semanal de atualizaçãoe siga-me no Twitter/X em @DavidGewirtzno Facebook em Facebook.com/DavidGewirtzno Instagram em Instagram.com/DavidGewirtzno Bluesky em @DavidGewirtz.come no YouTube em YouTube.com/DavidGewirtzTV.



fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui