A Biblioteca Epstein no site do Departamento de Justiça é um modelo de desorganização. No início de dezembro, Keller folheava dezenas de milhares de páginas de documentos na biblioteca e sentia “descrença frustrada” perante o caos – ficheiros que podiam ter centenas de páginas, texto por vezes borrado ou de lado, uma transferência bancária sem contexto, uma cadeia de e-mails com metade dos nomes apagados, um registo de voo apenas com iniciais. “É desorientador”, diz ele. “Você está lendo fragmentos de algo enorme e tentando descobrir quais fragmentos são importantes e como eles se conectam.”
Uma noite, ele passou cerca de quatro horas tentando rastrear o nome de uma única pessoa em cerca de 30 documentos do arquivo. “Parei e pensei: estou fazendo manualmente o que um banco de dados poderia fazer em milissegundos”, diz ele. Como construtor de infraestrutura de banco de dados em uma empresa de médio porte, ele sabia exatamente o que fazer a seguir. “Abri um editor de código e comecei a construir. Às 3 da manhã eu tinha um protótipo de pesquisa básico trabalhando em algumas centenas de documentos”, diz ele.
Naquela época, um site chamado Jmail.mundo estava fazendo sucesso como uma ferramenta para as pessoas lerem os e-mails de Epstein como se estivessem usando uma interface do Gmail. Lançado em meados de novembro e construído por um grupo de voluntários experientes em tecnologia, desde então cresceu para incluir, entre outras coisas, suas fotos, voos e histórico de compras na Amazon, também exibidos como se o leitor estivesse visualizando as contas do próprio Epstein. Keller usou a ferramenta e gostou. “Jmail foi a prova de que a comunidade poderia construir ferramentas melhores do que as que o governo estava fornecendo”, ele me disse.
Também o ajudou a aprimorar seu próprio projeto. “Em vez de pensar em uma categoria de documentos, comecei a pensar na rede”, diz ele. “Como você conecta uma pessoa que aparece em um e-mail a um voo em que ela estava, a uma transferência eletrônica, a um depoimento que ela deu? Esse problema de referência cruzada é o que eu queria resolver.”
Depois, em 19 de dezembro, o Departamento de Justiça liberou a sua primeira grande parcela, acrescentando centenas de milhares de novos documentos ao arquivo existente. Imediatamente, a carga de trabalho de Keller atingiu o nível mais alto de todos os tempos. O protótipo que ele construiu no início do mês tornou-se a base para o processamento de tudo isso.
Na maioria das noites ele trabalhava até 3 ou 4 da manhã, tomando café frio enquanto navegava em um mar de abas abertas.
Por causa da sua infância, diz ele, “quando os primeiros documentos começaram a cair, não conseguia desviar o olhar. Compreendi instintivamente o que estava sendo descrito nesses arquivos”. À noite, ele voltava para casa do trabalho diário e, quando todos da família estavam na cama, ele se encolhia no escritório de casa e passava horas folheando os PDFs baixados.
Muitos documentos eram postados como imagens, e ele passava cada página por camadas de software para convertê-las em texto pesquisável – às vezes um sistema falhava na conversão do texto e ele passava por um segundo ou terceiro. Depois ele usaria outro sistema para extrair detalhes importantes como nomes, organizações, datas e locais. Ele realizaria verificação de hash – um processo que verifica se os arquivos do Departamento de Justiça foram adulterados – e análise de redação, para verificar inconsistências na forma como o governo omitiu informações. Ele acompanhou todo o seu trabalho em um livro-razão meticuloso, digital e codificado por cores. “Não é fazer upload de arquivos”, diz ele. “É reconstruir uma cena de crime a partir de 2 milhões de fragmentos de provas.”












