Início Tecnologia A nova técnica Self-Flow do Black Forest Labs torna o treinamento de...

A nova técnica Self-Flow do Black Forest Labs torna o treinamento de modelos de IA multimodais 2,8x mais eficiente

14
0

Para criar imagens ou vídeos coerentes, modelos generativos de difusão de IA, como Stable Diffusion ou FLUX, normalmente contam com “professores” externos – codificadores congelados como CLIP ou DINOv2 – para fornecer a compreensão semântica que não poderiam aprender por conta própria.

Mas esta confiança teve um custo: um “gargalo” em que a ampliação do modelo já não produz melhores resultados porque o professor externo atingiu o seu limite.

Hoje, startup alemã de IA Black Forest Labs (fabricante da série FLUX de modelos de imagem AI) anunciou um potencial fim para esta era de empréstimos acadêmicos com a liberação do Self-Flowuma estrutura de correspondência de fluxo auto-supervisionada que permite que os modelos aprendam representação e geração simultaneamente.

Ao integrar um novo mecanismo de agendamento Dual-Timestep, o Black Forest Labs demonstrou que um único modelo pode alcançar resultados de última geração em imagens, vídeo e áudio sem qualquer supervisão externa.

A tecnologia: quebrando a “lacuna semântica”

O problema fundamental do treinamento generativo tradicional é que ele é uma tarefa de “eliminação de ruído”. O modelo vê ruído e é solicitado a encontrar uma imagem; tem muito pouco incentivo para compreender o que é a imagem, apenas o que ela parece.

Para corrigir isso, os pesquisadores “alinharam” previamente os recursos generativos com modelos discriminativos externos. No entanto, o Black Forest Labs argumenta que isto é fundamentalmente falho: estes modelos externos operam frequentemente com objetivos desalinhados e não conseguem generalizar através de diferentes modalidades, como áudio ou robótica.

A nova técnica do Laboratório, Self-Flow, introduz uma “assimetria de informação” para resolver isso. Usando uma técnica chamada Dual-Timestep Scheduling, o sistema aplica diferentes níveis de ruído a diferentes partes da entrada. O aluno recebe uma versão fortemente corrompida dos dados, enquanto o professor – uma versão de média móvel exponencial (EMA) do próprio modelo – vê uma versão “mais limpa” dos mesmos dados.

O aluno é então encarregado não apenas de gerar o resultado final, mas de prever o que seu eu “mais limpo” está vendo – um processo de autodestilação em que o professor está na camada 20 e o aluno na camada 8. Essa abordagem de “passagem dupla” força o modelo a desenvolver uma compreensão semântica interna profunda, ensinando-se efetivamente a ver enquanto aprende a criar.

Implicações do produto: mais rápido, mais nítido e multimodal

Os resultados práticos desta mudança são nítidos. De acordo com o artigo de pesquisa, o Self-Flow converge aproximadamente 2,8x mais rápido do que o método REpresentation Alignment (REPA), o atual padrão da indústria para alinhamento de recursos. Talvez o mais importante seja que não estagna; à medida que a computação e os parâmetros aumentam, o Self-Flow continua a melhorar, enquanto os métodos mais antigos mostram retornos decrescentes.

O salto na eficiência do treinamento é melhor compreendido através das lentes das etapas computacionais brutas: enquanto o treinamento “vanilla” padrão tradicionalmente requer 7 milhões de passos para atingir um nível de desempenho básico, a REPA encurtou essa jornada para apenas 400.000 passos, representando uma aceleração de 17,5x.

A estrutura Self-Flow do Black Forest Labs leva essa fronteira ainda mais longe, operando 2,8x mais rápido que o REPA para atingir o mesmo marco de desempenho em aproximadamente 143.000 etapas.

No seu conjunto, esta evolução representa uma redução de quase 50 vezes no número total de etapas de formação necessárias para alcançar resultados de alta qualidade, transformando efetivamente o que antes era uma enorme necessidade de recursos num processo significativamente mais acessível e simplificado.

O Black Forest Labs apresentou esses ganhos por meio de um modelo multimodal de parâmetros 4B. Treinado em um enorme conjunto de dados de 200 milhões de imagens, 6 milhões de vídeos e 2 milhões de pares de áudio e vídeo, o modelo demonstrou saltos significativos em três áreas principais:

  1. Tipografia e renderização de texto: Uma das “indicações” mais persistentes das imagens de IA é o texto distorcido. O Self-Flow supera significativamente a correspondência de fluxo vanilla na renderização de sinais e rótulos complexos e legíveis, como um sinal de néon com a grafia correta “FLUX é multimodal”.

  2. Consistência temporal: Na geração de vídeo, o Self-Flow elimina muitos dos artefatos “alucinados” comuns nos modelos atuais, como membros que desaparecem espontaneamente durante o movimento.

  3. Síntese conjunta de vídeo-áudio: Como o modelo aprende representações nativamente, ele pode gerar vídeo e áudio sincronizados a partir de um único prompt, uma tarefa em que representações externas “emprestadas” geralmente falham porque um codificador de imagem não entende o som.

Em termos de métricas quantitativas, o Self-Flow alcançou resultados superiores em relação às linhas de base competitivas. No Image FID, o modelo pontuou 3,61 em comparação com 3,92 do REPA. Para vídeo (FVD), atingiu 47,81 em comparação com 49,59 do REPA, e em áudio (FAD), marcou 145,65 contra 148,87 da linha de base vanilla.

Dos pixels ao planejamento: o caminho para os modelos mundiais

O anúncio termina com um olhar para modelos mundiais – IA que não apenas gera imagens bonitas, mas compreende a física e a lógica subjacentes de uma cena para planejamento e robótica.

Ao ajustar uma versão de parâmetros de 675M do Self-Flow no conjunto de dados de robótica RT-1, os pesquisadores alcançaram taxas de sucesso significativamente mais altas em tarefas complexas de várias etapas no simulador SIMPLER. Embora a correspondência de fluxo padrão enfrentasse tarefas complexas de “abrir e colocar”, muitas vezes falhando totalmente, o modelo Self-Flow manteve uma taxa de sucesso constante, sugerindo que suas representações internas são robustas o suficiente para o raciocínio visual do mundo real.

Detalhes de implementação e engenharia

Para pesquisadores que procuram verificar essas afirmações, Black Forest Labs lançou um conjunto de inferência no GitHub especificamente para geração ImageNet 256×256. O projeto, escrito principalmente em Python, fornece a arquitetura do modelo SelfFlowPerTokenDiT baseada em SiT-XL/2.

Os engenheiros podem utilizar o script sample.py fornecido para gerar 50.000 imagens para avaliação FID padrão. O repositório destaca que uma modificação arquitetônica importante nesta implementação é o condicionamento de timestep por token, que permite que cada token em uma sequência seja condicionado em seu timestep de ruído específico. Durante o treinamento, o modelo utilizou precisão mista BFloat16 e o ​​otimizador AdamW com recorte de gradiente para manter a estabilidade.

Licenciamento e disponibilidade

Laboratórios Floresta Negra tem fiz o trabalho de pesquisa e código de inferência oficial disponível via GitHub e seu portal de pesquisa. Embora esta seja atualmente uma prévia da pesquisa, o histórico da empresa com a família de modelos FLUX sugere que essas inovações provavelmente encontrarão seu caminho em suas APIs comerciais e ofertas de pesos abertos em um futuro próximo.

Para os desenvolvedores, abandonar os codificadores externos é uma grande vitória em termos de eficiência. Ele elimina a necessidade de gerenciar modelos pesados ​​e separados, como o DINOv2, durante o treinamento, simplificando a pilha e permitindo um treinamento mais especializado e específico de domínio que não depende da compreensão “congelada” do mundo de outra pessoa.

Conclusões para tomadores de decisões técnicas empresariais e adotantes

Para as empresas, a chegada do Self-Flow representa uma mudança significativa na análise de custo-benefício do desenvolvimento de IA proprietária.

Embora os beneficiários mais imediatos sejam organizações que treinam modelos de grande escala a partir do zero, a investigação demonstra que a tecnologia é igualmente potente para o ajuste fino de alta resolução. Como o método converge quase três vezes mais rápido que os padrões atuais, as empresas podem obter resultados de última geração com uma fração do orçamento de computação tradicional.

Essa eficiência torna viável para as empresas irem além de soluções genéricas prontas para uso e desenvolverem modelos especializados que estejam profundamente alinhados com seus domínios de dados específicos, seja isso envolvendo imagens médicas de nicho ou dados de sensores industriais proprietários.

As aplicações práticas desta tecnologia estendem-se a setores industriais de alto risco, nomeadamente robótica e sistemas autónomos. Ao aproveitar a capacidade da estrutura de aprender “modelos mundiais”, as empresas de manufatura e logística podem desenvolver modelos de visão-linguagem-ação (VLA) que possuem uma compreensão superior do espaço físico e do raciocínio sequencial.

Em testes de simulação, o Self-Flow permitiu que controladores robóticos executassem com sucesso tarefas complexas e multiobjetos – como abrir uma gaveta para colocar um item dentro – onde os modelos generativos tradicionais falhavam. Isto sugere que a tecnologia é uma ferramenta fundamental para qualquer empresa que pretenda preencher a lacuna entre a geração de conteúdo digital e a automação física do mundo real.

Além dos ganhos de desempenho, o Self-Flow oferece às empresas uma vantagem estratégica ao simplificar a infraestrutura de IA subjacente. A maioria dos sistemas generativos atuais são modelos “Frankenstein” que requerem codificadores semânticos externos complexos, muitas vezes pertencentes e licenciados por terceiros.

Ao unificar representação e geração em uma única arquitetura, o Self-Flow permite que as empresas eliminem essas dependências externas, reduzindo a dívida técnica e removendo os “gargalos” associados ao escalonamento de professores terceirizados. Essa natureza autônoma garante que, à medida que uma empresa dimensiona sua computação e seus dados, o desempenho do modelo seja dimensionado de forma previsível e em sincronia, proporcionando um ROI mais claro para investimentos em IA de longo prazo.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui