Um dos maiores problemas dos sistemas de direção autônoma é que eles podem ver a estrada perfeitamente e ainda assim tomar decisões instáveis de curto prazo no trânsito confuso da cidade. Os sistemas avançados lutam para acompanhar situações rodoviárias complexas e flutuantes. Mas um novo estudo argumenta que esses carros não precisam de uma visão melhor, mas de uma memória melhor.
No artigo revisado por pares MANTIDO (Previsão de trajetórias aprimorada por conhecimento a partir de quadros de condução consecutivos com modelos de linguagem de visão)pesquisadores da Universidade de Tongji e colaboradores desenvolveram um sistema que ajuda os veículos autônomos a “lembrar” cenas de direção anteriores antes de escolher o que fazer a seguir.
Como funciona essa nova tecnologia de direção autônoma?
O método, chamado KEPT, usa vídeo de câmera frontal, compara-o com uma grande biblioteca de clipes de direção anteriores do mundo real e, em seguida, prevê uma trajetória mais segura de curto prazo com base na cena atual e em exemplos recuperados do passado. A ideia central é bastante intuitiva. Em vez de pedir a um modelo de IA que reaja a cada situação como se nunca tivesse visto nada parecido antes, o KEPT permite relembrar momentos semelhantes de viagens anteriores.
Esses exemplos são então inseridos em um modelo de linguagem de visão como parte de um processo de raciocínio estruturado. Isto é importante porque os investigadores dizem que grandes modelos de linguagem de visão podem, de outra forma, ter alucinações, ignorar restrições físicas ou sugerir movimentos que parecem plausíveis no papel, mas não são óptimos para um carro real. Portanto, o KEPT atua basicamente como grades de proteção para manter o modelo fundamentado em situações de tráfego semelhantes no mundo real.

É melhor que os sistemas autônomos convencionais?
Os pesquisadores testaram o KEPT no benchmark nuScenes amplamente utilizado e disseram que ele superou tanto os sistemas convencionais de planejamento ponta a ponta quanto os planejadores mais recentes baseados em linguagem de visão em métricas de ciclo aberto. Ele ainda conseguiu reduzir o erro de previsão e os indicadores de colisão potencial, ao mesmo tempo que manteve a recuperação rápida o suficiente para permanecer prática na condução em tempo real.
Isso pode fazer com que pareça uma escolha óbvia para carros autônomos de última geração, mas ainda não está pronto para a estrada. Ainda assim, a ideia mais ampla é convincente. Se os carros autónomos conseguirem combinar a perceção em tempo real com uma memória significativa de como situações semelhantes se desenrolaram antes, poderão acabar por tomar decisões menos frágeis e mais humanas.













