Modelos de aprendizado de máquina vêm revolucionando a previsão numérica do tempo (NWP), melhorando velocidade, custos e precisão ao substituir o solucionador numérico por redes neurais. No entanto, esses modelos ainda dependem de sistemas numéricos na inicialização e para previsões locais. O “Aardvark Weather” é um sistema de previsão do tempo totalmente baseado em dados, que substitui toda a cadeia NWP. Ele utiliza apenas observações para gerar previsões globais e locais, superando modelos operacionais em várias variáveis e prazos. As previsões locais mantêm precisão por até 10 dias e competem com sistemas de ponta, incluindo os com intervenção humana.

O Aardvark Weather é um modelo de aprendizado profundo que gera previsões meteorológicas globais em grade densa e locais (estações) para variáveis como vento, umidade, temperatura, pressão ao nível do mar e geopotencial em diversos níveis de pressão atmosférica. O sistema é composto por três módulos principais — codificador (encoder), processador e decodificador — e foi projetado para treinar com dados de reanálise de alta qualidade, mas funcionar de forma totalmente independente de produtos NWP na fase de previsão.
O módulo codificador transforma observações (em grade e fora da grade) em um estado atmosférico inicial, usando técnicas modernas de aprendizado de máquina para lidar com dados ausentes e fora da grade. Diferente dos métodos tradicionais de assimilação de dados, Aardvark não usa abordagens recorrentes, optando por um modelo não-recorrente para evitar instabilidades de treinamento. O processador usa esse estado inicial para gerar previsões de 24h, que são alimentadas de forma autorregressiva para prazos maiores. O decodificador gera previsões locais a partir das saídas do processador e pode ser adaptado a diferentes tarefas. A arquitetura do sistema combina transformadores (ViT) e redes convolucionais leves, permitindo um treinamento modular: cada módulo é pré-treinado com dados de reanálise e ajustado posteriormente com observações reais, garantindo coerência entre treinamento e uso prático. Essa abordagem também permite que o modelo corrija automaticamente os vieses das observações durante o treinamento, eliminando a necessidade de correção manual de viés.
- Observações in-situ:
- Estações meteorológicas (nível da superfície)
- Navios (nível da superfície)
- Radiossondas (níveis superiores da atmosfera)
- Observações por sensoriamento remoto (satélites):
- Scatterômetro (vento na superfície sobre os oceanos)
- Sonômetros micro-ondas e infravermelhos multiespectrais (~10 canais)
- Sonômetros infravermelhos hiperespectrais (~105 canais)
- Dados de sonômetros infravermelhos geoestacionários (instantâneo do estado atmosférico)
- Variáveis auxiliares:
- Variáveis temporais (por exemplo, hora do dia)
- Variáveis orográficas (relacionadas ao relevo/altitude)
O modelo Aardvark foi comparado a quatro sistemas de previsão, incluindo métodos simples como persistência e climatologia horária, além dos modelos operacionais globais determinísticos IFS (HRES) e GFS. Utilizando o erro quadrático médio ponderado pela latitude (RMSE), com o reanálise ERA5 como referência, os resultados mostram que o Aardvark iguala ou supera o GFS na maioria dos tempos de previsão, exceto na geopotencial em 500 hPa, e se aproxima do desempenho do HRES em diversas variáveis. Apesar de apresentar erros maiores em níveis atmosféricos mais altos e tempos de previsão curtos — possivelmente pela maior densidade de observações próximas à superfície —, o modelo mantém previsões hábeis mesmo para prazos mais longos, ainda que com algum desfoque espectral, típico de sistemas baseados em aprendizado de máquina.
A principal inovação do sistema Aardvark Weather está na estimativa do estado inicial da atmosfera a partir de diversas fontes de dados por meio do módulo codificador. Para entender a importância relativa dessas fontes na previsão, os autores realizaram um experimento de ablação, removendo fontes observacionais específicas, re-treinando o codificador e comparando o desempenho com a configuração completa (“ALL”).
Os resultados mostram que os dados de sensoriamento remoto são cruciais para a qualidade da estimativa do estado atmosférico inicial — sua ausência causa grandes perdas de desempenho. Entre os dados satelitais, os provenientes de sondas em órbita baixa (LEO) são os mais relevantes, superando outros como os de espalhômetros (ASCAT) ou satélites geoestacionários (GEO). Já as observações in-situ são essenciais para variáveis de superfície e também têm papel significativo na previsão de geopotencial em níveis mais baixos. Esses achados reforçam que dados de sondas LEO devem ser priorizados em sistemas de previsão baseados em aprendizado de máquina, com dados in-situ atuando como complemento importante.
Na etapa seguinte do pipeline de previsão do tempo, as previsões globais em grade são usadas como entrada para modelos subsequentes que geram produtos voltados aos usuários finais. Um desses produtos é a previsão local. O sistema Aardvark Weather foi aplicado para prever a temperatura atmosférica a 2 metros e a velocidade do vento a 10 metros em estações fora da grade. O desempenho do sistema Aardvark foi avaliado globalmente e em quatro regiões específicas: Estados Unidos continentais (CONUS), Europa, África Ocidental e Pacífico. Aardvark foi comparado com persistência, climatologia, HRES regionalizado e, no caso dos EUA, com o sistema operacional completo NDFD. Os resultados mostram que Aardvark gera previsões precisas de temperatura e velocidade do vento de até 10 dias, sendo competitivo com o HRES ajustado por estação, e até superando-o em regiões com menos infraestrutura como África Ocidental e Pacífico. Nos EUA, Aardvark iguala a performance do NDFD para temperatura e supera o HRES ajustado em várias situações, embora apresente maiores erros para velocidade do vento em curtos prazos.
Os pesquisadores também criaram um fine-tuning, que consiste em ajustar o modelo Aardvark inteiro (ou partes dele) para otimizar diretamente o desempenho em uma variável e/ou região específica. Os resultados, para as mesmas variáveis e em locais das mesmas regiões trabalhadas, mostram melhorias significativas: redução de até 6% no erro absoluto médio (MAE) para temperatura na maioria das regiões e uma melhora de 3% nos EUA. Para o vento, as melhorias foram menores (1–2%) mas estatisticamente significativas, exceto no Pacífico.
O sistema Aardvark Weather representa uma inovação significativa na previsão do tempo ao ser o primeiro sistema inteiramente baseado em dados a abordar toda a cadeia da previsão numérica do tempo (NWP) de ponta a ponta. Ele dispensa completamente os produtos NWP durante o tempo de execução, gerando previsões precisas em cerca de um segundo usando quatro GPUs NVIDIA A100 — uma economia computacional enorme comparada às mil horas de nó necessárias por sistemas tradicionais como o HRES apenas para assimilação de dados e previsão. Nos testes, mostrou desempenho competitivo ou superior em tarefas downstream, como a previsão de temperatura a 2 metros e vento a 10 metros em estações fora da grade, até mesmo contra modelos operacionais robustos como o NDFD nos EUA. Além disso, destaca-se a capacidade de ajuste fino (fine-tuning) do sistema para regiões ou variáveis específicas, algo altamente desafiador nos sistemas NWP convencionais.
Referência
Allen, A., Markou, S., Tebbutt, W. et al. End-to-end data-driven weather prediction. Nature (2025). https://doi.org/10.1038/s41586-025-08897-0