Métricas para comparar previsões

Suponha que tenha acontecido 40 casos de nevoeiro em um aeroporto. Um previsor deu 100 avisos de ocorrência de nevoeiro e acertou 30, enquanto outro previsor deu 50 avisos e acertou somente 20 casos. O segundo pode ter acertado menos casos, mas emitiu menos falsos avisos. Como dizer qual previsor é melhor?

As tabelas de contingência são usadas para registrar observações independentes de duas ou mais variáveis aleatórias. Nesse caso, ela pode ser dividida em quatro campos: observações, com e sem ocorrência do fenômeno, e previstos, com e sem previsão do fenômeno.

Previsto
SIM NÃO
Observado SIM VP (verdadeiro positivo)
acertos / previsões corretas
FN (falso negativo)
eventos sem aviso
NÃO FP (falso positivo)
falso aviso
VN (verdadeiro negativo)
não-ocorrência prevista corretamente

Índices podem ser calculados através da contagem de cada um dos quatro casos.

Acurácia

ACU = (VP+VN)/(VP+VN+FP+FN)

Razão entre o que acertou sobre o total. Quanto mais perto de 1, melhor. A acurácia esconde potenciais falsos positivos ou falsos negativos.

Probabilidade de detecção (Probability of Detection)

POD = VP/(VP+FN)

Razão entre o número de avisos corretos sobre o total de eventos. A melhor situação ocorre quando POD = 1 (todos os eventos são previstos corretamente).

Taxa de acerto (Hit rate)

HR = (VP+VN)/(FN+FP)

Razão entre o número de acertos sobre o de erros. Ao avaliar eventos raros, pode não ser interessante considerar a não-ocorrência prevista corretamente, então esse índice pode mascarar positivamente a avaliação de sucesso das previsões.

Fator/Índice crítico de sucesso (Critical Success Index ou Threat Score)

CSI = VP/(VP+FN+FP)

Razão entre o número de eventos previstos corretamente sobre o total de eventos e os falsos alarmes. Seu score prefeito é 1. Ele responde à questão “Quão bem os eventos SIM da previsão correspondem aos eventos SIM observados?”, ou seja, eventos que foram previstos e aconteceram. Pode ser pensado como a “acurácia” considerando que os negativos corretos foram removidos da consideração. Isto é, o CSI está apenas preocupado com previsões que são importantes (assumindo que as rejeições corretas não são importantes, o que é interessante para o caso do estudo de fenômenos raros).

Taxa/Razão de falso alarme (False Alarm Ratio)

FAR = FP/(VP+FP)

Razão entre o número de falsos avisos sobre o total de avisos. Quanto mais perto de zero, melhor.

Comparando-se esses índices, é possível avaliar quantitativamente diferentes métodos de previsão e escolher qual é o melhor. Conforme o caso, pode ser interessante a maior taxa de acerto mesmo que ele tenha muitos falsos alarmes – por exemplo, em uma previsão de chuva na TV, é melhor acertar a ocorrência de chuva, mesmo dando falsos alarmes, do que dizer que não vai chover e cair chuva. Em outros casos, como no gerenciamento de catástrofes, um número grande de falsos alarmes pode gerar descrédito e não funcionar no caso de uma real emergência.

Fontes

Compartilhe o link desse texto, mas se for copiar algum trecho, cite a fonte. Valorize nosso trabalho.
Mais informações na licença de uso do site.