Outliers

Um outlier (valor aberrante/atípico ou fora de série) é uma observação que apresenta um grande afastamento das demais do conjunto. Ele fica visível quanto é plotado um gráfico dos dados ou é feito um histograma com a distribuição deles. Quando é necessário caracterizar essa distribuição, um valor muito grande ou muito pequeno (quando comparado com o restante dos dados) pode gerar conclusões erradas sobre o objetivo de estudo.

Como encontrar

De modo a evitar classificações subjetivas do que está afastado ou não, existem técnicas para definir intervalos dentro dos quais estão os dados – o que estiver fora, é outlier. Para uma série temporal sem tendência, existe uma forma bem simples que é definir um valor (20, por exemplo) e limitar o valor absoluto (sem sinal) para ser menor que esse limite (o que estiver fora, é outlier).

O Teste de amplitude (range) de Tukey usa o conceito de amplitude (ou intervalo) interquartil, desenvolvido com a finalidade de avaliar o grau de espalhamento de dados (dispersão) em torno da medida de centralidade (assim como o desvio padrão e a variância). Um quartil é qualquer um dos três valores que divide o conjunto ordenado de dados em quatro partes iguais, e assim cada parte representa 1/4 da amostra ou população. Veja o passo-a-passo para aplicar o teste e os conceitos envolvidos:

  1. Ordenar a amostra em ordem crescente
  2. Calcule a mediana (ou segundo quartil – Q1/4 – que indica metade da amostra)
  3. Encontre o quartil inferior (ou primeiro quartil – Q1/4 – ou ainda 25º percentil, pois indica 25% da amostra ordenada do menor para o maior) – se tiver mais de uma amostra “ao redor” desse ponto, fazer a média simples entre os dois valores
  4.  Encontre o quartil superior (ou terceiro quartil – Q3/4 – ou ainda 75º percentil)
  5. Calcule a amplitude interquartílica e multiplique por 1,5: A1 = (Q3/4-Q1/4)*1.5
  6. Calcule as “barreiras internas”: Q3/4 + A1 (barreira superior) e Q1/4 – A1 (barreira inferior)
  7. Calcule a amplitude interquartílica e multiplique por 3: A2 = (Q3/4-Q1/4)*3
  8. Calcule as “barreiras externas”: Q3/4 + A2 (barreira superior) e Q1/4 – A2 (barreira inferior)

Dessa forma, os dados fora das “barreiras internas” são outliers moderados e fora das “barreiras externas” são outliers extremos.

Outro teste envolve calcular o Desvio Padrão Absoluto da Média (MAD) e o Desvio Padrão Quadrático da Média (MSE). Um MAD baixo e um MSE alto indicam ocorrência de outliers no conjunto de dados – veja mais no post sobre Medidas de Acurácia.

O que fazer com os outliers

Geralmente, os outliers são identificados para serem excluídos das análises logo de início. No entanto, existem situações em que sua presença faz toda a diferença na análise – como em uma ditribuição logarítmica de valores em um grafico linear. Por vezes, apenas a magnitude em um dos eixos está muito grande mas que um procedimento estatístico utilizando valores próximos reduz a aberração.

Nesse caso, já estamos falando de valores extremos – nem sempre um outlier é um valor extremo. A técnica de trimming remove uma fração dos dados de cada extremo. Veja esse exemplo no R:

Já o Winsorization serve para substituir valores extremos (somente os mais extremos ou uma coleção dos mais distantes, que é o exemplo abaixo):

O procedimento abaixo utiliza uma função exponencial para calcular um fator a ser multiplicado pelo valor da série – desse modo, quanto maior sua magnitude, maior o corte. Para reduzir a magnitude de todos os valores, multiplica-se o resultado anterior por um outro fator repetidamente até o valor máximo da série atingir um limite:

Não sei para que ser, mas o script acima pode ter alguma serventia para alguém. Se usar, por favor comente para que lhe foi útil =)

Fontes