Estatística

Estatística é a ciência que utiliza-se das teorias probabilísticas (que possuem o objetivo de quantificar a chance de um evento ocorrer) para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimento modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso. Uma discussão melhor sobre a Teoria dos Erros pode ser vista clicando-se no link.

estatisticas_chaves

Com o aperfeiçoamento das medidas experimentais nos séculos XIX e XX, a estatística tornou-se uma técnica muito utilizada para comparar os valores obtidos. Não havia mais uma única resposta certa, mas valores “certos dentro de uma variação probabilística”, já que medidas mais precisas revelavam outros fenômenos menores agindo na obtenção daqueles valores.

Existem duas visões na estatísticas: a frequentista e a bayesiana. A frequentista trata “probabilidade” (em inglês “likelihood”) como o número de vezes que um determinado evento ocorre dado um número muito grande de eventos – por exemplo, quantas vezes aparece cara após lançar uma moeda um certo número de vezes (note que é necessário um grande número de amostras para um resultado significativo). Já a bayesiana trata do grau de confiança de que o evento (previsão) irá ocorrer – por exemplo uma previsão de tempo (não é possível criar várias vezes o dia seguinte para ver quantas vezes que ocorre um dado fenômeno).

Dentre as necessidades de previsão, deve-se definir o horizonte de previsão (curto, médio ou longo prazo), tipo de variável a ser prevista e a decisão a ser tomada. O uso de modelos qualitativos (aqueles que recorrem ao conhecimento e intuição de analistas e pesquisas) é mais comum no desenvolvimento de estratégias de longo e médio prazo e de novos produtos, por exemplo, onde a taxa de aceitação do mesmo no mercado é ainda incerta, possuindo dados limitados e nenhum precedente histórico. Já os modelos quantitativos, de modo geral, quanto mais sofisticados os modelos de previsão, menores os erros, mas também maiores os custos.

Séries temporais

Uma série temporal é um conjunto de observações ordenadas no tempo e que apresentam uma dependência entre si. É a realização de um processo estocástico, ou seja, resultado de uma única realização (processo esse dito ergódico). Um primeiro passo na análise de uma série temporal é a construção de seu gráfico, que revelará características importantes, como tendência, sazonalidade, variabilidade, observações aberrantes (“outliers”), etc.

Ao estudar uma série temporal, busca-se sua análise e modelagem (sua descrição através de características mais relevantes) e/ou previsão (a partir de valores passados, encontrar boas previsões de valores futuros). Quanto maior o número de processos envolvidos e quanto mais no futuro for a previsão, maior a incerteza. A evolução no tempo de uma série temporal pode ser de várias formas: constante, linear, quadrática, exponencial, sazonal (repetição da série dentro de um espaço de tempo), etc.

Componentes de uma série temporal. Fig. 16-2 (Spiegel).

Componentes de uma série temporal. Fig. 16-2 (Spiegel).

O modelo (forma matemática de explicar o fenômeno) pode ser univariado, onde a série é explicada e prevista apenas por seus valores passados, ou multivariado, que necessita das séries passadas de outras variáveis (cada observação é um vetor de números). Veja alguns modelos univariados:

  • Naive – o valor previsto é o resultado da última observação (por exemplo, “amanhã fará o mesmo tempo que faz hoje”).
  • Médias móveis – a cada instante, a previsão é a média das últimas N observações; quanto maior o valor de N, mais “suave” é a curva de previsão, e quanto menor o N, mais “nervosa” a curva.
  • Amortecimento exponencial – semelhante às médias móveis, mas o peso das observações diminuem quanto mais no passado estiver a observação. Essa queda é dada por uma taxa de amortecimento, visando valorizar mais os dados mais recentes.
  • Modelos ARIMA – usam as correlações entre observações em diferentes instantes e envolve filtros lineares e conhecimentos de Teoria de Sistemas. Dentre seus casos particulares estão o autoregressivo (AR) e de médias móveis (MA).

Há basicamente dois enfoques usados na análise de séries temporais, cada uma com seus propósitos: modelos paramétricos (número finito de parâmetros, feita no domínio temporal, como o ARIMA e outros modelos autorregressivos) e modelos não paramétricos (domínio das frequências).

É interessante imaginar o gráfico de uma série temporal descrito como um ponto que se move com o decorrer do tempo, de alguma forma análoga à trajetória de uma partícula material que se desloca sob influência de forças físicas (que podem ser provocados também por forças econômicas, sociológicas, etc).

Teste de significância

Um conjunto de dados pode explicar a variação de outro grupo de amostras, o que pode ser medido através da correlação. Partindo de um ou mais conjuntos de dados observados confiáveis, pode-se construir um modelo matemático que explique as variações desses dados e permita prever novas ocorrências quantitativamente. Geralmente os dados, obtidos por meio de amostras, não concordam exatamente com os valores obtidos teoricamente através do modelo. O teste do qui quadrado pode ser usado para quantificar a qualidade desse ajuste, medindo a discrepância existente entre as frequências observadas e esperadas. Veja mais sobre relações entre variáveis e entre modelos no post sobre Testes de Hipóteses e de Aderência.

Na análise de processos pontuais estuda-se a ocorrência de eventos no espaço, considerando a localização dos eventos como aleatória. Por exemplo, a ocorrência de raios pode ser considerada como um processo pontual se cada evento fora gravado conforme sua localização no tempo e espaço.

Para avaliar a relação entre duas ou mais variáveis, deve-se dispor os dados em diagrama de dispersão para ver como elas se comportam. Essa “outra variável” pode ser o tempo, e aí temos uma série temporal. Eventualmente, pode-se exigir uma transformação de variáveis visando a linearização – por exemplo, calculando-se o log da variável do eixo y para transformar sua relação com a variável do eixo x uma equação do primeiro grau.

Transformação Box Cox

Tanto a forma linear quanto a logarítmica são dois casos particulares de uma família mais extensa de transformações não-lineares. Muitas vezes é necessário considerar alguma transformação não-linear para se obter homogeneidade, ou seja, estabilizar a variância fazendo com que os resíduos do modelo ajustado tenham uma variância constante. Uma transformação de dados pode ser representada por xλ, onde lambda é um vetor de parâmetros que definem a transformação. Uma classe geral de transformação que pode ser utilizada é a de Box-Cox, definida por:

math formula para math formula

math formula para math formula

A transformação de Box-Cox recebeu o nome dos estatísticos que a formularam, George E. P. Box y David Cox, em artigo de 1964 (“An Analysis of Transformations”). É bastante conhecida no meio econométrico e usada para enfrentar problemas de heteroscedasticidade (quando o modelo de hipótese matemático apresenta variâncias para Y e X(X1, X2, X3,…, Xn) não iguais para todas as observações) e/ou falta de normalidade.

Veja mais sobre modelagem e previsão, particularmente sobre o ARIMA, clicando no link da continuação desse post.

Fontes

Compartilhe o link desse texto, mas se for copiar algum trecho, cite a fonte. Valorize nosso trabalho.
Mais informações na licença de uso do site.

5 Pingbacks/Trackbacks