Gráficos boxplot e candlestick

Existem dois tipos de gráficos muito utilizados para descrever uma amostra de dados, conhecidos como boxplot e candlestick. Apesar de serem semelhantes visualmente e em suas funções, possuem algumas diferenças nas métricas envolvidas e usos distintos.

Boxplot

O matemático John W. Tukey (1915 –2000) foi um dos responsáveis por sua popularização, além de outras técnicas de visualização de dados. Também conhecido como diagrama de caixa, o boxplot (ou box plot) é uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de quartis. Um quartil é obtido após o ordenamento dos dados, geralmente em quatro partes iguais, de modo que cada uma representa 1/4 da amostra. Nesse caso, são identificados os seguintes quartis:

  • primeiro quartil ou quartil inferior (Q1/4 ou simplesmente Q1) – valor aos 25% da amostra ordenada (25º percentil)
  • segundo quartil ou mediana (Q2/4 ou simplesmente Q2) – valor até ao qual se encontra 50% da amostra ordenada (50º percentil ou 5º decil)
  • terceiro quartil ou quartil superior (Q3/4 ou simplesmente Q3) – valor a partir do qual se encontram 25% dos valores mais elevados ou valor aos 75% da amostra ordenada (75º percentil)

Além da divisão em 4 partes, a amostra também pode ser divida em outros quantis – por exemplo, em decis, ao dividir em 10 partes, ou percentis, quando divide-se em 100 partes. A distância entre o primeiro e o terceiro interquartil (Q3Q1) é conhecida como intervalo inter-quartil (IIQ ou IQR, do inglês).

Elementos de um boxplot, disposto verticalmente. Fonte: Portal Action
Elementos de um boxplot, disposto verticalmente. Fonte: Portal Action

O corpo do boxplot é limitado pelo primeiro (base) e terceiro quartil (topo), contando com um traço que representa a mediana. As hastes inferior e superior (também chamadas de whisker ou fio do bigode) se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior e do quartil superior até o maior valor não superior ao limite superior. Esse limite é definido como uma vez e meia o intervalo inter-quartil (1,5*IQR), que é somado ao Q3 para formar o limite superior ou subtraído do Q1 para formar o limite inferior.

Boxplot horizontal com intervalo interquartil e uma função de densidade de uma população normal. Fonte: Wikipedia
Boxplot horizontal com intervalo interquartil e uma função de densidade de uma população normal. Fonte: Wikipedia

Os pontos representados na mesma direção das hastes e fora destes limites superior e inferior são considerados valores discrepantes (outliers) – veja mais sobre outliers clicando no link. O boxplot pode ainda ser utilizado para uma comparação visual entre dois ou mais grupos.

O python possui bibliotecas que aplicam o método boxplot, como no pandas e no matplotlib, que facilita a criação de um gráfico. Veja o exemplo no código a seguir:

A variável “data” pode ser uma (ou mais) coluna(s) de uma dataframe ou uma lista (ou uma lista de listas).

Candlestick

O Candlestick (candelabro em inglês) é uma técnica de análise gráfica através da identificação de “figuras” formadas pelos “candles” (velas) para avaliar uma tendência. Originou-se no mercado de arroz do Japão do século XVIII, sendo trazido ao ocidente no século seguinte por investidores dos Estados Unidos. É muito usado na análise e estimativa de valores de ativos, como ações, contratos futuros e até mesmo moedas. Seus principais elementos são:

  • período – intervalo de tempo do conjunto de dados (operadores de compra e venda no mesmo dia costumam usar intervalos de 1 ou 5 minutos, enquanto que swing traders usam períodos diários)
  • formato – contém o corpo (parte mais grossa), que traz as informações de fechamento e abertura da série temporal, e a sombra (o “pavio”), que informa os máximos e mínimos do período
  • cor – geralmente vermelho para baixa (valor de fechamento está abaixo do valor de abertura) e verde para alta; o valor de abertura é o primeiro valor da série temporal, enquanto que o de fechamento é o último
Descrição das “candles”. Fonte: Bússola do investidor
Descrição das “candles”. Fonte: Bússola do investidor

Um candlestick muito comprido indica que houve muita movimentação de preços; um mais achatado, indica que houve pouca variação. Uma sequência de candlesticks no tempo com determinados formatos pode representar uma tendência de alta ou baixa. Existem diversos padrões já identificados por analistas como indicadores importantes no acompanhamento do preço de ativos – alguns exemplos estão na figura a seguir.

Padrões de candlesticks. Fonte: Juros Baixos
Padrões de candlesticks. Fonte: Juros Baixos

Como este tipo de gráfico não mostra a sequência de eventos que ocorreram durante o período, ele possui algumas limitações que devem ser consideradas ao se fazer uma análise. Por exemplo, um mesmo candlestick (valores iguais de abertura, fechamento, máximo e mínimo) pode representar dois pregões com comportamento completamente diferentes. No primeiro pregão, ocorre uma queda da abertura para o preço mínimo, seguida de uma forte alta e uma ligeira queda para o valor de fechamento. No segundo pregão, o valor varia bastante até atingir o máximo, varia bastante novamente até atingir o mínimo e depois atinge o valor de fechamento. No primeiro caso, existe uma tendência de alta, mas no segundo caso o que predomina é a volatilidade.