Filtro anti-spam no Google Analytics

Criado principalmente como um auxilio aos webmasters para monitorar o tráfego de visitantes de um site, o Google Analytics permite verificar sites que fazem links para o seu, o que impacta diretamente no ranqueamento desse site nos resultados de pesquisas do Google. No entanto, o serviço também é afetado por spams.

Google Analytics com spider, ghost, crawler e bot
Google Analytics com spider, ghost, crawler e bot

Apesar desses spams não afetarem o ranqueamento do site, afeta a qualidade dos dados e, em alguns casos deixando os relatórios inútil para qualquer análise, fazendo algumas pessoas se perguntam sobre a sua eficácia. Conhecido como “referrer spam”, ele aparece como uma visita a partir de um link para o seu site (ou post) de um outro site, ou seja, de uma referência (na verdade, inexistente).

Essas falsas visitas são uma espécie de golpe para que você clique no link da página em seu analytics e vá até o site indicado para que eles ganhem dinheiro com esse seu clique através de anúncios ou venda de produtos. Geralmente é fácil identificar essas falsas referências pelo nome, que não tem nada a ver com o seu site (como sharebuttons ou 7makemoney) e cuja sessão dura 1 segundo ou menos. Caso o site tenha um fluxo pequeno de visitantes (centenas de visitantes por dia), esse tráfego pode ficar realmente perceptível.

Os tipos mais comuns de spam são:

Ghost Spam – não tem nenhuma interação com o seu site, alterando os dados diretamente através do Analytics Measurement Protocol (forma de enviar dados diretamente para o Google Analytics Servers). Pode aparecer como referência/link para um post (o mais comum), como palavra chave de uma busca orgânica que não faz muito sentido (por exemplo, palavras em inglês que não tenham nada a ver com o assunto do seu site), direto ou eventos.

Crawler Spam – um bot (crawler spam) que scaneia os sites na internet e causa uma ou mais visitas com a referência para o site dele. Como não foi um ser humano que entrou e viu/leu seu conteúdo, não interessa para as estatísticas.

Como se livrar de Spam nas Referências do Google Analytics

Atualização – A ferramenta Referrer Spam Blocker instala filtros automaticamente no seu Google Analytics a partir de uma blacklist. Basta entrar no link e clicar em “start block”, para então entrar com seu login e senha do Google (que administra o Analytics), autorizar o acesso e clicar em “Let’s do This”. Mais informações no post da Multilink
obrigado, Thomaz Gomez!

(Segue o modo antigo, “na raça”)

Apesar de muito se falar em bloquear as visitas desses endereços configurando o arquivo “.htaccess” (o “ghost spam” não é removido usando essa abordagem), a melhor e mais segura forma de evitar esses spams é através do uso de filtros no Google Analytics. Nesse caso, você pode usar esses dois filtros:

* Valid Hostname Filter

Voltado para combater os Ghost spams, é uma solução preventiva, precisa de pouca manutenção e é bem efetivo, já que eles usam hostnames inválidos. A parte mais importante é obter uma lista de todos os hostnames válidos para evitar a exclusão de todo o tráfego legítimo.

Na aba “Relatórios”, selecione o maior período possível. Na aba laterla “Público-alvo”, clicar em “tecnologia” e “rede”, ecolhendo a aba “nome do host”. Selecione os domínios válidos, ou seja, todos os lugares onde deve estar o seu código de acompanhamento do Google Analytics (UA-XXXXXX-1), como www.seudominio.com.br, www.seudominio.com.br.googleweblight.com (emulador do Google que permite visualização mais leve do seu site), serviços de cache, tradução (translate.*), etc – subdomínios, como blog.seudominio.com.br, não são necessários. Não se engane com hostnames como “google.com” ou “amazon.com”, já que os spammers os utilizam para confundir – geralmente os “.ru” podem ser descartados.

De posse dos domínios válidos, crie uma expressão que combine todos eles usando Regular Expressions (REGEX), ou seja, separados por | (pipe), sem espaços em branco e com uma \ (barra invertida) antes de pontos e hífens, com um limite máximo de 255 caracteres – veja mais sobre expressões regulares clicando no link. Veja esse exemplo:

Vá para a aba “Administrador”, clique em “filtros” e “adicionar novo filtro”. Coloque o nome “Include Valid hostnames” (ou algum de sua preferência), em “tipo de filtro” escolha “personalizado”. Então escolha o botão “incluir” e selecione o campo do filtro como “nome do host”. Finalmente, inclua a expressão regular desenvolvida acima. Na parte “Aplicar filtro às vistas da propriedade”, adicione “Todos os dados do site” às “Vistas da propriedade selecionadas”

Edição de filtro do Google Analytics
Edição de filtro do Google Analytics

Use a opção “verificar filtro” para ver como ele afetará seus dados, baseado no tráfego dos últimos 7 dias. Se estiver tudo OK, salve o filtro. Só precisará voltar e mexer nele se quiser incluir algum domínio.

* Campaign Source Filter

Como o Crawler Spam usa domínios válidos, é preciso fazer esse segundo filtro. Nele, muda a expressão regular, que deve abranger todos os crawler spams conhecidos:

Devido à grande quantidade de caracteres, você deverá criar um filtro para cada uma das linhas acima.

Vá para a aba “Administrador”, clique em “filtros” e “adicionar novo filtro”. Coloque o nome “Referrer Spam” (ou algum de sua preferência), em “tipo de filtro” escolha “personalizado”. Então escolha o botão “excluir” e selecione o campo do filtro como “origem”. Finalmente, inclua a expressão regular desenvolvida acima.

Edição de filtro em segmento no Google Analytics - note que foram excluídos quase 3% dos dados, referentes a spams
Edição de filtro em segmento no Google Analytics – note que foram excluídos quase 3% dos dados, referentes a spams

Use a opção “verificar filtro” para ver como ele afetará seus dados, baseado no tráfego dos últimos 7 dias. Se estiver tudo OK, salve o filtro. Como sempre surgem domínios novos, existe a necessidade de atualizar essa linha em um intervalo de meses (ou menos tempo, se tiver paciência disponibilidade). Uma lista atualizada de spammers pode ser vista clicando no link.

Para retirar Bots e Spiders em geral das estatísticas, também pode ser ativada a marcação “Excluir todos os hits de bots e indexadores conhecidos” em “Filtragem de bots” na parte de “Configurações da vista da propriedade” do painel “Administrador”. Selecionar esta opção irá excluir todos os hits que vêm de bots e spiders listados.

Como remover o spam do histórico do Google Analytics

Ao aplicar os filtros, não serão registrados os hits de spam configurados a partir de então. No entanto, os dados já armazenados ainda apresentam os spams. Veja como fazer um filtro para os dados do histórico.

Utilizando as mesmas expressões regulares desenvolvidas no tópico acima, na aba “Relatórios”, veja na barra lateral “Aquisição” e expanda “Todo o tráfego” para clicar em “Referências”. No alto, clique em “+ Adicionar segmento”, “novo segmento” (nomei-o como “Referral Spam” ou algo assim) e vá em “condições”. Deixe as opções “usuários” e “excluir” (ou “incluir”, no caso do hostname), “Aquisição” -> “Caminho de referência”, “corresponde a RegEx” e inclua os filtros – repita o procedimento para cada um dos filtros.

Esse novo segmento deve ser selecionado toda vez que logar na conta para visualizar os dados sem o spam (ir para “Aquisição -> Todo o tráfego -> Referências”, clicar em “adicionar segmento”, selecionar o segmento criado e clicar no botão “aplicar”), já que o deafult é apresentar um só (“Todas as sessões”). Uma vez que o segmento não remove todos os dados de seus registros, não há risco de perder informações e você pode experimentar até obter os resultados desejados.

Hosts redundantes

Caso apareça um aviso no Google Analytics:

A propriedade ‘Seu Domínio’ está recebendo dados de nomes de host redundantes. Alguns dos nomes de host redundantes são:

seudominio.com.br
www.seudominio.com.br

Os nomes de host redundantes são contabilizados em linhas diferentes nos relatórios. (…)

Embora www.seudominio.com.br e seudominio.com.br normalmente veiculem o mesmo conteúdo, o Google Analytics trata esses endereços como URLs diferentes. Se você estiver recebendo hits dos dois domínios, seu tráfego para esse conteúdo será dividido entre dois URLs, parecendo maior do que realmente é. Para evitar problemas na contabilização de suas visitas, existem duas formas de solucionar o problema (fazendo as duas, é mais garantido):

  • Configure o redirecionamento 301 de um dos nomes de host redundantes para outro adicionando as seguintes linhas no início do seu arquivo “.htaccess” no diretório “public_html” da sua hospedagem:

A partir de agora, quando alguém acessar http://seudominio.com.br será redirecionado para http://www.seudominio.com.br.

  • Crie um filtro para localizar e substituir o “www.” dos nomes de host: insira um nome, escolha tipo de filtro “Personalizado”, selecione tipo de filtro “Pesquisar e substituir”, coloque o nome do host, pesquisar string: ^www\. e deixar “substituir string” em branco. Fonte: Google

Fontes