Filtro anti-spam no Google Analytics

O Google Analytics é um serviço gratuito para o monitoramento de tráfego de um ou mais determinados sites configurados para uma conta do Google. O Sistema conta com um breve código javascript que deve aparecer em cada página do site que o visitante acessar, inserido pelo programador do site. Este código envia os dados ao Analytics, que, por sua vez, os transmite ao dono através de gráficos e relatórios.

Criado principalmente como um auxilio aos webmasters para otimizar seus sites para campanhas de marketing e para o Google AdSense, é capaz de identificar, além da tradicional taxa de exibição e hit de uma página, localização geográfica do visitante, forma com a qual chegou na página (através de links de outros sites, buscador, AdSense ou diretamente pelo endereço), sistema operacional, navegador, navegador e sistema operacional combinados e suas versões, resolução de tela, Java, reprodutor de flash instalado, entre outros, em períodos diários, semanais, mensais e anuais.

Google Analytics com spider, ghost, crawler e bot

Google Analytics com spider, ghost, crawler e bot

No entanto, o serviço também é afetado por spams. Apesar disso não afetar o ranqueamento do site, afeta a qualidade dos dados e, em alguns casos deixando os relatórios inútil para qualquer análise, fazendo algumas pessoas se perguntam sobre a sua eficácia. Conhecido como “referrer spam”, ele aparece como uma visita a partir de um link para o seu site (ou post) de um outro site, ou seja, de uma referência (na verdade, inexistente).

Essas falsas visitas são uma espécie de golpe para que você clique no link da página em seu analytics e vá até o site indicado para que eles ganhem dinheiro com esse seu clique através de anúncios ou venda de produtos. Geralmente é fácil identificar essas falsas referências pelo nome, que não tem nada a ver com o seu site (como sharebuttons ou 7makemoney) e cuja sessão dura 1 segundo ou menos. Caso o site tenha um fluxo pequeno de visitantes (centenas de visitantes por dia), esse tráfego pode ficar realmente perceptível.

Os tipos mais comuns de spam são:

Ghost Spam – não tem nenhuma interação com o seu site, alterando os dados diretamente através do Analytics Measurement Protocol (forma de enviar dados diretamente para o Google Analytics Servers). Pode aparecer como referência/link para um post (o mais comum), como palavra chave de uma busca orgânica que não faz muito sentido (por exemplo, palavras em inglês que não tenham nada a ver com o assunto do seu site), direto ou eventos.

Crawler Spam – um bot (crawler spam) que scaneia os sites na internet e causa uma ou mais visitas com a referência para o site dele. Como não foi um ser humano que entrou e viu/leu seu conteúdo, não interessa para as estatísticas.

Como se livrar de Spam nas Referências do Google Analytics

(Tem um jeito bem mais fácil que está no link do espaço de comentários, no fim dessa página)

Apesar de muito se falar em bloquear as visitas desses endereços configurando o arquivo “.htaccess” (o “ghost spam” não é removido usando essa abordagem), a melhor e mais segura forma de evitar esses spams é através do uso de filtros no Google Analytics. Nesse caso, você pode usar esses dois filtros:

* Valid Hostname Filter

Voltado para combater os Ghost spams, é uma solução preventiva, precisa de pouca manutenção e é bem efetivo, já que eles usam hostnames inválidos. A parte mais importante é obter uma lista de todos os hostnames válidos para evitar a exclusão de todo o tráfego legítimo.

Na aba “Relatórios”, selecione o maior período possível. Na aba laterla “Público-alvo”, clicar em “tecnologia” e “rede”, ecolhendo a aba “nome do host”. Selecione os domínios válidos, ou seja, todos os lugares onde deve estar o seu código de acompanhamento do Google Analytics (UA-XXXXXX-1), como www.seudominio.com.br, www.seudominio.com.br.googleweblight.com (emulador do Google que permite visualização mais leve do seu site), serviços de cache, tradução (translate.*), etc – subdomínios, como blog.seudominio.com.br, não são necessários. Não se engane com hostnames como “google.com” ou “amazon.com”, já que os spammers os utilizam para confundir – geralmente os “.ru” podem ser descartados.

De posse dos domínios válidos, crie uma expressão que combine todos eles usando Regular Expressions (REGEX), ou seja, separados por | (pipe), sem espaços em branco e com uma \ (barra invertida) antes de pontos e hífens, com um limite máximo de 255 caracteres – veja mais sobre expressões regulares clicando no link. Veja esse exemplo:

seudominio\.com\.br|seudominio\.com\.br\.googleweblight\.com

Vá para a aba “Administrador”, clique em “filtros” e “adicionar novo filtro”. Coloque o nome “Include Valid hostnames” (ou algum de sua preferência), em “tipo de filtro” escolha “personalizado”. Então escolha o botão “incluir” e selecione o campo do filtro como “nome do host”. Finalmente, inclua a expressão regular desenvolvida acima. Na parte “Aplicar filtro às vistas da propriedade”, adicione “Todos os dados do site” às “Vistas da propriedade selecionadas”

Edição de filtro do Google Analytics

Edição de filtro do Google Analytics

Use a opção “verificar filtro” para ver como ele afetará seus dados, baseado no tráfego dos últimos 7 dias. Se estiver tudo OK, salve o filtro. Só precisará voltar e mexer nele se quiser incluir algum domínio.

* Campaign Source Filter

Como o Crawler Spam usa domínios válidos, é preciso fazer esse segundo filtro. Nele, muda a expressão regular, que deve abranger todos os crawler spams conhecidos:

(videos|darodar|priceg|buttons\-for(\-your)?\-website|makemoneyonline|blackhatworth|hulfingtonpost|o\-o\-6\-o\-o|(social|(simple|free|floating)\-share)\-buttons)\.com|econom\.co|ilovevitaly(\.co(m)?)|(ilovevitaly(\.ru))|(humanorightswatch|guardlink)\.org
(best(websitesawards|\-seo\-(solution|offer))|get\-free(\-social)?\-traffic(\-now)?|googlsucks)\.com|(domination|torture)\.ml|((rapidgator\-)?(general)?porn(hub(\-)?forum)?|4webmasters)\.(ga|tk|org|uni)|(buy\-cheap\-online)\.info
(event\-tracking|semalt(media)?|(best|100dollars|success)\-seo|chinese\-amezon|e\-buyeasy|rankings\-analytics|rednise|video\-\-production|theguardlan|webmaster\-traffic)\.com|traffic(monetize(r)?|2money)\.(org|com)|pops\.foundation|erot\.co
free\-floating\-buttons\.com|(justprofit|best\-seo\-software)\.xyz|snip\.to|claim42100975\.copyrightclaims\.org|adf\.ly|search\.smartshopping\.com

Devido à grande quantidade de caracteres, você deverá criar um filtro para cada uma das linhas acima.

Vá para a aba “Administrador”, clique em “filtros” e “adicionar novo filtro”. Coloque o nome “Referrer Spam” (ou algum de sua preferência), em “tipo de filtro” escolha “personalizado”. Então escolha o botão “excluir” e selecione o campo do filtro como “origem”. Finalmente, inclua a expressão regular desenvolvida acima.

Edição de filtro em segmento no Google Analytics - note que foram excluídos quase 3% dos dados, referentes a spams

Edição de filtro em segmento no Google Analytics – note que foram excluídos quase 3% dos dados, referentes a spams

Use a opção “verificar filtro” para ver como ele afetará seus dados, baseado no tráfego dos últimos 7 dias. Se estiver tudo OK, salve o filtro. Como sempre surgem domínios novos, existe a necessidade de atualizar essa linha em um intervalo de meses (ou menos tempo, se tiver paciência disponibilidade). Uma lista atualizada de spammers pode ser vista clicando no link.

Para retirar Bots e Spiders em geral das estatísticas, também pode ser ativada a marcação “Excluir todos os hits de bots e indexadores conhecidos” em “Filtragem de bots” na parte de “Configurações da vista da propriedade” do painel “Administrador”. Selecionar esta opção irá excluir todos os hits que vêm de bots e spiders listados.

Como remover o spam do histórico do Google Analytics

Ao aplicar os filtros, não serão registrados os hits de spam configurados a partir de então. No entanto, os dados já armazenados ainda apresentam os spams. Veja como fazer um filtro para os dados do histórico.

Utilizando as mesmas expressões regulares desenvolvidas no tópico acima, na aba “Relatórios”, veja na barra lateral “Aquisição” e expanda “Todo o tráfego” para clicar em “Referências”. No alto, clique em “+ Adicionar segmento”, “novo segmento” (nomei-o como “Referral Spam” ou algo assim) e vá em “condições”. Deixe as opções “usuários” e “excluir” (ou “incluir”, no caso do hostname), “Aquisição” -> “Caminho de referência”, “corresponde a RegEx” e inclua os filtros – repita o procedimento para cada um dos filtros.

Esse novo segmento deve ser selecionado toda vez que logar na conta para visualizar os dados sem o spam (ir para “Aquisição -> Todo o tráfego -> Referências”, clicar em “adicionar segmento”, selecionar o segmento criado e clicar no botão “aplicar”), já que o deafult é apresentar um só (“Todas as sessões”). Uma vez que o segmento não remove todos os dados de seus registros, não há risco de perder informações e você pode experimentar até obter os resultados desejados.

Hosts redundantes

Caso apareça um aviso no Google Analytics:

A propriedade ‘Seu Domínio’ está recebendo dados de nomes de host redundantes. Alguns dos nomes de host redundantes são:

seudominio.com.br
www.seudominio.com.br

Os nomes de host redundantes são contabilizados em linhas diferentes nos relatórios. (…)

Embora www.seudominio.com.br e seudominio.com.br normalmente veiculem o mesmo conteúdo, o Google Analytics trata esses endereços como URLs diferentes. Se você estiver recebendo hits dos dois domínios, seu tráfego para esse conteúdo será dividido entre dois URLs, parecendo maior do que realmente é. Para evitar problemas na contabilização de suas visitas, existem duas formas de solucionar o problema (fazendo as duas, é mais garantido):

  • Configure o redirecionamento 301 de um dos nomes de host redundantes para outro adicionando as seguintes linhas no início do seu arquivo “.htaccess” no diretório “public_html” da sua hospedagem:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^seudominio.com.br [NC]
RewriteRule ^(.*)$ http://www.seudominio.com.br/$1 [L,R=301]

A partir de agora, quando alguém acessar http://seudominio.com.br será redirecionado para http://www.seudominio.com.br.

  • Crie um filtro para localizar e substituir o “www.” dos nomes de host: insira um nome, escolha tipo de filtro “Personalizado”, selecione tipo de filtro “Pesquisar e substituir”, coloque o nome do host, pesquisar string: ^www\. e deixar “substituir string” em branco. Fonte: Google

Fontes

Atualização – recomendaram uma ferramenta que facilita muito esse trabalho, que se repetiria nas atualizações da blacklist. Veja mais no espaço de comentários logo abaixo!

Compartilhe o link desse texto, mas se for copiar algum trecho, cite a fonte. Valorize nosso trabalho.
Mais informações na licença de uso do site.

Um Pingback/Trackback