Combatiendo el Referer spam en Google Analytics

Todos aquellos que tengan un sitio web y usen Google Analytics probablemente se habrán encontrado en alguna ocasión tráfico procedente de sitios web extraños, de dudosa reputación.

(La procedencia del tráfico se puede ver en Adquisición > Todo el tráfico > Referencias. NOTA: no visites las direcciones dudosas!!)

Procedencia del tráfico

La lista de estos dominios sospechosos puede cambiar de un día para otro. Lo más importante que debemos saber es que este tráfico no es legítimo, son visitas falsas generadas por bots como parte de campañas de spam. A esta técnica de spam se le conoce habitualmente como Referer spam y es un tipo de Spamdexing.

¿Qué es el Referer spam?

Es un tipo de spam en el que el atacante incluye en el campo Referer de una petición HTTP una URL falsa. Generalmente, el campo Referer indica de qué página viene un visitante y proporciona información importante sobre cómo nuestra página web obtiene sus visitantes. El atacante genera visitas (peticiones HTTP) a nuestra web alterando el contenido del campo Referer para que apunte a la página que quieren “publicitar”.

Los atacantes que realizan Referer spam, modifican este campo de la petición para apuntar a un sitio web falso que, generalmente, contiene publicidad, malware o redirige a una página de terceros (en la mayoría de los casos, de venta online). Detrás de este tipo de spam, se esconden negocios turbios de venta de visitas, posicionamiento SEO, distribución de malware, etc.

El objetivo de los spammers es intentar engañar a los administradores de las webs atacadas para visitar estos enlaces que aparecen en las métricas de Google Analytics y así ganar visitas para sus clientes. El método tradicional de lidiar con este tipo de spam consiste en configurar reglas en nuestro servidor (por ejemplo en .htaccess) o utilizar Javascript para filtrar todas las visitas que contengan alguna URL sospechosa en su campo Referer. Sin embargo, últimamente ha aparecido un tipo de Referer spam para el que estas técnicas de filtrado no son efectivas, y que algunos han bautizado como Referer spam fantasma.

Referer spam fantasma

En este tipo de spam los atacantes no visitan nunca el sitio web, sino que generan visitas falsas directamente contra Google Analytics. Por esta razón, filtrar el tráfico en nuestro servidor web no tiene ningún efecto sobre este tipo de spam.

Normalmente, cuando un visitante accede a una web monitorizada con Google Analytics, el servidor le envía código Javascript con un número de seguimiento (Tracking ID), con un formato similar a UA-000000-01, que identifica nuestro sitio web en Google Analytics. El navegador ejecuta este código Javascript, que se encarga de realizar una petición HTTP a los servidores de Google Analytics incluyendo el número de seguimiento de nuestra web. De esta manera, Google Analytics puede registrar la visita y todos sus datos asociados (sesión, referer, etc.).

Lo que hacen los spammers es enviar miles de peticiones falsas a los servidores de Google Analytics con números de seguimiento aleatorios. Si uno de esos números resulta ser el de nuestra web, veremos aparecer en los informes de Google Analytics visitas procedentes de estos sitios web.

Filtrando el tráfico falso

Para filtrar este tráfico falso podemos crear filtros específicos para cada fuente de spam (filtrando todas las visitas en las que se referencie algún sitio conocido de spam). Así, por ejemplo, para filtrar los dominios de referer spam podemos crear un filtro similar al siguiente:

Filtro spam

Aunque este enfoque funciona y es perfectamente válido, supone cierto trabajo de mantenimiento, puesto que los dominios utilizados por los spammers cambian frecuentemente.

Un método que parece ser más efectivo es el que recomiendan en esta entrada de Analytics edge. Este método se aprovecha del hecho de que los spammers no conocen el dominio de nuestro sitio web, ya que simplemente se dedican a hacer ping a Google Analytics con números de seguimiento aleatorios (no saben a qué sitio pertenece cada código). Por tanto, en las peticiones falsas que realizan incluyen un nombre de dominio solicitado que no coincide nunca con ninguno de los propios de nuestro sitio web:

Dominios

Para eliminar este tráfico falso de los informes podemos crear un filtro que permita únicamente visitas a alguno de los hostnames válidos de nuestra web. Para ello, es recomendable siempre crear una nueva vista (Administrador > Ver > Crear nueva vista) y aplicar y probar en ella el filtro:

Nueva vista

Acto seguido crearemos un nuevo filtro (Fitros en nuestra vista) en el que incluiremos la lista de hostnames válidos como una expresión regular. Por ejemplo, si el dominio de nuestra web fuera midominio.com deberíamos utilizar el siguiente filtro:

www\.midominio\.com|midominio\.com

La configuración del filtro (el nombre puede ser diferente) debería ser algo similar a:

Editar filtro

Hay que tener en cuenta que los filtros sólo se aplican al tráfico recibido después de definirlos y no a datos históricos.

Conclusiones

El análisis de estadísticas y métricas es una parte importante de la administración de un sitio web, pues permite conocer cómo utilizan los usuarios la web y de donde procede el tráfico, entre otros. Esta tarea puede verse dificultada por la aparición de visitas falsas, pertenecientes a campañas de Referer spam. En este post hemos visto una solución sencilla para filtrar este tipo de tráfico y evitar que “contamine” todos los informes de Google Analytics.

The following two tabs change content below.

Mikel Pintor

Desarrollador web.

Latest posts by Mikel Pintor (see all)

Compartir: