Fichero de configuración del Webalizer

Autor: Armonth | El lunes 15 de mayo del 2006 @ 09:47.

El webalizer es un sistema de estadísticas simple pero completo que analiza los registros de accesos a nuestro sitio que genera el servidor web Apache1. Entre sus cualidades tiene que ofrece información detallada, es altamente configurable, el consumo de CPU es muy bajo2. Es una aplicación que siempre que he podido, he utilizado3 ya que es lo suficiente rápido y eficiente como para generar informes de todo un día con 50.000 visitas diarias4 en menos de 5 segundos, dependiendo obviamente también del hardware del servidor. Además es GPL.

El proceso resumido de instalación es:

  1. Subir el programa ya compilado (O compilarlo) en el servidor.
  2. Configurar el fichero *.conf para cada sitio.
  3. Ejecutar el webalizer (por ejemplo: ./webalizer -c file.conf).

Paso a comentar como tengo mi fichero de configuración:

# Basico
OutputDir /ruta/donde/guardar/el/html
LogFile /ruta/al/access.log
Incremental     yes
IncrementalName webalizer.current

# TOPs
TopAgents       50
TopReferrers    40
TopCountries    0
TopExit         0
TopUsers        0
TopSearch       30

Los TOPs son el número que saldrá del total en la información por ejemplo TopSearch 30 mostrara las 30 primeras palabras clave desde donde más visitas entran desde los buscadores. Un valor de 0 (cero) desactivará dicha información.

# HostName y Hide images
HostName        www.sigt.net
HideURL         *.gif
HideURL         *.GIF
HideURL         *.jpg
HideURL         *.JPG
HideURL         *.png
HideURL         *.PNG
GroupURL        *.gif   Imágenes
GroupURL        *.GIF   Imágenes
GroupURL        *.jpg   Imágenes
GroupURL        *.JPG   Imágenes
GroupURL        *.png   Imágenes
GroupURL        *.PNG   Imágenes

El primero es para especificar el nombre del hosting (Para que salga en el título "Usage statistics for..." y otras razones) HideURL ocultará en este caso todas las imágenes para mostrarlas con GroupURL de forma total. Así por ejemplo en el Top 10 de lo que genera más tráfico (KBs) veremos cuánto generan las imágenes de forma global en vez de cada imagen por separado.

# Ocultamos nuestro propio dominio de los referidos
HideReferrer    www.sigt.net/
HideReferrer    http://www.sigt.net/

Un referido es desde donde nos llega el acceso a una página, como la mayoría de ellos suelen ser desde un enlace en una de nuestras propias páginas lo lógico será ocultarlos por que en nuestro caso nos interesa saber quien nos referencia desde fuera.

# Detectamos buscadores
SearchEngine    yahoo.com       p=
SearchEngine    altavista.com   q=
SearchEngine    google.com      q=
SearchEngine    eureka.com      q=
SearchEngine    lycos.com       query=
SearchEngine    hotbot.com      MT=
SearchEngine    msn.com         MT=
SearchEngine    infoseek.com    qt=
SearchEngine    webcrawler      searchText=
SearchEngine    excite          search=
SearchEngine    netscape.com    search=
SearchEngine    mamma.com       query=
SearchEngine    alltheweb.com   query=
SearchEngine    northernlight.com  qr=

# Referidos
GroupReferrer   yahoo.com/   Yahoo!
HideReferrer    yahoo.com/
GroupReferrer   www.google.*/    Google
HideReferrer    www.google.*/

Lo mismo que hemos hecho con las imágenes lo podemos hacer con los referidos, así el tráfico total de referidos desde Google (sea google.es o google.com) se mostraran de forma global.

# Agentes (Navegadores)
GroupAgent     Google           Google crawler
HideAgent      Google
GroupAgent     msnbot           MSN Bot
HideAgent      msnbot
GroupAgent     Akregator        Akregator
HideAgent      Akregator
GroupAgent     MSIE             Microsoft Internet Exploter
HideAgent      MSIE
GroupAgent     Lynx*            Lynx
HideAgent      Lynx
GroupAgent     Opera            Opera
HideAgent      Opera
GroupAgent     Mozilla          Mozilla Firefox/Netscape
HideAgent      Mozilla

ReallyQuiet     yes

Agrupamos los navegadores más comunes ya que no nos interesa ver que recibimos un X% de visitas desde Firefox 1.5 y otro Y% desde Firefox 1.1. Por último ReallyQuiet hará que no devolvamos ninguna información del proceso a la consola de comandos (ideal para combinar con crontab).

En un fúturo quizá añada a Bloglines:

GroupAgent     Bloglines*          Bloglines
HideAgent      Bloglines

  1. Instalado en la gran mayoría de Internet como opción dominante. 

  2. Bastante más bajo que, por ejemplo, AWStats. 

  3. Y, por supuesto, en SigT desde el primer día. 

  4. ¡Ahhh! Que tiempos en los que no administraba mis propios sitios :P. 

Comentarios