Gravatar de Armonth

Fichero de configuración del webalizer

El webalizer es un sistema de estadísticas simple pero completo que analiza los registros de accesos a nuestro sitio que genera el servidor web Apache (instalado en una gran mayoría de Internet como opción dominante), entre sus cualidades ofrece información detallada, es configurable y el consumo de CPU es muy bajo (bastante más bajo que el AWstats por ejemplo).

Es una aplicación que siempre he usado (en SigT desde el primer día) y ya que es lo suficiente rápido y eficiente como para generar informes de todo un día con 50.000 visitas diarias (ahhh que tiempos en los que no administraba mis propios sitios x-D) en menos de 5 segundos — obviamente, también depende del Hardware del equipo –. Además es GPL.

El proceso resumido de instalación es:

  1. Subir el programa ya compilado (O compilarlo) en el servidor.
  2. Configurar el fichero *.conf para cada sitio a ver estadísticas.
  3. Ejecutar el webalizer (por ejemplo: ./webalizer -c file.conf).

Paso a comentar como tengo mi fichero de configuración:

 # Basico
 OutputDir /ruta/donde/guardar/el/html
 LogFile /ruta/al/access.log
 Incremental     yes
 IncrementalName webalizer.current

 # TOPs
 TopAgents       50
 TopReferrers    40
 TopCountries    0
 TopExit         0
 TopUsers        0
 TopSearch       30

Los TOPs son el número que saldrá del total en la información por ejemplo TopSearch 30 mostrara las 30 primeras palabras clave desde donde más visitas entran desde los buscadores. Un valor de 0 (cero) desactivará dicha información.

 # HostName y Hide images
 HostName        sigt.net
 HideURL         *.gif
 HideURL         *.GIF
 HideURL         *.jpg
 HideURL         *.JPG
 HideURL         *.png
 HideURL         *.PNG
 GroupURL        *.gif   Imágenes
 GroupURL        *.GIF   Imágenes
 GroupURL        *.jpg   Imágenes
 GroupURL        *.JPG   Imágenes
 GroupURL        *.png   Imágenes
 GroupURL        *.PNG   Imágenes

El primero es para especificar el nombre del hosting (Para que salga en el título “Usage statistics for…” y otras razones) HideURL ocultará en este caso todas las imágenes para mostrarlas con GroupURL de forma total. Así por ejemplo en el Top 10 de lo que genera más tráfico (KBs) veremos cuanto generan las imágenes de forma global en vez de cada imagen por separado.

 # Ocultamos nuestro propio dominio de los referidos
 HideReferrer    sigt.net/
 HideReferrer    http://sigt.net/

Un referido es desde donde nos llega el acceso a una página, como la mayoría de ellos suelen ser desde un enlace en una de nuestras propias páginas lo lógico será ocultarlos por que en nuestro caso nos interesa saber quien nos referencia desde fuera.

 # Detectamos buscadores
 SearchEngine    yahoo.com       p=
 SearchEngine    altavista.com   q=
 SearchEngine    google.com      q=
 SearchEngine    eureka.com      q=
 SearchEngine    lycos.com       query=
 SearchEngine    hotbot.com      MT=
 SearchEngine    msn.com         MT=
 SearchEngine    infoseek.com    qt=
 SearchEngine    webcrawler      searchText=
 SearchEngine    excite          search=
 SearchEngine    netscape.com    search=
 SearchEngine    mamma.com       query=
 SearchEngine    alltheweb.com   query=
 SearchEngine    northernlight.com  qr=

 # Referidos
 GroupReferrer   yahoo.com/   Yahoo!
 HideReferrer    yahoo.com/
 GroupReferrer   www.google.*/    Google
 HideReferrer    www.google.*/

Lo mismo que hemos hecho con las imágenes lo podemos hacer con los referidos, así el tráfico total de referidos desde Google (sea google.es o google.com) se mostraran de forma global.

 # Agentes (Navegadores)
 GroupAgent     Google           Google crawler
 HideAgent      Google
 GroupAgent     msnbot           MSN Bot
 HideAgent      msnbot
 GroupAgent     Akregator        Akregator
 HideAgent      Akregator
 GroupAgent     MSIE             Microsoft Internet Exploter
 HideAgent      MSIE
 GroupAgent     Lynx*            Lynx
 HideAgent      Lynx
 GroupAgent     Opera            Opera
 HideAgent      Opera
 GroupAgent     Mozilla          Mozilla Firefox/Netscape
 HideAgent      Mozilla

 ReallyQuiet     yes

Agrupamos los navegadores más comunes ya que no nos interesa ver que recibimos un X% de visitas desde Firefox 1.5 y otro Y% desde Firefox 1.1. Por último ReallyQuiet no devolvera ninguna información del proceso (ideal para combinar con crontab).

En un fúturo quizá añada a Bloglines:

 GroupAgent     Bloglines*          Bloglines
 HideAgent      Bloglines

3 Comentarios (feed)

  1. Gravatar de Aoyama Aoyama nos comenta:

    Hola, gracias por tu artículo, me sirvío para terminar de configurarlo, aunque yo lo amolde para que genere reportes del sitio ftp que es lo que le interesa a mi jefe. Saludos!

    Miércoles, 25 de Octubre/2006 @ 14:39

  2. Gravatar de obiwankanobi obiwankanobi nos comenta:

    Me gusto tu configuracion de hecho me dio buenos resultados pero NECESITO una configuracion para procesar los log de un proxy squid y dentro de el me interesa solo que procese semanalmente la informacion por usuarios para un dominio determinado es decir solo quiero que me procese incluidos graficos la informacion para usuarios especificos que visiten paginas de un dominio especifico.
    Espero su ayuda
    Gracias

    Miércoles, 29 de Noviembre/2006 @ 15:42

  3. Gravatar de Armonth Armonth nos comenta:

    Obiwan: Me temo que de Proxy Squid yo ando pez, quizá te sirva:

    Filtrar contenidos de un instituto usando Squid.

    Miércoles, 29 de Noviembre/2006 @ 16:07

Comentarios cerrados