El webalizer es un sistema de estadísticas simple pero completo que analiza los registros de accesos a nuestro sitio que genera el servidor web Apache1. Entre sus cualidades tiene que ofrece información detallada, es altamente configurable, el consumo de CPU es muy bajo2. Es una aplicación que siempre que he podido, he utilizado3 ya que es lo suficiente rápido y eficiente como para generar informes de todo un día con 50.000 visitas diarias4 en menos de 5 segundos, dependiendo obviamente también del hardware del servidor. Además es GPL.
El proceso resumido de instalación es:
- Subir el programa ya compilado (O compilarlo) en el servidor.
- Configurar el fichero *.conf para cada sitio.
- Ejecutar el webalizer (por ejemplo:
./webalizer -c file.conf
).
Paso a comentar como tengo mi fichero de configuración:
# Basico OutputDir /ruta/donde/guardar/el/html LogFile /ruta/al/access.log Incremental yes IncrementalName webalizer.current # TOPs TopAgents 50 TopReferrers 40 TopCountries 0 TopExit 0 TopUsers 0 TopSearch 30
Los TOPs son el número que saldrá del total en la información por ejemplo TopSearch 30 mostrara las 30 primeras palabras clave desde donde más visitas entran desde los buscadores. Un valor de 0 (cero) desactivará dicha información.
# HostName y Hide images HostName www.sigt.net HideURL *.gif HideURL *.GIF HideURL *.jpg HideURL *.JPG HideURL *.png HideURL *.PNG GroupURL *.gif Imágenes GroupURL *.GIF Imágenes GroupURL *.jpg Imágenes GroupURL *.JPG Imágenes GroupURL *.png Imágenes GroupURL *.PNG Imágenes
El primero es para especificar el nombre del hosting (Para que salga en el título "Usage statistics for..." y otras razones) HideURL ocultará en este caso todas las imágenes para mostrarlas con GroupURL de forma total. Así por ejemplo en el Top 10 de lo que genera más tráfico (KBs) veremos cuánto generan las imágenes de forma global en vez de cada imagen por separado.
# Ocultamos nuestro propio dominio de los referidos HideReferrer www.sigt.net/ HideReferrer http://www.sigt.net/
Un referido es desde donde nos llega el acceso a una página, como la mayoría de ellos suelen ser desde un enlace en una de nuestras propias páginas lo lógico será ocultarlos por que en nuestro caso nos interesa saber quien nos referencia desde fuera.
# Detectamos buscadores SearchEngine yahoo.com p= SearchEngine altavista.com q= SearchEngine google.com q= SearchEngine eureka.com q= SearchEngine lycos.com query= SearchEngine hotbot.com MT= SearchEngine msn.com MT= SearchEngine infoseek.com qt= SearchEngine webcrawler searchText= SearchEngine excite search= SearchEngine netscape.com search= SearchEngine mamma.com query= SearchEngine alltheweb.com query= SearchEngine northernlight.com qr= # Referidos GroupReferrer yahoo.com/ Yahoo! HideReferrer yahoo.com/ GroupReferrer www.google.*/ Google HideReferrer www.google.*/
Lo mismo que hemos hecho con las imágenes lo podemos hacer con los referidos, así el tráfico total de referidos desde Google (sea google.es o google.com) se mostraran de forma global.
# Agentes (Navegadores) GroupAgent Google Google crawler HideAgent Google GroupAgent msnbot MSN Bot HideAgent msnbot GroupAgent Akregator Akregator HideAgent Akregator GroupAgent MSIE Microsoft Internet Exploter HideAgent MSIE GroupAgent Lynx* Lynx HideAgent Lynx GroupAgent Opera Opera HideAgent Opera GroupAgent Mozilla Mozilla Firefox/Netscape HideAgent Mozilla ReallyQuiet yes
Agrupamos los navegadores más comunes ya que no nos interesa ver que recibimos un X% de visitas desde Firefox 1.5 y otro Y% desde Firefox 1.1. Por último ReallyQuiet hará que no devolvamos ninguna información del proceso a la consola de comandos (ideal para combinar con crontab).
En un fúturo quizá añada a Bloglines:
GroupAgent Bloglines* Bloglines HideAgent Bloglines
Comentarios