Publicado el Lunes 15 de Mayo del 2006 @ 9:47 por Armonth.
El webalizer es un sistema de estadísticas simple pero completo que analiza los registros de accesos a nuestro sitio que genera el servidor web Apache (instalado en una gran mayoría de Internet como opción dominante), entre sus cualidades ofrece información detallada, es configurable y el consumo de CPU es muy bajo (bastante más bajo que el AWstats por ejemplo).
Es una aplicación que siempre he usado (en SigT desde el primer día) y ya que es lo suficiente rápido y eficiente como para generar informes de todo un día con 50.000 visitas diarias (ahhh que tiempos en los que no administraba mis propios sitios x-D) en menos de 5 segundos — obviamente, también depende del Hardware del equipo –. Además es GPL.
El proceso resumido de instalación es:
./webalizer -c file.conf).Paso a comentar como tengo mi fichero de configuración:
# Basico
OutputDir /ruta/donde/guardar/el/html
LogFile /ruta/al/access.log
Incremental yes
IncrementalName webalizer.current
# TOPs
TopAgents 50
TopReferrers 40
TopCountries 0
TopExit 0
TopUsers 0
TopSearch 30
Los TOPs son el número que saldrá del total en la información por ejemplo TopSearch 30 mostrara las 30 primeras palabras clave desde donde más visitas entran desde los buscadores. Un valor de 0 (cero) desactivará dicha información.
# HostName y Hide images
HostName sigt.net
HideURL *.gif
HideURL *.GIF
HideURL *.jpg
HideURL *.JPG
HideURL *.png
HideURL *.PNG
GroupURL *.gif Imágenes
GroupURL *.GIF Imágenes
GroupURL *.jpg Imágenes
GroupURL *.JPG Imágenes
GroupURL *.png Imágenes
GroupURL *.PNG Imágenes
El primero es para especificar el nombre del hosting (Para que salga en el título “Usage statistics for…” y otras razones) HideURL ocultará en este caso todas las imágenes para mostrarlas con GroupURL de forma total. Así por ejemplo en el Top 10 de lo que genera más tráfico (KBs) veremos cuanto generan las imágenes de forma global en vez de cada imagen por separado.
# Ocultamos nuestro propio dominio de los referidos
HideReferrer sigt.net/
HideReferrer http://sigt.net/
Un referido es desde donde nos llega el acceso a una página, como la mayoría de ellos suelen ser desde un enlace en una de nuestras propias páginas lo lógico será ocultarlos por que en nuestro caso nos interesa saber quien nos referencia desde fuera.
# Detectamos buscadores
SearchEngine yahoo.com p=
SearchEngine altavista.com q=
SearchEngine google.com q=
SearchEngine eureka.com q=
SearchEngine lycos.com query=
SearchEngine hotbot.com MT=
SearchEngine msn.com MT=
SearchEngine infoseek.com qt=
SearchEngine webcrawler searchText=
SearchEngine excite search=
SearchEngine netscape.com search=
SearchEngine mamma.com query=
SearchEngine alltheweb.com query=
SearchEngine northernlight.com qr=
# Referidos
GroupReferrer yahoo.com/ Yahoo!
HideReferrer yahoo.com/
GroupReferrer www.google.*/ Google
HideReferrer www.google.*/
Lo mismo que hemos hecho con las imágenes lo podemos hacer con los referidos, así el tráfico total de referidos desde Google (sea google.es o google.com) se mostraran de forma global.
# Agentes (Navegadores)
GroupAgent Google Google crawler
HideAgent Google
GroupAgent msnbot MSN Bot
HideAgent msnbot
GroupAgent Akregator Akregator
HideAgent Akregator
GroupAgent MSIE Microsoft Internet Exploter
HideAgent MSIE
GroupAgent Lynx* Lynx
HideAgent Lynx
GroupAgent Opera Opera
HideAgent Opera
GroupAgent Mozilla Mozilla Firefox/Netscape
HideAgent Mozilla
ReallyQuiet yes
Agrupamos los navegadores más comunes ya que no nos interesa ver que recibimos un X% de visitas desde Firefox 1.5 y otro Y% desde Firefox 1.1. Por último ReallyQuiet no devolvera ninguna información del proceso (ideal para combinar con crontab).
En un fúturo quizá añada a Bloglines:
GroupAgent Bloglines* Bloglines
HideAgent Bloglines
Hola, gracias por tu artículo, me sirvío para terminar de configurarlo, aunque yo lo amolde para que genere reportes del sitio ftp que es lo que le interesa a mi jefe. Saludos!
Me gusto tu configuracion de hecho me dio buenos resultados pero NECESITO una configuracion para procesar los log de un proxy squid y dentro de el me interesa solo que procese semanalmente la informacion por usuarios para un dominio determinado es decir solo quiero que me procese incluidos graficos la informacion para usuarios especificos que visiten paginas de un dominio especifico.
Espero su ayuda
Gracias