Publicado el Sábado 15 de Septiembre del 2007 @ 1:51 por Armonth.
HMSE_Robot es un “nuevo” bot de origen coreano que recorre la red en busca de direcciones que recolectar para hacer spam y contenido que plagiar y lucrarse.
No respeta el robots.txt y en poco más de 16 horas ha visitado más de 3000 páginas de SigT cuando antes ni existía en las estadísticas, 3000 páginas es mucho concretamente la mitad de lo que ha leído el GoogleBot en todo lo que va de mes. Es decir: estamos ante todo un señor comedor de ancho de banda ajeno.
El bot se identifica tal cual, con la cadena HMSE_Robot y la IP pertenece a un ISP llamado Hanaro Telecom, Inc. Parece ser que tienen todo el rango 222.239.220.xxx asignado siendo la IP 222.239.220.202 la principal fuente.
Para evitar dicho abuso, los he baneado vía htaccess:
RewriteCond %{REMOTE_ADDR} ^222\.239\.220\.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} HMSE_Robot
RewriteRule .? - [F]
Aunque si estuviera en mi propio dedicado, a lo mejor hubiera sido más directo con un:
$IPTABLES -A INPUT -i eth0 -s 222.239.220.0/24 -j DROP
Aunque ahora no recuerdo si IPTables soporta comodines para las IPs, tendré que ir quitando el oxido a esos conocimientos para el día que finalmente me ponga en un dedicado.
No lo veo en mis estadísticas; así que creo que me he salvado esta vez.
Gracias por la información.
Creo que no soporta comodines, pero sí mascaras /24 en tu caso serviría.
Pues nada, bloqueado por si acaso. Gracias por el aviso
Sería mejor bloquearlo con el módulo SetEnvIfNoCase de Apache:
SetEnvIfNoCase User-Agent HMSE_Robot badly_robot
deny from env=badly_robot
A parte de ser más compatible y no necesitar mod_rewrite, es más óptimo ya que no tiene que cargar el motor.
Incluso quizás bastaría con un simple (ahorrando comprobaciones internas y demás):
deny from 222.239.220.0/24
Saludos
Armonth, al contrario… Se puede incluir dentro del .htaccess para bloquear el dominio que se desee, al igual que Mod_rewrite, pero este último necesita un RewriteEngine on para cargar el motor.
La única limitación sería que no tuvieramos ese módulo cargado, pero si no me equivoco es uno de los módulos base del apache, y por lo tanto no necesita acceso de administrador.
Saludos! :)