Gravatar de Armonth

Baneando robots abusivos: HMSE_Robot

HMSE_Robot es un “nuevo” bot de origen coreano que recorre la red en busca de direcciones que recolectar para hacer spam y contenido que plagiar y lucrarse.

No respeta el robots.txt y en poco más de 16 horas ha visitado más de 3000 páginas de SigT cuando antes ni existía en las estadísticas, 3000 páginas es mucho concretamente la mitad de lo que ha leído el GoogleBot en todo lo que va de mes. Es decir: estamos ante todo un señor comedor de ancho de banda ajeno.

El bot se identifica tal cual, con la cadena HMSE_Robot y la IP pertenece a un ISP llamado Hanaro Telecom, Inc. Parece ser que tienen todo el rango 222.239.220.xxx asignado siendo la IP 222.239.220.202 la principal fuente.

Para evitar dicho abuso, los he baneado vía htaccess:

RewriteCond %{REMOTE_ADDR} ^222\.239\.220\.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} HMSE_Robot
RewriteRule .? - [F]

Aunque si estuviera en mi propio dedicado, a lo mejor hubiera sido más directo con un:

$IPTABLES -A INPUT -i eth0 -s 222.239.220.0/24 -j DROP

Aunque ahora no recuerdo si IPTables soporta comodines para las IPs, tendré que ir quitando el oxido a esos conocimientos para el día que finalmente me ponga en un dedicado.

7 Comentarios (feed)

  1. Gravatar de filex filex nos comenta:

    No lo veo en mis estadísticas; así que creo que me he salvado esta vez.

    Gracias por la información.

    Sábado, 15 de Septiembre/2007 @ 3:53

  2. Gravatar de Gura Gura nos comenta:

    Creo que no soporta comodines, pero sí mascaras /24 en tu caso serviría.

    Sábado, 15 de Septiembre/2007 @ 11:03

  3. Gravatar de Armonth Armonth nos comenta:

    Corregido. También se puede hacer así si no me falla la memoria:

    -m iprange --src-range 222.239.220.1-222.239.220.254
    

    Sábado, 15 de Septiembre/2007 @ 12:13

  4. Gravatar de glucko glucko nos comenta:

    Pues nada, bloqueado por si acaso. Gracias por el aviso

    Sábado, 15 de Septiembre/2007 @ 12:19

  5. Gravatar de Manz Manz nos comenta:

    Sería mejor bloquearlo con el módulo SetEnvIfNoCase de Apache:

    SetEnvIfNoCase User-Agent HMSE_Robot badly_robot
    deny from env=badly_robot

    A parte de ser más compatible y no necesitar mod_rewrite, es más óptimo ya que no tiene que cargar el motor.

    Incluso quizás bastaría con un simple (ahorrando comprobaciones internas y demás):

    deny from 222.239.220.0/24

    Saludos

    Lunes, 17 de Septiembre/2007 @ 15:02

  6. Gravatar de Armonth Armonth nos comenta:

    Manz cierto, pero dos apuntes toca añadir:

    1. Así no bloqueamos a nivel de sitio/dominio/donde esté el .htaccess, baneamos a nivel de servidor para TODOS los sitios.

    2. En muchos servidores (¿todos?) es necesario acceso de administrador a la máquina

    PD: Como siempre, gracias por tus aportaciones :)

    Lunes, 17 de Septiembre/2007 @ 15:20

  7. Gravatar de Manz Manz nos comenta:

    Armonth, al contrario… Se puede incluir dentro del .htaccess para bloquear el dominio que se desee, al igual que Mod_rewrite, pero este último necesita un RewriteEngine on para cargar el motor.

    La única limitación sería que no tuvieramos ese módulo cargado, pero si no me equivoco es uno de los módulos base del apache, y por lo tanto no necesita acceso de administrador.

    Saludos! :)

    Lunes, 17 de Septiembre/2007 @ 15:48

Comentarios cerrados