Gravatar de Armonth

Internet no está hecho para las personas

Josh Jones ha publicado una entrada en el blog oficial de Dreamhost llamado The Internet is not for People. Cabe mencionar que las entradas de dicho blog son de todo menos normales. Josh suele decir verdades como puños… pero escondidas detrás de juegos de palabras raros, mucho frikismo e imágenes dignas de cualquier wtf!?.

Según Josh Internet quizá en el pasado era para personas, ahora no. Ahora existe para los robots. La entrada viene a raíz de su más reciente servicio llamado Private Server y comenta que la única razón para tener un servidor privado es quedarse aislado de otros sitios que suelen habitar en un servidor compartido.

La única razón para querer quedarse aislado de otros es que nadie excepto nosotros pueda tirar nuestro servidor. Y la razón por la que un sitio cae es porque su servidor está recibiendo más visitas de las que puede manejar.

Para algunos sitios (nota: es una página que genera gráficos en un bucle intentando colgar el sitio, pulsad Ctrl+W u os colgará el navegador si tenéis JS), una visita ya es “demasiado” y para otros, una página HTML estática no tiene prácticamente limites.

Muchos sitios están en sus servidores compartidos, incluso los mal hechos realmente pueden manejar “sin problemas” unos pocos cientos de visitas al día. Sólo hay problemas cuando un sitio completamente dinámico recibe decenas de cientos de visitas al día.

De hecho, uno de los sitios que han usado para probar Dreamhost PS cae exactamente en esta categoría. Es un blog popular frecuentemente actualizado (y por alguna razón los blogs no pueden ser HTML estático, ¿pueden serlo? ¡anda ya!) y en un día de media genera 10.000 páginas vistas únicas (sin contar imágenes, css, etcétera…).

Ése blog está generando constantemente problemas en su servidor compartido (Mmm… ¿10.000 páginas vistas/día? Espero que no se les ocurra mirar estadísticas de SigT o me fulminan }:P)…

La entrada se alarga pero llega a dar unos datos interesantes: del 100% de tráfico, sólo el 5.6% es de humanos. Y los divide así:

  • El 70.4% proviene de bots: Google, Yahoo, MSN, Ask y un 20% de bots “misteriosos” (Josh asume que para nada bueno).
  • El 17% de spammers que quieren dejar comentarios.
  • Un 7% de agregadores y lectores RSS.
  • Un 5.6% de “Actual Humans ©”.

Llegando al final a la conclusión de que gente como él, tú que lees esto o yo que lo escribo somos una minoría. El Internet del 2007 está hecho de robots, por robots, para robots. Extrapolando llega a la conclusión de que el 95% de páginas vistas de todo Internet son hechas por máquinas (chiste fácil-a-huevo: ¿el 5% que usa? ¿fibre2brain?).

En 1994 se sabia que el 99.99% de las páginas de Internet no recibían absolutamente nada de tráfico. Esa es la clave para entender de que manera hacen dinero las empresas de hosting web.

Pero eso ahora ha cambiado, ahora todos los sitios reciben tráfico y no sólo un 1%, pero el 99.99% de ese tráfico no es de humanos, no se puede tener todo.

Josh acaba terminando con un tema que genero polémica en Mayo: pedir a sus clientes el bloquear los bots de Google.

Y genero polémica por una simple cuestión: es Google. Sin sus servidores indexando páginas no hay (buena parte del) tráfico, no hay anuncios contextualizados de Adsense y no hay $$$CASH$$$. Pero el analizar, comprender y filtrar (si se hace necesario) el tráfico es algo que todo buen administrador debería saber.

En el 2003 en Dive Into Mark publicaron una entrada de cómo bloquear bots indeseados, los bots se van renovando con el tiempo, siempre salen nuevos y este tipo de listas se hacen inútiles: hay que monitorizar cada servidor a lo largo del tiempo y cuando jay una IP que genera problemas contrarrestar sus efectos lo mejor posible.

La lista, como decía, es inútil pero sirve como ejemplo de lo que hay por ahí: bots que te consumen gigas y gigas de ancho para revisar todo tu sitio y ver “si plagias” a los clientes del bot, ladrones de contenido (scrappers), ataques DDoS, bots mal configurados y un larguísimo etcétera.

16 Comentarios (feed)

  1. Gravatar de Tabú Tabú nos comenta:

    Interesantísimo artículo. No tenía ni idea de estos detalles informáticos, ni siquiera me había parado a pensar en el porcentaje de bots en el cómputo total del tráfico en la red.

    Lunes, 13 de Agosto/2007 @ 5:11

  2. Gravatar de Francisco Francisco nos comenta:

    Bastante interesante el artículo, desde hace mucho había visto que el bot de google (principalmente) gastaban un buen porcentaje del ancho de banda de mi sitio, pero no pensé que las estadísticas generales fueran tan impresionantes.

    Lunes, 13 de Agosto/2007 @ 5:26

  3. Gravatar de Antonio Antonio nos comenta:

    El tío este tiene la cara como el cemento, no es ya que ofrezca y venda lo que luego no son capaces de proveer, es que encima hay que cambiar internet para que le cuadre en su modelo de negocio basado en que los clientes no pueden consumir lo que han pagado.

    Lunes, 13 de Agosto/2007 @ 7:37

  4. Gravatar de Kervin Vergara Kervin Vergara nos comenta:

    No imaginé que los bots consumieran un porcentaje significativo del tráfico que llega a nuestras páginas web. Sí sabía que consumían algún porcentaje, pero como ya dije, ¿uno tan significativo? No lo sabía.

    Aunque, el comentario que hace Antonio también tiene veracidad…

    Lunes, 13 de Agosto/2007 @ 10:00

  5. Gravatar de Armonth Armonth nos comenta:

    Antonio no te quito parte de razón: no está bien ofrecer lo que no se puede dar, pero yo al menos veo el tema del overselling con buenos ojos. Siempre y cuando no se saturen los servidores a mala manera, en eso Dreamhost salvo excepciones no lo hace tan mal. Al menos a muchos les permite empezar un sitio por un precio ridiculo.

    Lo que sí que no creo es lo de cambiar internet, puede dar esa impresión, pero yo lo leo desde hace más de un año y nunca le he visto esas intenciones: lo de que dice de googlebot es cierto y yo en más de una ocasión le he tenido que meter un Craw-delay o algo porque se le iba la pinza y me generaba 10.000 o 15.000 páginas vistas en un día (cuando las páginas a indexar no llegan a 3.000 y la segunda cifra se acerca al de páginas vistas al día “normalmente”).

    Fijate que dice que lo que genera problemas son sitios con mucho tráfico y 100% dinámicos. 10.000 páginas vistas no son nada, 10.000 páginas vistas con un WordPress (que no es de lo mejorcito en eficiencia) y sin ningún de tipo de cache sí son un problema. Yo en un principio no entendía el tema de usar pageviews ya que por ancho de banda no te restringen hasta que pensé en los scripts por detrás.

    De todas formas, como WordPress no se haga más modular veo difícil que sea más eficiente :\

    Lunes, 13 de Agosto/2007 @ 15:18

  6. Gravatar de corsaria corsaria nos comenta:

    Pues iremos al sigtpress. No me digas que no suena bien, ‘powered by SigtPress’ ;-)

    Offtopic: Joee Antonio estás que te sales últimamente, te veo comentando en un montón de blogs. ¿Leemos los mismo blogs? :P

    Lunes, 13 de Agosto/2007 @ 19:10

  7. Gravatar de Sergio Sergio nos comenta:

    muy paranoico el tal Josh….

    Lunes, 13 de Agosto/2007 @ 19:32

  8. Gravatar de Manz Manz nos comenta:

    Muy interesante.

    Coincido en casi todo con Josh, hasta lo de los crawlers de Google. ¿Cómo van a bloquear miles de empresas sus accesos de los robots que les dan visitas, mantienen sus anuncios o similar? De todos modos, cuidado, Josh no dice simplemente que bloqueemos a Google, su nota es bastante interesante y da bastante argumentación. Evidentemente bloquear a Google sigue sin gustarme como solución.

    ¡Ojo! Estas semanas he estado mirando en mi blog esos mismos porcentajes (no estoy seguro porque no se si SigT tiene estadísticas públicas, pero el porcentaje de visitas de mi página es superior a 15.000 únicas diarias, quizás en SigT sea similar) y os aseguro que -al menos en mi caso- es una pasada de la robots que llegan.

    Sin embargo, el tráfico de Google (si se controla bien con su panel de control de webmasters y un robots.txt, ¡OJO! Google no sigue el crawl-delay) no es excesivo. Sin embargo, bots como msn o noxtrum es una pasada los accesos que hacen últimamente (lo he visto en general en varios sitios, pero igual solo ocurre en mi blog).

    Si se analizan bien los accesos a nuestro servidor y se bloquean ciertos lugares concretos se puede ahorrar bastante de carga al servidor.

    Lunes, 13 de Agosto/2007 @ 22:06

  9. Gravatar de Armonth Armonth nos comenta:

    Manz ¿Google no sigue el crawl-delay? Yo pensaba que los únicos que lo seguían era google y yahoo, de ahí que MSN fuera “un peligro publico” :-).

    PD: no, no tengo estadísticas publicas pero tranquilamente supero esas 15.000 páginas vistas, lo que también cabe decir es que hay muchos bots que han sido baneados ya así que por poder podrían ser muchas más…

    Lunes, 13 de Agosto/2007 @ 23:58

  10. Gravatar de Sergio Sergio nos comenta:

    no no es para las personas, Internet is for porn!!

    http://www.youtube.com/watch?v=PnJjOlg1ssc

    lo dice naruto!!!!

    Martes, 14 de Agosto/2007 @ 17:51

  11. Gravatar de Manz Manz nos comenta:

    Armonth: Google no lo sigue, creo que crawl-delay no es un standard (aún). Google tiene una opción en el webmaster center donde puedes elegir la velocidad del crawler: rápida, normal o lenta. Respecto al crawl-delay, al menos si lo sigue, lo disimula:

    Línea 9 : Crawl-delay: 300 Norma ignorada por Googlebot

    Yahoo y MSN si obedecen el Crawl-delay.

    Yo estoy apunto de migrar a un virtual dedicado, tengo unas 15.000 unicas, aunque ultimamente con problemas por el tema del limite de conexiones simultaneas.

    Miércoles, 15 de Agosto/2007 @ 2:32

  12. Gravatar de javi javi nos comenta:

    impacta el % de humanos tan pequeñito.

    Miércoles, 15 de Agosto/2007 @ 2:33

  13. Gravatar de Armonth Armonth nos comenta:

    Ok Manz, yo estaba seguro que eran Google y Yahoo pero veo que no, al menos he acertado al decir que de los 4 grandes (los 3 + ask) 2 lo siguen :-P

    Miércoles, 15 de Agosto/2007 @ 3:46

  14. Gravatar de SegFault SegFault nos comenta:

    Trackback manual:

    Cita en Barrapunto.com
    http://barrapunto.com/~SegFault/journal/27102

    Jueves, 16 de Agosto/2007 @ 17:03

  15. Gravatar de Diegofer Diegofer nos comenta:

    Exagerado, totalmente exagerado. Quiza en Blogs por la posibilidad de subir Spam, pero decir que solo el 5% de trafico es de humanos es una locura.

    Jueves, 11 de Octubre/2007 @ 14:32

  16. Gravatar de Armonth Armonth nos comenta:

    Teniendo en cuenta los hábitos de un internauta, piensa que también un bot puede generar mucho más tráfico que una persona.

    Por otro lado, será exagerado pero Dreamhost otra cosa no tiene pero tráfico… vamos que pueden (si quieren) hacer análisis muy interesantes…

    Jueves, 11 de Octubre/2007 @ 16:16

No seas tímido, da tu opinión

Sé respetuoso con los demás, la diferencia de opiniones enriquece la discusión, los comentarios bajo ciertas circunstancias pueden ser moderados y requerir aprobación.