Internet no está hecho para las personas

Autor: Armonth | El lunes 13 de agosto del 2007 @ 04:57.

Josh Jones ha publicado una entrada en el blog oficial de Dreamhost llamado The Internet is not for People. Cabe mencionar que las entradas de dicho blog son de todo menos normales. Josh suele decir verdades como puños... pero escondidas detrás de juegos de palabras raros, mucho frikismo e imágenes dignas de cualquier WTF!?.

Según Josh Internet quizá en el pasado era para personas, ahora no. Ahora existe para los robots. La entrada viene a raíz de su más reciente servicio llamado Private Server y comenta que la única razón para tener un servidor privado es quedarse aislado de otros sitios que suelen habitar en un servidor compartido.

La única razón para querer quedarse aislado de otros es que nadie excepto nosotros pueda tirar nuestro servidor. Y la razón por la que un sitio cae es porque su servidor está recibiendo más visitas de las que puede manejar.

Para algunos sitios (nota: es una página que genera gráficos en un bucle intentando colgar el sitio, pulsad Ctrl+W u os colgará el navegador si tenéis JS), una visita ya es "demasiado" y para otros, una página HTML estática no tiene prácticamente limites.

Muchos sitios están en sus servidores compartidos, incluso los mal hechos realmente pueden manejar "sin problemas" unos pocos cientos de visitas al día. Sólo hay problemas cuando un sitio completamente dinámico recibe decenas de cientos de visitas al día.

De hecho, uno de los sitios que han usado para probar Dreamhost PS cae exactamente en esta categoría. Es un blog popular frecuentemente actualizado (y por alguna razón los blogs no pueden ser HTML estático: ¿Pueden serlo? ¡Anda ya! ¡Blasfemo!) y en un día de media genera 10.000 páginas vistas únicas (sin contar imágenes, css, etcétera...).

Ése blog está generando constantemente problemas en su servidor compartido (Mmm... ¿10.000 páginas vistas/día? Espero que no se les ocurra mirar estadísticas de SigT o me fulminan }:P)...

La entrada se alarga pero llega a dar unos datos interesantes: del 100% de tráfico, sólo el 5.6% es de humanos. Y los divide así:

  • El 70.4% proviene de bots: Google, Yahoo, MSN, Ask y un 20% de bots "misteriosos" (Josh asume que para nada bueno).
  • El 17% de spammers que quieren dejar comentarios.
  • Un 7% de agregadores y lectores RSS.
  • Un 5.6% de "Actual Humans©".

Llegando al final a la conclusión de que gente como él, tú que lees esto o yo que lo escribo somos una minoría. El Internet del 2007 está hecho de robots, por robots, para robots. Extrapolando llega a la conclusión de que el 95% de páginas vistas de todo Internet son hechas por máquinas (chiste fácil-a-huevo: ¿el 5% que usa? ¿fibre2brain?).

En 1994 se sabia que el 99.99% de las páginas de Internet no recibían absolutamente nada de tráfico. Esa es la clave para entender de que manera hacen dinero las empresas de hosting web.

Pero eso ahora ha cambiado, ahora todos los sitios reciben tráfico y no sólo un 1%, pero el 99.99% de ese tráfico no es de humanos, no se puede tener todo. Josh acaba terminando con un tema que genero polémica en mayo: pedir a sus clientes el bloquear los bots de Google.

Y genero polémica por una simple cuestión: es Google. Sin sus servidores indexando páginas no hay (buena parte del) tráfico, no hay anuncios contextualizados de Adsense y no hay $$$CASH$$$. Pero el analizar, comprender y filtrar (si se hace necesario) el tráfico es algo que todo buen administrador debería saber.

En el 2003 en Dive Into Mark publicaron una entrada de cómo bloquear bots indeseados, los bots se van renovando con el tiempo, siempre salen nuevos y este tipo de listas se hacen inútiles: hay que monitorizar cada servidor a lo largo del tiempo y cuando hay una IP que genera problemas contrarrestar sus efectos lo mejor posible.

La lista, como decía, es inútil pero sirve como ejemplo de lo que hay por ahí: bots que te consumen gigas y gigas de ancho para revisar todo tu sitio y ver "si plagias" a los clientes del bot, ladrones de contenido (scrappers), ataques DDoS, bots mal configurados y un larguísimo etcétera.

Comentarios