Publicado el Lunes 13 de Agosto del 2007 @ 4:57 por Armonth.
Josh Jones ha publicado una entrada en el blog oficial de Dreamhost llamado The Internet is not for People. Cabe mencionar que las entradas de dicho blog son de todo menos normales. Josh suele decir verdades como puños… pero escondidas detrás de juegos de palabras raros, mucho frikismo e imágenes dignas de cualquier wtf!?.
Según Josh Internet quizá en el pasado era para personas, ahora no. Ahora existe para los robots. La entrada viene a raíz de su más reciente servicio llamado Private Server y comenta que la única razón para tener un servidor privado es quedarse aislado de otros sitios que suelen habitar en un servidor compartido.
La única razón para querer quedarse aislado de otros es que nadie excepto nosotros pueda tirar nuestro servidor. Y la razón por la que un sitio cae es porque su servidor está recibiendo más visitas de las que puede manejar.
Para algunos sitios (nota: es una página que genera gráficos en un bucle intentando colgar el sitio, pulsad Ctrl+W u os colgará el navegador si tenéis JS), una visita ya es “demasiado” y para otros, una página HTML estática no tiene prácticamente limites.
Muchos sitios están en sus servidores compartidos, incluso los mal hechos realmente pueden manejar “sin problemas” unos pocos cientos de visitas al día. Sólo hay problemas cuando un sitio completamente dinámico recibe decenas de cientos de visitas al día.
De hecho, uno de los sitios que han usado para probar Dreamhost PS cae exactamente en esta categoría. Es un blog popular frecuentemente actualizado (y por alguna razón los blogs no pueden ser HTML estático, ¿pueden serlo? ¡anda ya!) y en un día de media genera 10.000 páginas vistas únicas (sin contar imágenes, css, etcétera…).
Ése blog está generando constantemente problemas en su servidor compartido (Mmm… ¿10.000 páginas vistas/día? Espero que no se les ocurra mirar estadísticas de SigT o me fulminan }:P)…
La entrada se alarga pero llega a dar unos datos interesantes: del 100% de tráfico, sólo el 5.6% es de humanos. Y los divide así:
Llegando al final a la conclusión de que gente como él, tú que lees esto o yo que lo escribo somos una minoría. El Internet del 2007 está hecho de robots, por robots, para robots. Extrapolando llega a la conclusión de que el 95% de páginas vistas de todo Internet son hechas por máquinas (chiste fácil-a-huevo: ¿el 5% que usa? ¿fibre2brain?).
En 1994 se sabia que el 99.99% de las páginas de Internet no recibían absolutamente nada de tráfico. Esa es la clave para entender de que manera hacen dinero las empresas de hosting web.
Pero eso ahora ha cambiado, ahora todos los sitios reciben tráfico y no sólo un 1%, pero el 99.99% de ese tráfico no es de humanos, no se puede tener todo.
Josh acaba terminando con un tema que genero polémica en Mayo: pedir a sus clientes el bloquear los bots de Google.
Y genero polémica por una simple cuestión: es Google. Sin sus servidores indexando páginas no hay (buena parte del) tráfico, no hay anuncios contextualizados de Adsense y no hay $$$CASH$$$. Pero el analizar, comprender y filtrar (si se hace necesario) el tráfico es algo que todo buen administrador debería saber.
En el 2003 en Dive Into Mark publicaron una entrada de cómo bloquear bots indeseados, los bots se van renovando con el tiempo, siempre salen nuevos y este tipo de listas se hacen inútiles: hay que monitorizar cada servidor a lo largo del tiempo y cuando jay una IP que genera problemas contrarrestar sus efectos lo mejor posible.
La lista, como decía, es inútil pero sirve como ejemplo de lo que hay por ahí: bots que te consumen gigas y gigas de ancho para revisar todo tu sitio y ver “si plagias” a los clientes del bot, ladrones de contenido (scrappers), ataques DDoS, bots mal configurados y un larguísimo etcétera.
Interesantísimo artículo. No tenía ni idea de estos detalles informáticos, ni siquiera me había parado a pensar en el porcentaje de bots en el cómputo total del tráfico en la red.
Bastante interesante el artículo, desde hace mucho había visto que el bot de google (principalmente) gastaban un buen porcentaje del ancho de banda de mi sitio, pero no pensé que las estadísticas generales fueran tan impresionantes.
El tío este tiene la cara como el cemento, no es ya que ofrezca y venda lo que luego no son capaces de proveer, es que encima hay que cambiar internet para que le cuadre en su modelo de negocio basado en que los clientes no pueden consumir lo que han pagado.
No imaginé que los bots consumieran un porcentaje significativo del tráfico que llega a nuestras páginas web. Sí sabía que consumían algún porcentaje, pero como ya dije, ¿uno tan significativo? No lo sabía.
Aunque, el comentario que hace Antonio también tiene veracidad…
Pues iremos al sigtpress. No me digas que no suena bien, ‘powered by SigtPress’ ;-)
Offtopic: Joee Antonio estás que te sales últimamente, te veo comentando en un montón de blogs. ¿Leemos los mismo blogs? :P
muy paranoico el tal Josh….
Muy interesante.
Coincido en casi todo con Josh, hasta lo de los crawlers de Google. ¿Cómo van a bloquear miles de empresas sus accesos de los robots que les dan visitas, mantienen sus anuncios o similar? De todos modos, cuidado, Josh no dice simplemente que bloqueemos a Google, su nota es bastante interesante y da bastante argumentación. Evidentemente bloquear a Google sigue sin gustarme como solución.
¡Ojo! Estas semanas he estado mirando en mi blog esos mismos porcentajes (no estoy seguro porque no se si SigT tiene estadísticas públicas, pero el porcentaje de visitas de mi página es superior a 15.000 únicas diarias, quizás en SigT sea similar) y os aseguro que -al menos en mi caso- es una pasada de la robots que llegan.
Sin embargo, el tráfico de Google (si se controla bien con su panel de control de webmasters y un robots.txt, ¡OJO! Google no sigue el crawl-delay) no es excesivo. Sin embargo, bots como msn o noxtrum es una pasada los accesos que hacen últimamente (lo he visto en general en varios sitios, pero igual solo ocurre en mi blog).
Si se analizan bien los accesos a nuestro servidor y se bloquean ciertos lugares concretos se puede ahorrar bastante de carga al servidor.
no no es para las personas, Internet is for porn!!
http://www.youtube.com/watch?v=PnJjOlg1ssc
lo dice naruto!!!!
Armonth: Google no lo sigue, creo que crawl-delay no es un standard (aún). Google tiene una opción en el webmaster center donde puedes elegir la velocidad del crawler: rápida, normal o lenta. Respecto al crawl-delay, al menos si lo sigue, lo disimula:
Línea 9 : Crawl-delay: 300 Norma ignorada por Googlebot
Yahoo y MSN si obedecen el Crawl-delay.
Yo estoy apunto de migrar a un virtual dedicado, tengo unas 15.000 unicas, aunque ultimamente con problemas por el tema del limite de conexiones simultaneas.
impacta el % de humanos tan pequeñito.
Trackback manual:
Cita en Barrapunto.com
http://barrapunto.com/~SegFault/journal/27102
Exagerado, totalmente exagerado. Quiza en Blogs por la posibilidad de subir Spam, pero decir que solo el 5% de trafico es de humanos es una locura.