Gravatar de Armonth

Lo básico del robots.txt

Manz ha escrito un artículo titulado Robots.txt: todo lo que deberia saber que recomiendo si todavía no dominas su uso.

A lo que Manz tocaría añadir unas pequeñas notas:

  • Si en algún momento impides la indexación de las imágenes (por error o similar) y con ello te quedas sin ninguna imagen en Google Images hay que tener en cuenta que aunque vuelvas a permitir la indexación los efectos no se verán hasta la próxima gran actualización de imágenes (usualmente 3 meses).

  • Un error en el robots.txt puede desindexar páginas no esperadas, especialmente cuando se usan los comodines, comprobad en Google Sitemaps vuestro robots.txt para ver que páginas filtra. De lo contrario os puede llegar a salir muy caro.

  • Si de contenido duplicado y WordPress se trata, seguramente os interese un código de robots.txt que comente para filtrar las páginas duplicadas que son:

    • El /feed/ con los últimos comentarios o los comentarios de una entrada.
    • Todos los ficheros que empiezan por wp- salvo el contenido de wp-content/uploads.
    • Las URLs terminadas en /trackback/ que son una una copia de las entradas pero usadas para enviar trackbacks.
    • Las búsquedas (?s= y /search) también las filtra pero el feed RSS2 con las entradas no para que se indexe el sitio en Google Blogsearch.

Por último añadir que cuánto más complejo es un sitio más difícil es saber qué restringir o que no y más fácilmente se cae en errores ya que los comodines se vuelven imprescindibles. Una vez más: mucho cuidado con los cambios que se hacen en el robots.txt.

7 Comentarios (feed)

  1. Gravatar de Liamngls Liamngls nos comenta:

    Ves, ves, ya lo decía yo en la entrada de Manz, eso de que se muestren los feeds en los resultados de las búsquedas es un coñazo.

    Sábado, 11 de Agosto/2007 @ 20:51

  2. Gravatar de Shora Shora nos comenta:

    Ainsss… si hubiera sabido esto un mes antes… qué mala es la ignorancia :P

    Ahora toca esperar 2 meses como condena xD

    Sábado, 11 de Agosto/2007 @ 21:15

  3. Gravatar de Armonth Armonth nos comenta:

    Liamngls adivina porqué implementé ese robots.txt, el contenido duplicado supuso un 1% del motivo y el 99% restante fue por otra cosa.

    PD: Si te refieres a que salga el feed con los comentarios en lugar de la entrada, lo del robots.txt lo soluciona, ahora bien si te refieres a que salga el /feed/ general del sitio en lugar de la raíz del blog hay un pequeño truco para ello:

    Banea el feed (cambiando Allow: /feed/$ por Disallow) durante uno-dos mes para que pierda todo el posicionamiento/pagerank, durante ese tiempo Google Blogsearch no indexará nuevas entradas, luego lo vuelves a poner y como quedará mermada su autoridad por debajo del índice… pues eso :-)

    Shora pues sí x-D

    Domingo, 12 de Agosto/2007 @ 0:19

  4. Gravatar de Manz Manz nos comenta:

    Un apunte…

    Armonth, el tema del bot de imagenes de Google creo que es cierto en su estado “por defecto”. Pero en google webmasters hay (no se si para todo el público, o solo para sitios con mucho flujo de visitas) una opción para realizar una búsqueda mejorada de imagenes en fase beta.

    Con este sistema la indexación normalmente es mucho más rápida que 2 meses. Al menos en mi caso he hecho pruebas y en apenas unos días (ni una semana) el ritmo de visitas a las imagenes se dispara.

    Liamngls para los que quieran “des-indexar” los feeds rapidamente, también pueden usar la opción de eliminar directorios del mencionado central de Google Webmasters.

    Eso si, en experiencia personal, se demoran bastante en eliminarlos.

    Saludos,

    Domingo, 12 de Agosto/2007 @ 3:16

  5. Gravatar de Armonth Armonth nos comenta:

    Manz yo también lo uso, pero pese a usarlo si pones el directorio de imágenes restringuido por robots.txt aunque siga indexándolas no saldrán las nuevas imágenes hasta la próxima actualización (experiencia personal propía por descuido).

    Sobre lo que le dices a Liamngls esa opción al menos cuando yo la probé obliga a poner cada permalink/feed/ … un desastre, además de que si restringues el feed principal adiós google blogsearch…

    Domingo, 12 de Agosto/2007 @ 3:55

  6. Gravatar de Alex Alex nos comenta:

    Corrijeme si me equivoco, pero bloquear el /feed/ creo que no te indexa en la búsqueda de blogs de google. En mi caso, cuando hice eso (hace tiempo) no indexaba a BlogHogwarts

    Saludos

    Martes, 14 de Agosto/2007 @ 3:40

  7. Gravatar de Armonth Armonth nos comenta:

    Alex eso mismo he dicho en el artículo y en los comentarios: no permitir indexar el /feed/ significa no aparecer en Google Blogsearch.

    Martes, 14 de Agosto/2007 @ 5:03

Comentarios cerrados