Publicado el Lunes 15 de Octubre del 2007 @ 8:25 por Armonth.
De WordPress, contenido duplicado, posicionamiento/SEO y temas relacionados ya he hablado anteriormente (ver relacionados) pero por correo me han preguntado si tengo un robots.txt ya hecho y si bien puedo contestar “el de SigT” aprovecho para publicar uno comentado listo para copiar, pegar y, si hace falta, adaptar.
#
# robots.txt para tu blog en WordPress.
#
# Usar bajo propia responsabilidad, que nos conocemos }:)
# http://sigt.net/archivo/robotstxt-para-wordpress.xhtml
#
# Primero el contenido adjunto.
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-includes/
Disallow: /wp-admin/
# También podemos desindexar todo lo que empiece
# por wp-. Es lo mismo que los Disallow de arriba pero
# incluye cosas como wp-rss.php
Disallow: /wp-
#
# Sitemap permitido, búsquedas no.
#
Sitemap: http://tu-web/sitemap.xml
Disallow: /?s=
Disallow: /search
#
# Permitimos el feed general para Google Blogsearch.
#
# Impedimos que permalink/feed/ sea indexado ya que el
# feed con los comentarios suele posicionarse en lugar de
# la entrada y desorienta a los usuarios.
#
# Lo mismo con URLs terminadas en /trackback/ que sólo
# sirven como Trackback URI (y son contenido duplicado).
#
Allow: /feed/$
Disallow: /feed
Disallow: /comments/feed
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
#
# A partir de aquí es opcional pero recomendado.
#
# Lista de bots que suelen respetar el robots.txt pero rara
# vez hacen un buen uso del sitio y abusan bastante...
# Añadir al gusto del consumidor...
User-agent: MSIECrawler
Disallow: /
User-agent: WebCopier
Disallow: /
User-agent: HTTrack
Disallow: /
User-agent: Microsoft.URL.Control
Disallow: /
User-agent: libwww
Disallow: /
#
# Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen
# idas de pinza, toca decirles que reduzcan la marcha.
# El valor es en segundos y podéis dejarlo bajo e ir
# subiendo hasta el punto óptimo.
#
User-agent: noxtrumbot
Crawl-delay: 50
User-agent: msnbot
Crawl-delay: 30
User-agent: Slurp
Crawl-delay: 10
De la lista de bots, he dejado los más molestos por experiencia personal pero ante ciertos abusos, no dudéis: cortad de raíz. Las páginas están hechas para las personas y no para que te las saturen los robots, aunque los datos digan lo contrario.
Los valores que le he puesto a Noxtrum, MSNbot y Slurp los dejo así ya que los dos primeros suelen ser los que más se les va la pinza. También toca mencionar que si se quiere usar un “urllist.txt” (un Sitemap usado por Yahoo! hasta hace poco y que es equivalente al sitemap.xml pero sólo contiene URLs) se le puede añadir una segunda línea Sitemap: sin problemas.
El resto del contenido duplicado (etiquetas, categorías, archivos anuales / mensuales / diarios, etcétera) es más efectivo añadirlo con PHP y la meta robots con “noindex,follow”.
Está bastante bien, creo que tengo implementado la mitad de lo que publicas aquí.
Solo como comentario, los asteriscos utilizados como comodines son implementados por Google y no son estandar, aún. :P Por lo que pocos bots lo reconocen. (que me corrija alguien si lo que digo está desactualizado :D )
No conocía el Crawl-delay, ¿en que se mide? ¿horas, minutos,…?
Disculpa Armonth, ya lo vi. Está en segundos.
Pasé por alto unas lineas con #. :P
Hace tiempo que escribí en mi blog un artículo similar, en el que tengo prácticamente las mismas cosas que tú, salvo el tema de los bots pesados.
Voy a probarlo, saludos.
Muchas gracias Armonth. Este post me viene como anillo al dedo ;-)
Una pregunta tonta, lo podemos copiar tal cual está ahi?, con la explicación y todo?, supongo que eso no lo leen los robots verdad?.
#
# robots.txt para tu blog en WordPress.
#
Vaya esto me servira de mucho, mas opciones para mi robots.txt
Jaja http://sigt.net/robots.txt
Es diferente al que pones aqui xDD
Bueno, me gusto lo que hiciste con el /feed/, una vez bloquee el/feed/ a través de robots.txt y Google Blog Search dejó de indexarme. Lo extraño, es que hay gente que sigue bloqueando el /feed/ y sigue siendo indexado en Google Blog Search 0o…
Creo que te quedas atrás las url de las categorías: *category y las de archive pueden generar contenido duplicado, por ello pienso que seria mejor anuarlas
Bueno acerca de los comodines no me acuerdo donde lei que no se permetia ninguno, ni el * (segun claro el estandar solo esta permitido este en el User-Agent) y tampoco se permite la etiqueta “Allow”, como dices solo algunos bots especiales permiten estas reglas asi que (nuevamente segun me acuerdo haber leido por ahi) hay que tratar de evitarlos o dejarlos especificos para cada BOT.
Otra cosa que lei es acerca del User-Agent: *, segun cuando se podia leer la web robotstxt.org “me acuerdo” este debe ir al final ya que algunos bots al considerar el User-Agent: * de primero estos solo toman esa parte y terminan de procesar lo demas asi que segun la recomendacion de donde robotstxt.org este debe ir despues de las reglas personalizdas por bots (al ultimo como quien dice).
Yo tmb tengo el mio en mi web (por si le quieres dar un vistazo) aunque yo le puse algunas cosillas de mas y le quite otras que segun “como te dije” me acuerdo haber leido en robotstxt.org acerca de como debe ser estos archivos y me base en esas reglas y el RFC.
Saludos
se le agradece por el post :)
Perdonadme la ignorancia, pero el fichero robots.txt donde tengo que ubicarlo exactamente.
He dado por hecho que existe en blanco por defecto pero no lo encuentro entre los archivos de mi blog (uso WP)
Un saludo
Buenas
He implementado el archivo .txt completo pero sin el Disallow -wp (por si acaso)
Espero que me funcione,xD.
Un Abrazo
¿Podrías explicarme por favor que significa la parte donde pones “Sitemap permitido, búsquedas no”? Lo del sitemap me queda claro, lo de las búsquedas no….
Otra cosa: dado que uso feed de feedburner, ¿es necesario agregar algo al respecto en el robots.txt?
Gracias!
www.iccc.es
Creo que ya no tendremos problemas con Noxtrum. Actualmente redirecciona a las páginas amarillas. A ver si lo han cerrrado por que los webmasters les bloqueaban el acceso jejej es broma.
Muchas gracias por el artículo, me fue de mucha ayuda, recomendaría a los lectores que utilicen http://tool.motoricerca.info/robots-checker.phtml para validar sus robots.txt, incluso el propuesto aquí se salta algunas consideraciones, pero nada que no se pueda sortear.
Es justo lo que necesitaba porque tengo problemas en que mis categorias salen publicados y ello no deberia ser. Gracias por tu aporte, corregire ese error.
Muchas gracias por el aporte.
Gran post, gran explicacion.
Y gracias a adverick por el enlace al robots-checker.
Creo que te hace falta permitirle el acceso a este, es por recomendación de google adsense.
User-agent: Mediapartners-Google*
Disallow: