De WordPress, contenido duplicado, posicionamiento/SEO y temas relacionados ya he hablado anteriormente (ver relacionados) pero por correo me han preguntado si tengo un robots.txt ya hecho y si bien puedo contestar "el de SigT" aprovecho para publicar uno comentado listo para copiar, pegar y, si hace falta, adaptar.
# # robots.txt para tu blog en WordPress. # # Usar bajo propia responsabilidad, que nos conocemos }:) # http://www.sigt.net/desarrollo-web/robotstxt-para-wordpress.html # # Primero el contenido adjunto. User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /wp-admin/ # También podemos desindexar todo lo que empiece # por wp-. Es lo mismo que los Disallow de arriba pero # incluye cosas como wp-rss.php Disallow: /wp- # # Sitemap permitido, búsquedas no. # Sitemap: http://tu-web/sitemap.xml Disallow: /?s= Disallow: /search # # Permitimos el feed general para Google Blogsearch. # # Impedimos que permalink/feed/ sea indexado ya que el # feed con los comentarios suele posicionarse en lugar de # la entrada y desorienta a los usuarios. # # Lo mismo con URLs terminadas en /trackback/ que sólo # sirven como Trackback URI (y son contenido duplicado). # Allow: /feed/$ Disallow: /feed Disallow: /comments/feed Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # # A partir de aquí es opcional pero recomendado. # # Lista de bots que suelen respetar el robots.txt pero rara # vez hacen un buen uso del sitio y abusan bastante... # Añadir al gusto del consumidor... User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / # # Slurp (Yahoo!), Noxtrum y el bot de MSN a veces tienen # idas de pinza, toca decirles que reduzcan la marcha. # El valor es en segundos y podéis dejarlo bajo e ir # subiendo hasta el punto óptimo. # User-agent: noxtrumbot Crawl-delay: 50 User-agent: msnbot Crawl-delay: 30 User-agent: Slurp Crawl-delay: 10
De la lista de bots, he dejado los más molestos por experiencia personal pero ante ciertos abusos, no dudéis: cortad de raíz. Las páginas están hechas para las personas y no para que te las saturen los robots, aunque los datos digan lo contrario.
Los valores que le he puesto a Noxtrum, MSNbot y Slurp los dejo así ya
que los dos primeros suelen ser los que más se les va la pinza. También
toca mencionar que si se quiere usar un "urllist.txt" (un Sitemap usado
por Yahoo! hasta hace poco y que es equivalente al sitemap.xml pero sólo
contiene URLs) se le puede añadir una segunda línea Sitemap:
sin
problemas.
El resto del contenido duplicado (etiquetas, categorías, archivos
anuales / mensuales / diarios, etcétera) es más efectivo añadirlo con
PHP
junto a meta robots
y noindex,follow
.
Relacionados:
-
Lo básico del robots.txt (el cual es un listado de puntos extra a los comentados por Manz en su artículo sobre robots.txt).
Comentarios