Publicado el Viernes 02 de Febrero del 2007 @ 3:33 por Armonth.
Me acabo de dar cuenta de un detalle: Al aplicar en el fichero robots.txt las reglas para impedir el contenido duplicado consigues el objetivo principal:
El problema viene que Google Blogsearch — el cual se está empezando a posicionar como fuerte alternativa a Technorati — si le impides el acceso al feed deja de añadirte al índice. Lo cual es lógico dado que lo pones en el robots.txt pero en un principio no pensé que el cambio incluiría Blogsearch ya que para algo uso un sitemap: para que todas las páginas sean incluidas.
El caso es que lo importante del contenido duplicado (especialmente lo del permalink/feed/ en lugar de permalink/) ya está solucionado así que voy a probar a cambiar una regla del robots.txt:
Allow: /wp-content/uploads/
Disallow: /wp-
Disallow: /search
Disallow: /?s=
Disallow: /feed
Disallow: /comments/feed
Allow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
El robots.txt está como siempre salvo la sexta línea que es expresamente para que sigt.net/feed/ sea indexada pero no las demás tipo sigt.net/feed/atom/.
Ahora el único problema que puede surgir es que a una búsqueda en lugar de devolver sigt.net devuelva el feed pero “es lo que hay”, lo dejaré un mes a ver que compensa más.
Una pregunta… Para deshabilitar los trackbacks o los feeds, no valdría poner simplemente “*/trackback” o “*/feed”?
Por otra parte, si tu estructura de permalinks es “sigt.net/archivo/nombre-articulo.xhtml, no valdría con poner “Disallow: /*/*/feed/”?
Desde que eliminé los enlaces a los feeds de los comentarios ya creo que no me dan problemas.
Creo que voy a seguir tu iniciativa y voy aponerlo como tu.
Por cierto, no te falta al principio:
User-agent: *
Alguien sabe cómo debería de ser el archivo ideal del robots.txt para un blog ? :S
Gracias!!
Tener estas reglas en el robot.txt aparte de tener algun plugin como All in One SEO Pack te afecta en algo ? o tener los dos seria mejor ?????
Puse mi robot.txt en Goggle y lo probe (herramientas Webamaster) y me da “No se ha entendido la sintaxis.” Cual pude ser mi error?
Yo tengo un blog con blogger, y el webmaster tools me dice que tengo nada más y nada menos que 1131 URL restringidas por robots y 418 metadescripciones duplicadas.
Esto no puede ser bueno…
Errr… ¿Alguna sugerencia al respecto, por favor?
Gracias por contesra!
Pero las metadescripciones, perdona mi ignorancia, son los ‘tags’ que se ponen al inicio de la plantilla, ¿no? ¿O estoy más perdido que…?
Un saludo!
Hola,
A mi me pasa lo mismo, me he creado un blog en blogger de Administracion de Fincas y no logro saber que tengo que poner en el robots.txt para que no de problema de duplicados.
Un Saludo.