Gravatar de Armonth

Google, contenido duplicado y feeds

Me acabo de dar cuenta de un detalle: Al aplicar en el fichero robots.txt las reglas para impedir el contenido duplicado consigues el objetivo principal:

  1. Que Google no elija entre páginas duplicadas la que no te interesa (la que no es el “permalink”).
  2. Que no se le cruce los cables y posicione para un artículo el feed de los comentarios de ese artículo como le pasa/pasabá a Michel.

El problema viene que Google Blogsearch — el cual se está empezando a posicionar como fuerte alternativa a Technorati — si le impides el acceso al feed deja de añadirte al índice. Lo cual es lógico dado que lo pones en el robots.txt pero en un principio no pensé que el cambio incluiría Blogsearch ya que para algo uso un sitemap: para que todas las páginas sean incluidas.

El caso es que lo importante del contenido duplicado (especialmente lo del permalink/feed/ en lugar de permalink/) ya está solucionado así que voy a probar a cambiar una regla del robots.txt:

Allow: /wp-content/uploads/
Disallow: /wp-
Disallow: /search
Disallow: /?s=
Disallow: /feed
Disallow: /comments/feed
Allow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$

El robots.txt está como siempre salvo la sexta línea que es expresamente para que sigt.net/feed/ sea indexada pero no las demás tipo sigt.net/feed/atom/.

Ahora el único problema que puede surgir es que a una búsqueda en lugar de devolver sigt.net devuelva el feed pero “es lo que hay”, lo dejaré un mes a ver que compensa más.

13 Comentarios (feed)

  1. Gravatar de Scailay Scailay nos comenta:

    Una pregunta… Para deshabilitar los trackbacks o los feeds, no valdría poner simplemente “*/trackback” o “*/feed”?

    Por otra parte, si tu estructura de permalinks es “sigt.net/archivo/nombre-articulo.xhtml, no valdría con poner “Disallow: /*/*/feed/”?

    Viernes, 2 de Febrero/2007 @ 12:15

  2. Gravatar de Michel Michel nos comenta:

    Desde que eliminé los enlaces a los feeds de los comentarios ya creo que no me dan problemas.

    Viernes, 2 de Febrero/2007 @ 14:34

  3. Gravatar de Armonth Armonth nos comenta:

    Michel: yo los tenía con nofollow y también funciona… hasta que un listo te enlaza con ellos…

    Scailay: la estructura esa sirve para los trackbacks sin mayores problemas :P

    Viernes, 2 de Febrero/2007 @ 16:10

  4. Gravatar de InKiLiNo InKiLiNo nos comenta:

    Creo que voy a seguir tu iniciativa y voy aponerlo como tu.

    Por cierto, no te falta al principio:

    User-agent: *

    Viernes, 2 de Febrero/2007 @ 21:20

  5. Gravatar de Armonth Armonth nos comenta:

    Sí, pero en el robots lo tengo bien, era pereza de añadir la línea xD

    Viernes, 2 de Febrero/2007 @ 21:27

  6. Gravatar de Oscar Oscar nos comenta:

    Alguien sabe cómo debería de ser el archivo ideal del robots.txt para un blog ? :S

    Gracias!!

    Viernes, 16 de Febrero/2007 @ 16:55

  7. Gravatar de Armonth Armonth nos comenta:

    Pues Oscar, para uno hecho en WordPress algo parecido a lo citado en el artículo (realmente está hecho para wordpress)…

    Viernes, 16 de Febrero/2007 @ 18:28

  8. Gravatar de Pablo Miranda Pablo Miranda nos comenta:

    Tener estas reglas en el robot.txt aparte de tener algun plugin como All in One SEO Pack te afecta en algo ? o tener los dos seria mejor ?????

    Domingo, 12 de Agosto/2007 @ 3:46

  9. Gravatar de Alberto Alberto nos comenta:

    Puse mi robot.txt en Goggle y lo probe (herramientas Webamaster) y me da “No se ha entendido la sintaxis.” Cual pude ser mi error?

    Sábado, 19 de Abril/2008 @ 18:49

  10. Gravatar de goethemola goethemola nos comenta:

    Yo tengo un blog con blogger, y el webmaster tools me dice que tengo nada más y nada menos que 1131 URL restringidas por robots y 418 metadescripciones duplicadas.

    Esto no puede ser bueno…

    Errr… ¿Alguna sugerencia al respecto, por favor?

    Miércoles, 14 de Mayo/2008 @ 20:39

  11. Gravatar de Armonth Armonth nos comenta:

    Las metadescripciones tendrás que cambiarlas (no me preguntes cómo, yo de plantillas de blogger no ando fino).

    Las URLs duplicadas es normal, en SigT cada artículo tiene al menos 2 URLs restringidas por robots…

    Miércoles, 14 de Mayo/2008 @ 22:37

  12. Gravatar de goethemola goethemola nos comenta:

    Gracias por contesra!

    Pero las metadescripciones, perdona mi ignorancia, son los ‘tags’ que se ponen al inicio de la plantilla, ¿no? ¿O estoy más perdido que…?

    Un saludo!

    Jueves, 15 de Mayo/2008 @ 17:30

  13. Gravatar de Juan Juan nos comenta:

    Hola,

    A mi me pasa lo mismo, me he creado un blog en blogger de Administracion de Fincas y no logro saber que tengo que poner en el robots.txt para que no de problema de duplicados.

    Un Saludo.

    Jueves, 15 de Enero/2009 @ 23:21

Comentarios cerrados