Google, contenido duplicado y feeds

Autor: Armonth | El viernes 02 de febrero del 2007 @ 03:33.

Me acabo de dar cuenta de un detalle: al aplicar en el fichero robots.txt las reglas para impedir el contenido duplicado consigues los objetivos principales:

Que Google no elija entre páginas duplicadas la que no te interesa (la que no es el "permalink").
Que no se le cruce los cables y posicione para un artículo el feed de los comentarios de ese artículo como le pasa/pasabá a Michel.

El problema viene que Google Blogsearch -- el cual se está empezando a posicionar como alternativa a Technorati -- si le impides el acceso al feed deja de añadirte al índice. Lo cual es lógico dado que lo pones en el robots.txt pero en un principio no pensé que el cambio incluiría Blogsearch ya que para algo uso un sitemap: para que todas las páginas sean incluidas.

El caso es que lo importante del contenido duplicado (especialmente lo del permalink/feed/ en lugar de permalink/) ya está solucionado así que voy a probar a cambiar una regla del robots.txt:

Allow: /wp-content/uploads/   
Disallow: /wp-   
Disallow: /search   
Disallow: /?s=   
Disallow: /feed   
Disallow: /comments/feed   
Allow: /feed/$   
Disallow: /*/feed/$   
Disallow: /*/feed/rss/$   
Disallow: /*/trackback/$   
Disallow: /*/*/feed/$   
Disallow: /*/*/feed/rss/$   
Disallow: /*/*/trackback/$   
Disallow: /*/*/*/feed/$   
Disallow: /*/*/*/feed/rss/$   
Disallow: /*/*/*/trackback/$

El robots.txt está como siempre salvo la sexta línea que es expresamente para que sigt.net/feed/ sea indexada pero no las demás tipo sigt.net/feed/atom/.

Ahora el único problema que puede surgir es que a una búsqueda en lugar de devolver sigt.net devuelva el feed pero "es lo que hay", lo dejaré un mes a ver que compensa más.

Actualización: el posible problema del párrafo anterior no se da. Dado que he tenido X tiempo sin indexar el /feed/ éste ya no puede posicionar con más fuerza que el dominio original.

Google, contenido duplicado y feeds

Comentarios

Categorías