Gravatar de Armonth

Cómo arreglar el problema del contenido duplicado en WordPress

El tema del contenido duplicado se está comentando bastante por la blogosfera, — sin ir más lejos, yo mismo hace un par de días — y hoy voy a centrarme en WordPress.

Lo primero, decir que Online Marketing Research ha escrito How to Make a WordPress Blog Duplicate Content Safe que explica bastante bien las medidas.

En resumidas cuentas dice para evitar el contenido duplicado en WordPress debes:

  1. Añadir el metatag noindex,follow a los archivos mensuales/semanales/diarios (se olvida de los anuales), siguientes entradas (los /page/) y — si es necesario — a las categorías.
  2. Asegurarse que todas las páginas tienen un meta description único.
  3. Activar redirecciones 301 para tus páginas no-www y sin las barras finales.
  4. Impedir a los crawlers indexar tus páginas de feeds y trackbacks.
  5. Usar la etiqueta “more” (<!-- more -->) para mostrar extractos en tu home en lugar de entradas completas.
  6. Reducir el número de entradas mostradas en el home.

Mi opinión es la siguiente:

Los puntos 1 y 2 no me afectan, ya que mis archivos no son “copias” de los posts, son listados de enlaces y/o con un extracto en el caso de las búsquedas/tags, además no uso un meta description. La excepción son las “páginas” (/page/)..

El tercer punto lo puse desde el principio (aunque impidiendo el uso de las www y todavía se puede usar la barra final). El cuarto lo hacía mediante un enlace nofollow pero no es mala idea añadirlo por robots.txt.

El quinto me niego rotundamente, sólo sirve para que la gente que entra por web tenga que hacer clicks innecesarios para terminar de leer las entradas. Y el sexto lo hice a raíz de la longitud media de las entradas.

Personalmente lanzo una pregunta ¿te puede afectar tanto el contenido duplicado?. Entendiéndolo como el “por defecto” (dejemos aparte el contenido duplicado claramente intencionado) que trae WordPress, dado que hay muchos blogs bien posicionados con WP.

Creo que lo que voy a hacer es lo siguiente:

  • Usar el robots.txt para restringuir el /trackback/ y el /feed/ (veo que el nofollow hace su trabajo, pero a la que alguien me enlace un link de estos sin nofollow no valdrá de nada).
  • Añadir noindex a /page/ (salvo en las etiquetas), total viendo el índice en Google sólo salen dos o tres por lo que seguramente caen en suplementarios.

Me gusta mejorar, pero encuentro contradictorio que por un lado se nos inste a no pensar para los buscadores y por otro a facilitarles el trabajo ¬_¬U.

7 Comentarios (feed)

  1. Gravatar de Armonth Armonth nos comenta:

    Cambios realizados… he decidido:

    1. Filtrar las páginas salvo si son etiquetas pero no los archivos. Al código:

    if((is_home() && ($paged < 2 )) || is_single() || is_page() || is_category()){

    Le he quitado el is_category() (es tonteria hacer una comrpobación que NO se hace ya que NO hay categorías) y se han añadido: is_tag() || is_month() || is_day() || is_year()

    Al añadir como excepción is_tag() eso incluye a los /page/ dentro de las etiquetas.

    Otra cosa: En el robots.txt pone lo siguiente:

    Disallow: /search

    Y aunque es cierto que si buscas en un blog por blog/search/palabra-a-buscar funciona, por defecto los formularios (uses o no permalinks ¿bug?) usan /?s=.

    Disallow: /?s=$

    Eso es todo…

    Sábado, 23 de Diciembre/2006 @ 19:06

  2. Gravatar de corsaria corsaria nos comenta:

    Mira que le haces las cosas fáciles al buscador… :P

    Tu comentario precedente es referente al robots.txt deduzco. :-)

    Domingo, 31 de Diciembre/2006 @ 15:00

  3. Gravatar de Sergio Alvaré Sergio Alvaré nos comenta:

    Pues yo no pienso hacer nada. Quien lee sigt lo hace porque lo conoce y le gusta. Y vuelve. Para conocerlo están los enlaces entrantes, con la pila de contenido que hay, sinceramente creo que estamos en un punto en el que es difícil capturar visitas con una búsqueda medianamente genérica.
    Me extraña que en Google no sepan hacer su trabajo, deberían tener en cuenta los pormenores de los cms. Coincido plenamente respecto a (5). Las páginas son para los lectores, no para las máquinas. Lo que puedas ganar en posicionamiento “artificial” lo perderás en lectores (no, si son buenos lectores, de los que interesa conservar), y enlaces entrantes. Hazlo como a tí más te guste, y tendrás el público adecuado.

    Domingo, 22 de Abril/2007 @ 22:37

  4. Gravatar de publicidad en internet en mexico publicidad en internet en mexico nos comenta:

    Hola,
    Ya no se preocupen tanto por el contenido duplicado, el mismo Google hace referencia al tema diciendo que en el caso de los blogs, Google buscara la mejor opcion para mostrar el contenido a los usuarios de internet y no castigara por contenido duplicado que genera wordpress por ejemplo de forma automatica.

    Saludos.

    Lunes, 25 de Junio/2007 @ 18:50

  5. Gravatar de Armonth Armonth nos comenta:

    El problema es que, aunque no penalice, Google decide que contenido usa y si tienes 2 páginas repetidas desechará una y el posicionamiento obtenida en esa página desechada no será transmitido a la elegida.

    Martes, 26 de Junio/2007 @ 17:42

  6. Gravatar de Minimal Minimal nos comenta:

    ‘;
    } else {
    echo ‘’;} ? >

    Entonces esto está bien puesto?, he añadido espacios aquí para que no de problemas en los comentarios.

    Miércoles, 17 de Octubre/2007 @ 1:34

  7. Gravatar de Armonth Armonth nos comenta:

    No sé si te ha salido bien el código (al menos cosas comentadas no aparecen) pero vamos, lo repito:

    <?php if ( is_daily() || is_monthly() || is_category() ) {
    echo ‘la meta robots noindex,follow’;
    } else {
    echo ‘’; }>

    También se puede añadir en lugar de un echo vacío una etiqueta robots index,follow. Y claro: se pueden añadir cosas a esa lista ( || is_tag() || is…)

    Miércoles, 17 de Octubre/2007 @ 9:22

Comentarios cerrados