Publicado el Domingo 20 de Agosto del 2006 @ 19:09 por Armonth.
Los buscadores vistos desde fuera parecen un negocio redondo: las ganancias de Google en el segundo trimestre del 2006 superan los 700 millones de dolares netos, Yahoo es más modesto pero el aumento de ganancias en el último periodo del 2005 ronda un 47%.
Pero con algo de conocimiento podemos intuir que para mantener el modelo se requiere de una infraestructura importante, pensad en el despliegue de recursos que se hace:
A lo que quiero llegar es que, en la práctica indexar en un buscador una página cuesta dinero por lo tanto tener que indexar contenido duplicado aumenta los costes.
Por ello, buscadores como Google — y cada vez más — se están poniendo las pilas para evitar el contenido duplicado.
Tener mucho contenido duplicado puede hacer que una página en particular sea filtrada de los SERPs o — en casos más graves — la desaparición de un sitio entero de los resultados.
Antiguamente se consideraba contenido duplicado a tener bajo un mismo dominio muchas páginas iguales, actualmente afecta tanto en nuestro dominio como en otros.
Otros motivos — aparte del económico — por lo que no gusta el contenido duplicado puede ser el infringimiento del copyright, el mostrar páginas iguales en los resultados del buscador, etc.
El principal problema es que los servidores responden lo mismo desde www.sitio.com que desde sitio.com por lo que son vistos como dos webs distintas. Esto se soluciona redireccionando la versión con www. a la sin www. (o a la inversa, a vuestro gusto) por ejemplo www.sigt.net redirecciona a sigt.net por lo que buscadores como Google sólo ven una versión.
Por ejemplo en WordPress es habitual que cada entrada tenga su Trackback URI que redirecciona a la entrada original pero es visto por los buscadores cómo dos direcciones distintas, añadeles el atributo rel="nofollow".
También puedes aplicar la medida a los “Feed de está conversación” o a una hipotetica “versión para imprimir”.
Los agregadores RSS, en otro subdominio: Los agregadores RSS son una fuente interesante de conocimiento, pero en la práctica si muestran páginas HTML no son otra cosa que contenido duplicado, es mejor mantenerlos en un dominio o subdominio, quién sabe si en el futuro se pondrán más duros los buscadores: es mejor mantenerlos separarlos para que no afecten a tu sitio principal.
Vigila las páginas iguales pero con ID distinto: Suele ser habitual en especial en los foros que alguien vea una conversación y copie la URL en otro sitio pero con su identificador de usuario o también que seas tu el que añade un ID distinto a cada visita para monitorizarlas, en la práctica puedes tener cientos de copias iguales indexadas. Una solución es restringirlo mediante robots.txt.
Bueno, esto se está haciendo largo para ser una introducción, en otro momento continuaré con más entradas sobre el tema, en particular el asunto sobre el contenido duplicado y los agregadores RSS (planets) merecen una entrada solamente para ello ;)
hoy no se donde leí, que por estos motivos y como ejemplo yahoo recepciona al día app. 10 TeraBytes de información (resultados de búsquedas principalmente, los cuales los ing. de yahoo, deben clasificarla y sacar provecho de esta info.
Interesante. Habrá que tener en cuenta eso de www . :)
esta semana una de mis webs bajo de la posicion 1 en google a la 75 de golpe y con la misma keyword :S me queria matar y la unica explicacion que encontre es el contenido duplicado, tiene 1.100 paginas que lo unico que cambia entre ellas es la imagen que muestran..
tendre que poner en el robots.txt que no escanee el directorio con estas paginas