Suponha que você tenha um site. E seu site possui páginas, que você anuncia através de um feed RSS, como por exemplo, o Feed RSS deste site, e também através de um boletim enviado por email periodicamente.
Até aí, tudo ótimo.
Até que chega um momento em que você decide contabilizar os usuários que chegam no seu site através do feed, ou através dos boletins.
Uma alternativa bastante simples é adicionar uma variável qualquer no fim da URL das páginas anunciadas, para que seu site “saiba” de onde veio. Por exemplo, digamos que eu tenha escolhido esta página para anunciar. A URL desta página é:
http://www.ataraxia.com.br/posts/evitando-conteudo-duplicado
Para diferenciar, eu poderia usar URLs como as abaixo:
http://www.ataraxia.com.br/posts/evitando-conteudo-duplicado?rss
http://www.ataraxia.com.br/posts/evitando-conteudo-duplicado?email
Desta forma, o site tem como saber de onde o visitante veio, bastando colocar no feed o sufixo “?rss”, e nos boletins o “?email”. O site checaria se a URL contém um desses sufixos, e incrementaria um contador em algum lugar (banco de dados, arquivo, etc).
O grande problema, é que uma vez que os buscadores encontrem essas URLs alternativas, irão notar que o conteúdo é o mesmo para as 3 páginas, e existe a chance de que seu site seja penalizado por isso.
Uma das formas de se lidar com isso é usar a tag <link> para informar qual é a URL “canônica” da página atual. A tag é simples:
<link rel="canonical" href="http://www.example.org/caminho-da-pagina" />Esta tag é a mesma nas 3 páginas, e indica ao buscador qual é a URL canônica da página. Seguindo o nosso exemplo, nas 3 páginas acima, teríamos a tag:
<link rel="canonical" href="http://www.ataraxia.com.br/posts/evitando-conteudo-duplicado" />Claro, esta tag serve como uma “dica” para os buscadores, e eles podem usá-la ou não. Na maioria das vezes, ela será usada.
E embora eu tenha dado o exemplo de páginas anunciadas por email ou feed RSS, a utilidade vai bem além disso.
Se você tem um site, digamos de e-commerce, e tem uma página que ordena os produtos por preço, popularidade, etc, e essa ordenação é passada como parâmetro na URL, o conteúdo da página será essencialmente o mesmo, porém com a posição diferente (dependendo da ordenação). O buscador pode entender que a página é duplicada. Uma tag <link> como esta, apontando para a URL sem ordenação resolveria o problema.
Feed RSS para os comentários deste artigo.
June 23rd, 2009 às 02:48
É, a tag link tão menosprezada é de uma importância homérica!
June 23rd, 2009 às 02:53
[...] (texto após o ?) a URL para trackear a origem de algumas campanhas de email marketing e feeds e utilizou a tag link com o atributo canonical para evitar ter seu conteúdo dado como duplicado pelos buscadores que [...]
January 14th, 2010 às 13:44
[...] Evitando conteúdo duplicado [...]