Evitando conteúdo duplicado em seu site ou blog
Eu sei que prometi colocar no próximo artigo a segunda parte do artigo Erros que impedem seu site de aparecer nos mecanismos de busca, mas por algumas razões decidi falar primeiro sobre o filtro do conteúdo duplicado em páginas, que se tornou um grande tópico para discussões em fóruns e blogs sobre SEO no momento, graças aos mecanismos de buscas que estão implementando cada vez mais filtros contra SPAM.
Só para explicar melhor o que é SPAM nas ferramentas de busca, são tentativas deliberadas de um site para enganar os mecanismos de busca, fazendo, consequentemente, com que mostrem conteúdo inapropriado, pobre ou redundante nos resultados de busca.
Muitas vezes esse comportamento é visto em páginas que são exatamente réplicas de outras com a única intenção de aumentar suas chances de conseguir um melhor posicionamento nos mecanismos de busca ou pelo menos ajudá-las a ter múltiplas listagens devido a presença de mais palavras-chave.
Acontece que os mecanismos de busca já se prepararam contra isso, e hoje a maioria deles têm um filtro que remove o conteúdo duplicado dos resultados de busca, ou seja penalizam o site infrator. Entretanto, essa penalidade pode significar :
- Apenas a redução de pontos de uma página na contagem total de relevância, ou seja, a redução do seu ranking(posicionamento) nos resultados de busca.
- Algumas duplicaçoes de conteúdo podem significar que as páginas são filtradas no momento que os mecanismos de buscas mostram os resultados de busca, e não há garantia de qual versão será mostrada e qual não será.
- Alguns sites e páginas não serão indexados, ou o robô do mecanismo de busca irá parar por completo a indexação de todas as páginas do site, porque ele encontrou várias cópias de uma mesma página em endereços(URLs) diferentes.Â
Como é dito em um post do Stuntdubl.com, muitos webmasters estão interessados em saber se esbarraram no “filtro do conteúdo duplicado”, ou se foram penalizados por conteúdo duplicado. Entretando, há chances de seu site não ter sido banido ou penalizado por conteúdo duplicado a não ser que você tenha muito pouco conteúdo em todo o seu site.
Por esse motivo, vou mostrar agora como os mecanismos de busca vêem o conteúdo duplicado e no final apresentarei algumas dicas de como evitar ou remediar o conteúdo duplicado em seu site. Vamos lá!
1. Descrição de produtos em sites de venda (E-Commerce)
Muitos sites de e-commerce quando vendem um produto, costumar usar o mesmo texto que está no site do fabricante ou produtor para a descrição daquele produto, o qual pode ser a mesma descrição de centenas de outras lojas de e-commerce que estão no mesmo mercado de competição e vendem o mesmo produto. Essa duplicação de conteúdo, apesar de ser difÃcil de apontar, também é considerada SPAM.
2. Sites com páginas identicas
Essas páginas, tal como sites que são identicos a outros sites são considerados conteúdo duplicado, logo isso é SPAM. Como exemplo disso temos:
- Sites de programas de afiliados, com o mesmo visual e conteúdo idêntico.
- Páginas de entrada(Doorway Pages), também conhecidas como páginas pontes. Muitas vezes, essas páginas são versões maqueadas das páginas de aterrisagem(landing page), que geralmente são identicas a outras páginas de aterrisagem. Uma página de aterrisagem pode ser entendida como uma página de resultados com forte conteúdo, para onde um visitante vai depois de clicar em um link dos resultados de busca ou anúncio. De modo geral, páginas pontes são criadas com o único objetivo de fazer SPAM com a indexação dos mecanismos de busca, inserindo resultados para frases particulares, com o propósito de mandar você para uma página diferente, geralmente uma página sem conteúdo algum para o que você procura no mecanismo de busca.
Como é dito nas Diretrizes para Webmasters do Google:
“Evite usar páginas “de passagem”, criadas apenas em função dos mecanismos de pesquisa, e outras técnicas “pré-fabricadas”, como programas de afiliação, que têm pouco ou nenhum conteúdo original.”
“Se o seu site participa de um programa de afiliação, certifique-se de que ele agrega valor. Forneça um conteúdo único e relevante, que dê aos usuários um motivo para visitar o seu site primeiro.”
3. Páginas alternativas para impressão
Muitos sites oferecem uma versão formatada para impressão. Acontece que essa versão tem o mesmo conteúdo da versão para o navegador. Se o webmaster não usa a indicação disallow no arquivo robots.txt, a meta tag robots “noindex”, ou o atributo rel=”nofollow” no link para impedir a indexação da versão para impressão, as duas versões aparecerão na indexação dos mecanismos de busca. Pronto, esta aà mais um conteúdo duplicado em seu site.
Maiores informações sobre arquivos robots.txt e meta tags robots “noindex”, você poderá encontrar nos artigos Robots.txt – controlando o que os mecanismos de busca NÃO devem indexar, Robots.txt na indexação de sites, Quais e como utilizar as Meta Tags na sua página e Como utilizar a meta tag robots e como o Googlebot a interpreta. Existe até uma ferramenta super interessante para gerar o arquivo robots.txt no site Marketing de Busca. Confiram: http://www.marketingdebusca.com.br/robots-txt/Â
Informações sobre atributos rel podem ser encontradas em Microformats: os atributos rel e rev
4. Páginas que reproduzem Feeds RSS através de scripts do lado do servidor(Server Side Scripts) como ASP e PHP
Quando feeds RSS são mostrados em páginas diferentes das do site original onde eles aparecem, e o texto originado desses feeds é mostrado através de um script do lado do servidor que entrega isso como html nas páginas, então isso pode ser considerado conteúdo duplicado. A solução para esse problema seria mostrar os Feeds usando uma linguagem do lado do cliente como Java Script, já que os mecanismos de buscas dificilmente indexam o código Java Script.
5. Distribuição de Artigos
Muitos pessoas criam artigos e os distribuem a outros sites, em troca de um link para o site original. Se você publicou um artigo legal e o tem espalhado por vários sites com links para o seu, é otimo, não? O risco é que alguns mecanismos de busca podem filtrar o artigo original e mostrar apenas 1 cópia distribuÃda desse artigo. Este tipo de conteúdo duplicado pode ser complicado, porque embora o Yahoo e MSN consigam determinar a origem do artigo original, e o coloque com mais relevância nos resultados de busca, outros mecanismos de busca como o Google, não o fazem, segundo experts no assunto, ou seja podem penalizar (filtrar, ou tirar dos resultados de busca) o site com o artigo original.
6. O Processo de Canonicalização (canonicalization) de URLs, que é o processo de decodificar e simplificar o formato de parâmetros HTTP, onde um mecanismo de busca pode ver a mesma página como páginas diferentes com diferentes URLs.
Â
Para melhorar o desempenho de vários algoritmos e outros motivos, os mecanismos de busca procuram converter uma URL que tem mais de uma representação possÃvel em URL canônica (canonical URL), que pode ser entendida como a “melhor” URL para a página. Acontece que como os mecanismos indexam melhor URLs que páginas, eles podem indexar todas essas representações possÃveis de uma URL sem notar que se tratam de uma mesma página.Â
Â
Por esse motivo, por exemplo, as seguintes URLs podem todas apontar para a mesma página e todas elas estarem indexadas e serem consideradas páginas diferentes pelos mecanismos de busca:Â
Â
http://www.exemplo.com/
https://www.exemplo.com/
http://www.exemplo.com/index.htm
https://www.exemplo.com/index.htm
http://exemplo.com/
https://exemplo.com/
http://exemplo.com/index.htm
https://exemplo.com/index.htm
http://www.exemplo.com/categoria/
http://www.exemplo.com/categoriaÂ
Â
A melhor forma de proteger seu site é redirecionar todas as formas possÃveis de suas URLs para uma URL padrão - uma URL canônica. Por exemplo:
- devemos redirecionar http://exemplo.com ou https://exemplo.com para http://www.exemplo.com, ou seja fazer com que toda URL que não for iniciada com www. seja redirecionada para a mesma com www. no inÃcio
- devemos redirecionar toda URL que termina sem a barra(Trailing Slash) para a mesma URL com a barra no final, por exemplo: http://www.exemplo.com/categoria para http://www.exemplo.com/categoria/ e assim por diante.
A melhor maneira para redirecionar páginas é utilizando um redirecionamento amigável aos mecanismos de busca(search engine friendly) conhecido como redirecionamento 301 (301 redirect). O artigo Redirecionar páginas - 301 Redirect fala bem sobre esse assunto e dá exemplos de scripts nas linguagens ASP, PHP e Apache.
Â
Se você tiver dificuldades, falarei detalhadamente sobre a Canonicalização de URLs, todas as possibilidades e soluções possÃveis para esse problema em um próximo artigo. Aguardem!
7. Páginas que mandam IDs de sessão para os mecanismos de busca, então o robot dos mecanimos indexam a mesma página com URLs diferentes.
Â
Alguns sites colocam um parâmetro de ID de sessão em suas URLs para rastrear visitantes em suas trajetórias pelas páginas do site. Se essa informação for acessada pelo robots dos mecanismos de busca, então esses robots podem indexar a mesma página com URLs diferentes, repetidamente. O site http://www.sears.com/ é um bom exemplo dissoÂ
Â
Como é dito nas Diretrizes para Webmasters do Google:
“Deixe que os bots de pesquisa rastreiem o site sem que IDs de sessão ou argumentos acompanhem suas trajetórias no site. Essas técnicas são úteis para monitorar um determinado comportamento do usuário, mas o padrão de acesso dos bots é completamente diferente. Se você usar essas técnicas, a indexação do site poderá ser incompleta, já que os bots talvez não consigam eliminar os URLs que têm aspecto diferente, mas que apontam para a mesma página.”
Â
8. Páginas com excesso de parâmetros um suas URLs, logo o robot dos mecanimos podem indexar a mesma página com URLs diferentes.
Alguns sites utilizam parâmetros demais em suas URLs. Imaginem uma página com a seguinte URL por exemplo:
http://www3.jcpenney.com/jcp/Products.aspx?
DeptID=469
&CatID=29841
&CatTyp=DEP
&ItemTyp=G
&GrpTyp=SIZ
&ItemID=0e273be
&ProdSeq=2
&Cat=tees+%26+tanks
&Dep=
&PCat=
&PCatID=28237
&RefPage=ProductList
&Sale=
&ProdCount=32
&RecPtr=
&ShowMenu=
&TTYP=
&ShopBy=0
&RefPageName=CategoryAll.aspx
&RefCatID=28237
&RefDeptID=469
&Page=1
&CmCatId=469|28237|29841
É possÃvel para os mecanismos de busca indexarem esta página de diferentes formas, trocando a ordem dos parâmetros.
Como é dito nas Diretrizes para Webmasters do Google:
“Se você decidir usar páginas dinâmicas (aquelas em que o URL contém um caractere “?”), saiba que nem todo spider do mecanismo de pesquisa rastreia as páginas dinâmicas tão bem quanto as estáticas. É aconselhável que os parâmetros sejam poucos e curtos. “
9. Páginas que têm muitos elementos em comum, ou elementos muito parecidos de uma página para outra, principalmente o tÃtulo(tag title) e a meta tag description
Muitos sites insistem em colocar o mesmo tÃtulo e meta tag description em todas as páginas do site. Um problema muito comum se encontra em sites de e-commerce, porque muitos utilizam gerenciadores de conteúdo que não permitem meta tags descriptions diferentes de uma página para outra.
Maiores detalhes sobre meta tags e a tag title você encontra em http://www.bitpt.com/index.php/content/view/40/54/.
10. Uso da mesma página ou conteúdo parecido em domÃnios ou subdomÃnios diferentes
Usar diferentes domÃnios e subdomÃnios é uma boa maneira de direcionar seus visitantes a variados tipos de conteúdos, produtos ou serviços. Mas duplicar conteúdo de um para o outro, pode fazer com que algumas páginas não sejam indexadas pelos mecanismos de busca, ou sejam retiradas(filtradas) dos resultados de busca.
Como é dito nas Diretrizes para Webmasters do Google:
“Não crie múltiplas páginas, subdomÃnios ou domÃnios com conteúdo muito repetido.”
11. Sites espelhados (mirrored sites)
Espelhos de sites são muito popular atualmente. Muitos sites disponibilizam uma fonte (site) alternativa para os visitantes acessarem seu conteúdo, devido a variadas razões como volume grande de visitas no site (para balancear o carregamento, e evitar sobrecarga no servidor), para permitir downloads mais rápidos para usuários de uma região geográfica especÃfica, etc. O site http://sourceforge.net/ é um bom exemplo disso.
A wikipedia tem um artigo que fala muito bem sobre sites espelhados.
Os mecanismos de busca estão aptos a reconhecer conteúdo duplicado em sites espelhados e ignorar alguns que encontrar na indexação.
12. Violação de direito autoral
Quando alguém copia o conteúdo de seu site, pode fazer com que suas páginas sejam filtradas e não apareça nos resultados de busca. Existe um site chamado Copyscape, que pode te ajudar a encontrar réplicas de suas páginas na internet.
Â
Infelizmente, mesmo que suas páginas não tenham a intenção de fazer spam, mas tem conteúdo similar suficiente, pode ser considerado spam pelos mecanismos de busca.
Há muitas coisas que você pode fazer para evitar o filtro do conteúdo duplicado:
- Primeiro, você deve checar se há conteúdo duplicado em suas páginas. Utilizando o Verificador de Páginas Similares, você poderá observar a similaridade entre duas páginas e tentar fazê-las o mais diferente possÃvel. Através da digitação de URLs de duas páginas, essa ferramenta compara estas páginas e diz o quanto elas são similares.
- Se você usa artigos distribuÃdos por outros autores no conteúdo de suas páginas, leve em consideração o quanto o artigo é relavante para a sua página, ou o site como um todo, e adicione seu comentário para ele. Isso pode ser o suficiente para evitar o filtro do conteúdo duplicado.
- Se você tem um site de e-commerce, você deve escrever descrições única e originais para seus produtos. Isso pode ser difÃcil caso tenha muitos produtos cadastrados em seu site, mas é realmente necessário para evitar o filtro do conteúdo duplicado.
- Nunca confie em sites de afiliados que são idênticos a outros sites, ou criam páginas de entrada idênticas. Isso pode colocar todo o seu site em perigo.
- Se você tem um blog com wordpress, existe um bom artigo com dicas sobre o assunto Não permita a indexação de conteúdo duplicado no Wordpress, mas tenho algumas coisas a acrescentar sobre isso, que vou deixar para um próximo artigo.
Espero ter ajudado vocês, e se faltou alguma coisa por favor deixem um comentário.
Referência:
Parâmetros não validados
http://www.webconfs.com/duplicate-content-filter-article-1.php
http://www.seobythesea.com/?p=212
http://en.wikipedia.org/wiki/Canonicalization
http://en.wikipedia.org/wiki/Doorway_page
http://en.wikipedia.org/wiki/Landing_page
Compare Preços de: MP3, iPod, celulares, notebooks, câmeras no Buscapé.
4,243 Views
Veja Também
- Mas o que é SEO?
- Erros que impedem seu site de aparecer nos mecanismos de busca - Parte II
- Erros que impedem seu site de aparecer nos mecanismos de busca - Parte I
- Melhorando a indexação de seu site ou blog com URLs amigáveis (friendly urls)
- Liberada nova atualização do Pagerank
Compartilhe ou Adicione aos Favoritos





[…] no mesmo artigo - Evitando conteúdo duplicado em seu site ou blog - o autor dá um exemplo que se aplica perfeitament ao plágio, embora o caso do exemplo seja […]