Что такое дублированный контент? Определение и решение для дублированного контента

  1. Как Google идентифицирует дублированный контент?
  2. Штрафует ли Google дублированный контент штрафами?
  3. Рейтинг URL на запрос усложняется
  4. Google должен сэкономить время
  5. Google должен сохранить емкость
  6. Google и признание авторских прав на контент
  7. Полезно для пользователя> Канонический день
  8. Не полезно для пользователя> 301 редирект
  9. Google Советы по предотвращению дублирования контента

Обработка или предотвращение дублирования контента находится в SEO Теория одной из основных тем. Наиболее важные поисковые системы могут очень хорошо распознавать дублирующийся контент и частично отфильтровывать. Тем не менее, это затрудняет сканирование и оценку контента.

Внутренний дублированный контент - это очень похожий или идентичный контент в домене. Этот тип дублированного контента часто является партнером по управлению контентом.

Системы структурируют контент и распределяют его по URL. Так что имеет техническое образование. Особенно уязвимы системы магазинов, а также редакционные CMS. Вот несколько примеров дублированных источников контента:

  • Обзор тегов страницы
  • Обзор Фильтр страницы
  • внутренние страницы результатов поиска
  • Категория страницы
  • Отдельные страницы товара, если они относятся к разным категориям
  • Сообщения, если они относятся к разным категориям
  • Пагинация ( подробнее об этом здесь или в следующем видео)

По словам Google, этот вид дублированного контента обычно не кажется большой проблемой. Акцент делается на «сияние». Мы снова и снова видим, что имеет смысл поддерживать Google в определении приоритетов как внутренних, так и внутренних URL-адресов. дублированный контент активно избегать

Внешний дублированный контент означает очень похожий или идентичный контент в разных доменах. Этот тип дублированного контента, по-видимому, представляет большую проблему для Google, чем внутренний дублированный контент. Примеры, например,

  • Поглощение описания изделий производителя
  • Содержание Кража
  • Соскребание содержимого ( подробнее об этом здесь )
  • Запись контента через RSS-каналы
  • Распространение пресс-релизов
  • Использование контента через партнерские страницы

По словам Мэтта Каттса, идентичный контент в разных TLD (доменах верхнего уровня), например, для разных стран, не является проблемой для Google.

Чтобы избежать повторяющихся проблем с контентом, вызванных идентичным контентом на мобильных устройствах Целевые страницы Катц советует разные Google боты " Google Bot мобильный »для доставки мобильной страницы и стандартного Google Bot поставить нормальную страницу.

Особый случай - это контент, например информация о продукте, который импортируется через RSS-канал. Это содержимое не является собственным содержимым и обычно отображается на множестве других сайтов. Чистая очистка и импорт иностранного контента не предлагает пользователю никакой добавленной стоимости.

Как Google идентифицирует дублированный контент?

Google идентифицирует и фильтрует дублированный контент технически в трех точках в процессе сканирования и индексации.

  • Когда планирование
  • В индексации
  • в результатах поиска
Обработка или предотвращение дублирования контента находится в   SEO   Теория одной из основных тем

Источник: Процесс сканирования и индексации / Google

Штрафует ли Google дублированный контент штрафами?

В большинстве случаев Google не наказывает за дублирующийся контент штрафом. Там нет штрафов за внутренний дубликат контента. Есть несколько случаев внешнего дублированного контента, где Google объявляет штрафы:

Google утверждает, что не индексирует дублированный контент и не отображает его в результатах поиска:

Google стремится индексировать и отображать страницы с разрозненной информацией.

Это доказано с целью принести пользователю добавленную стоимость. Google всегда рад следовать этому аргументу. Но есть и другие причины:

Рейтинг URL на запрос усложняется

Если Google индексирует несколько URL-адресов с одинаковым содержанием, алгоритм не обязательно упрощает определение тематической близости к введенному вами поисковому запросу Если Google индексирует несколько URL-адресов с одинаковым содержанием, алгоритм не обязательно упрощает определение тематической близости к введенному вами поисковому запросу. Другими словами, может случиться, особенно с внутренним, почти дублирующимся контентом, что происходит каннибализация ключевого слова. Google пишет:

Например, если ваш сайт содержит «обычную» и печатную версию каждой статьи, и ни одна из этих версий не заблокирована метатегом noindex, эта фильтрация означает, что мы выбираем одну из них для листинга.

Тем не менее, я считаю, что если Google не предоставит четкого представления, какой из URL-адресов в настоящее время является наиболее многозначным для поиска, это может привести к проблемам с уникальным назначением. Помимо того факта, что Google, возможно, выбирает худшее для пользовательской стороны, тем самым пользовательские сигналы хуже и тем самым снова страдает ранжирование.

Даже повторяющиеся заголовки страниц или фрагменты не дают Google четких сигналов о том, какой URL является наиболее релевантной страницей для определенного поискового запроса.

Google должен сэкономить время

Google необходимо заново открывать и периодически сканировать контент на десятках миллионов новых доменов и URL-адресов. Доступны только ограниченные по времени возможности. Предоставление Google слишком большого количества дублированного внутреннего содержимого может привести к тому, что Google преждевременно прекратит сканирование и не будет индексировать важные URL-адреса.

Google должен сохранить емкость

Хотя Google имеет огромные возможности хранения, они конечны. По этой причине Google не заинтересован в сохранении памяти посредством неактуальной информации, такой как дублированный контент.

Google не будет оштрафовывать какой-либо веб-сайт или URL за дублирующийся контент. Тем не менее, Google оставляет за собой право вручную штрафовать сайты с дублированным контентом в случае подозрения на манипуляцию:

В тех редких случаях, когда мы считаем, что дублированный контент отображается с целью манипулирования рейтингом или введения в заблуждение наших пользователей, мы вносим исправления в индекс и рейтинг этих сайтов. В результате эти сайты могут быть ранжированы ниже в результатах поиска или даже удалены из индекса Google и могут больше не появляться в результатах поиска.

Тем не менее, дублирования следует избегать как внешне, так и внутри.

Google и признание авторских прав на контент

Это проблема, с которой мы сталкиваемся снова и снова в повседневном бизнесе SEO. Основной вопрос: «Как Google распознает, кто является автором контента или как Google распознает его копию?» Скорее всего, Google идентифицирует того, чей контент индексируется первым.

Это может привести к проблемам, особенно с новыми сайтами, например Google Bot посещаются реже, потому что они внешне не так хорошо связаны. Если другие сайты берут контент и чаще от Google Bot Может быть посещен эффект, что эти сайты рассматриваются как исходный источник, а вы только в качестве копии. В результате вы получаете собственный контент за фактической копией. Досадно!

Поэтому, прежде чем предоставлять информацию о продукте, например, для сравнения цен по фиду продуктов, убедитесь, что ваш собственный контент уже проиндексирован.

Кроме того, вы должны следить за тем, чтобы продвигать свою собственную аудиторию, например, через социальные сети и свои собственные внешние ссылки, чтобы робот Google часто посещал сайты, чтобы проиндексировать новый контент. И это снова работает через высококачественный контент и / или отдельную сеть.

Первоочередной задачей должно быть создание собственного уникального контента, чтобы цели поиска пользователь доволен. Как Google распознает это? Уникальность Google распознает путем автоматического сравнения содержимого и идентичных частей текста друг с другом. Здесь недостаточно преобразовать отдельные предложения или слова. Является ли содержание цели поиска удовлетворен Google распознает пользовательские сигналы, такие как длительность пребывания или показатель отказов.

Поэтому для магазинов важно создавать страницы для отдельных товаров, которые, например, отражают их собственные мнения или выводы или содержат больше информации, чем описания других товаров.

Сказать, что кусковое, что скопированное, отсканированное или отрепетированное содержимое - это плохо, неправильно. Имея коллекцию контента из разных источников, вы определенно можете повысить ценность для пользователя, красиво отредактировав его и добавив свои собственные представления и информацию. В то же время я бы не сказал, что вам следует обратить внимание как минимум на х% уникального контента здесь. Это всегда помогает принять точку зрения пользователя и спросить, помогает ли предложенный контент решить проблему или ответить на вопрос лучше, чем уже существующие страницы.

Кроме того, страницы с тегами с фиксированной ставкой или страницы с внутренними результатами поиска являются дублирующим контентом. Если вам удастся обогатить их уникальным контентом, они смогут получить очень хороший рейтинг. T3n делает это:

T3n делает это:

Чтобы использовать кавычки и любые возникающие проблемы с DC, Мэтт Каттс сказал:

Но как вы решаете проблемы с дублированным контентом технического характера, вызванные CMS? Чтобы признать эти helfentweilweise бесплатно гусеничный как Кричащая SEO лягушка или платные инструменты, такие как MOZ , Onpage.org , Sistrix или Searchmetrics, ваша собственная страница гусеничный предложение. Если вы анализируете результаты, вы должны выявить закономерности, почему и как CMS генерирует DC. Следующее, что нужно сделать, - это оценить, являются ли эти страницы полезными для пользователя, поэтому они должны сохраняться или не нужны. Соответственно есть два подхода.

Полезно для пользователя> Канонический день

С помощью канонического тега Google обращается к содержимому URL-адреса главной или исходной страницы содержимого, но URL-адреса остаются видимыми и могут использоваться пользователем. Google indexer Больше здесь на Google

Не полезно для пользователя> 301 редирект

301 перенаправления гарантируют, что пользователи будут перенаправлены на действительно важную страницу. При этом пользователь больше не получает содержимое перенаправленного URL-адреса. Это можно настроить с помощью правил перезаписи htaccess или на стороне сервера. M больше на Google ,

В обоих решениях важные сигналы для рейтинга Google, такие как рейтинг страницы, передаются без потерь.

Еще один способ исключить индексирование URL-адресов с дублированным содержимым - использовать функцию исключения параметров URL-адресов. Google Search Console и использование мета-тэга noindex.

Google Search Console   и использование мета-тэга noindex

Исключить URL-адреса параметров из консоли поиска Google

О консоли поиска Google может сообщить Google, какие URL с определенными параметрами не хотят включаться в индекс. Особенно, если в индексе уже много нежелательных URL-адресов, вам следует использовать эту функцию, но только в сочетании с уже описанными решениями.

Другой вариант - использовать метатег-тег «noindex», чтобы запретить Google индексировать конкретный URL.

Google Советы по предотвращению дублирования контента

Следующие советы и решения представлены Джоном Мюллером в видео ниже:

  • Создавайте тематически уникальные страницы, которые стоят отдельно
  • Обратите внимание на последовательность также во внутренней связи
  • Используйте noindex для других неразрешимых проблем с дублированным контентом
  • Некоторые типы дублированного контента являются нормальными
  • Используйте только один URL для каждого контента
  • Избегайте ненужных вариаций URL
  • Используйте настройки в консоли поиска (предпочитаемый домен, обработка параметров URL ...)
  • При необходимости используйте геотаргетинг и hreflang
  • Синдикат тщательно
  • Минимизируйте повторяющиеся текстовые модули
  • Как избежать индексации страниц-заполнителей или страниц без содержимого
  • Минимизируйте похожий контент, например, путем слияния по URL

Узнайте больше в Справке Google

Google не рекомендует следующие решения для удаления дублирующегося контента:

  • Robots.txt: Google явно не рекомендует использовать robots.txt для исключения дублирующегося контента, так как это не дает самому Google никакого способа получить обзор.
  • Не просто переписывайте контент, чтобы избежать дублирования контента. Это спам!
  • Не используйте инструмент для удаления URL. Это приводит только к тому, что URL больше не появляется в результатах поиска.

Хотя Google любит утверждать, что дублированный контент в большинстве случаев не является поводом для наказания, в целом, решение проблем с дублирующимся контентом является очень важной частью работы SEO, чтобы облегчить Google правильную оценку контента дать желаемые сигналы. Тогда не может быть недопонимания между нами и алгоритмом, и гармония сохраняется 🙂

Здесь я отвечу на вопросы читателей о дубликатах контента. Эта часть постоянно обновляется.

Вполне нормально, что статьи предлагаются несколькими участниками рынка. Самый простой способ - перенять описание товара у производителя. Можно предположить, что конкуренты отдают приоритет этому простому способу. Поэтому следует позаботиться о том, чтобы текст не принимался один на один, в противном случае создается дублированный контент. Нужно попытаться выделиться среди конкурентов, создав ориентированное на пользователя описание, которое предлагает больше, чем конкуренты. Например, вы можете описать пример приложения или добавить видео о том, как использовать. Хитрость заключается в том, чтобы перевести описание статьи в пользователя.

Если вам нужно сделать это для десятков или даже сотен тысяч сообщений, вы можете использовать системы, которые могут автоматически создавать масштабируемые описания отдельных статей. Подробнее об этом в нашей серии Content Compass Может ли программное обеспечение заменить копирайтеры? Феликс Вандервальд от AX Semantics.