Введение в веб-сканер

  1. Зачем сканировать сайт?
  2. Как это работает ?
  3. Вы упомянули бюджет сканирования, но что это?
  4. Оптимизация бюджета сканирования
  5. Ползет против соскабливания?

Когда я говорю с людьми о том, что я делаю и что такое SEO, они обычно получают это довольно быстро, или они действуют так, как делают. Хорошая структура сайта, хороший контент, хорошая поддержка обратных ссылок. Но иногда, это становится немного более техническим, и я в конечном итоге говорю о поисковых системах, просматривающих ваш сайт, и я обычно теряю их ...

Зачем сканировать сайт?

Сканирование в Интернете началось с картирования интернета и того, как каждый веб-сайт был связан друг с другом. Он также использовался поисковыми системами для обнаружения и индексирования новых онлайн-страниц. Сканеры также использовались для проверки уязвимости веб-сайта путем тестирования веб-сайта и анализа, если была обнаружена какая-либо проблема.

Теперь вы можете найти инструменты, которые сканируют ваш сайт, чтобы предоставить вам информацию. Например, OnCrawl предоставляет данные, относящиеся к вашему контенту, и SEO или Majestic на месте, что дает представление обо всех ссылках, указывающих на страницу.

Сканеры используются для сбора информации, которую затем можно использовать и обрабатывать для классификации документов и предоставления информации о собранных данных.

Сборка сканера доступна каждому, кто знает немного кода. Однако создать эффективный гусеничный ход сложнее и требует времени.

Как это работает ?

Чтобы сканировать веб-сайт или веб-сайт, сначала необходимо ввести точку входа. Роботы должны знать, что ваш сайт существует, чтобы они могли прийти и посмотреть на него. В те дни вы бы отправляли свой сайт в поисковые системы, чтобы сообщить им, что ваш сайт был в сети. Теперь вы можете легко создать несколько ссылок на ваш сайт и вуаля, вы в курсе!

Как только сканер попадает на ваш сайт, он построчно анализирует весь ваш контент и переходит по каждой из имеющихся у вас ссылок, внутренних или внешних. И так до тех пор, пока он не попадет на страницу, на которой больше нет ссылок, или если он обнаружит ошибки, такие как 404, 403, 500, 503.

С технической точки зрения сканер работает с начальным числом (или списком) URL-адресов. Это передается сборщику, который будет извлекать содержимое страницы. Затем этот контент перемещается в экстрактор ссылок, который будет анализировать HTML и извлекать все ссылки. Эти ссылки отправляются как процессору Store, который, как следует из его названия, сохраняет их. Эти URL-адреса также будут проходить через фильтр страниц, который будет отправлять все интересные ссылки в модуль просмотра URL-адресов. Этот модуль определяет, был ли URL уже просмотрен или нет. Если нет, он отправляется сборщику, который будет извлекать содержимое страницы и так далее.

Имейте в виду, что некоторые материалы невозможно сканировать, например, Flash. GoogleBot теперь правильно сканирует Javascript, но то и дело не ползет , Изображения не являются контентом, который Google может технически сканировать, но он стал умным достаточно, чтобы начать понимать их !

Если роботам не скажут обратного, они будут ползти все. Именно здесь файл robots.txt становится очень полезным. Он сообщает сканерам (может быть конкретным для каждого сканера, например, GoogleBot или MSN Bot - узнайте больше о ботах Вот ) какие страницы они не могут сканировать. Допустим, например, что у вас есть навигация с использованием фасетов, возможно, вы не захотите, чтобы роботы сканировали их все, поскольку они имеют небольшую добавленную стоимость и будут использовать бюджет сканирования. Использование этой простой линии поможет вам предотвратить сканирование любого робота

Пользователь-агент: *
Disallow: / folder-a /
Это говорит всем роботам не сканировать папку А.
Пользователь-агент: GoogleBot
Disallow: / репертуар-б /
С другой стороны, это означает, что только Google Bot не может сканировать папку B.

Вы также можете использовать индикацию в HTML, которая говорит роботам не переходить по определенной ссылке, используя тег rel = ”nofollow” , Некоторые тесты показали, что даже использование тега rel = ”nofollow” в ссылке не будет препятствовать Googlebot следовать за ним. Это противоречит его назначению, но будет полезно в других случаях.

Вы упомянули бюджет сканирования, но что это?

Допустим, у вас есть сайт, который был обнаружен поисковыми системами. Они регулярно посещают сайт, чтобы узнать, сделали ли вы какие-либо обновления на своем сайте и создали ли новые страницы.
Каждый веб-сайт имеет свой собственный бюджет обхода в зависимости от нескольких факторов, таких как количество страниц на вашем веб-сайте и его работоспособность (например, если в нем много ошибок). Вы можете легко получить представление о своем бюджете сканирования, войдя в консоль поиска.

Ваш бюджет сканирования будет фиксировать количество страниц, которые робот сканирует на вашем веб-сайте при каждом посещении. Он пропорционально связан с количеством страниц на вашем сайте и уже просканирован. Некоторые страницы сканируются чаще, чем другие, особенно если они регулярно обновляются или если они связаны с важными страницами.

Например, ваш дом - это ваша главная точка входа, которая будет сканироваться очень часто. Если у вас есть блог или страница категории, они будут часто сканироваться, если они связаны с основной навигацией. Блог также будет часто сканироваться, поскольку он регулярно обновляется. Сообщение в блоге может часто сканироваться, когда оно впервые публикуется, но через несколько месяцев оно, вероятно, не будет обновлено.

Чем чаще сканируется страница, тем важнее робот считает ее важной по сравнению с другими. Это когда вам нужно начать работать над оптимизацией бюджета сканирования.

Оптимизация бюджета сканирования

Чтобы оптимизировать бюджет и убедиться, что ваши наиболее важные страницы привлекают внимание, которого они заслуживают, вы можете проанализировать журналы сервера и посмотреть, как сканируется ваш сайт:

  • Как часто просматриваются ваши главные страницы?
  • Можете ли вы увидеть, что менее важные страницы просматриваются больше, чем другие, более важные?
  • Часто ли роботы получают ошибку 4xx или 5xx при сканировании вашего сайта?
  • Встречаются ли роботы с ловушками пауков? (Мэтью Генри написал отличная статья о них)

Анализируя ваши журналы, вы увидите, какие страницы, которые вы считаете менее важными, часто сканируются. Затем вам нужно углубиться в структуру внутренней ссылки. Если он сканируется, на него должно быть много ссылок, указывающих на него.

Вы также можете поработать над исправлением всех этих ошибок (4xx и 5xx) с помощью OnCrawl. Это улучшит возможности сканирования и пользовательский опыт, это беспроигрышный вариант.

Ползет против соскабливания?

Ползание и соскабливание - это две разные вещи, которые используются для разных целей. Просматривая веб-сайт, вы попадаете на страницу и переходите по ссылкам, которые вы найдете при сканировании контента. Затем сканер переместится на другую страницу и так далее.

С другой стороны, скрапинг - это сканирование страницы и сбор конкретных данных со страницы: тег заголовка, мета-описание, тег h1 или определенная область вашего сайта, например, список цен. Скреперы обычно действуют как «люди», они игнорируют любые правила из файла robots.txt, сохраняют в формах и используют пользовательский агент браузера, чтобы их не обнаружили.

Сканеры поисковых систем обычно действуют как сборщики данных, так как им необходимо собирать данные, чтобы обработать их для своего алгоритма ранжирования. Они не ищут конкретных данных для сравнения со скребком, они просто используют все доступные данные на странице и даже больше (время загрузки - это то, что вы не можете получить со страницы). Сканеры поисковых систем всегда идентифицируют себя как сканеры, чтобы владелец веб-сайта мог знать, когда он в последний раз посещал их веб-сайт. Это может быть очень полезно, когда вы отслеживаете реальную активность пользователя.

Итак, теперь вы знаете немного больше о сканировании, о том, как оно работает и почему это важно, следующий шаг - начать анализ журналов сервера. Это даст вам глубокое понимание того, как роботы взаимодействуют с вашим сайтом, какие страницы они часто посещают и сколько ошибок они встречают при посещении вашего сайта.

Для получения дополнительной технической и исторической информации о веб-сканере вы можете прочитать « Краткая история веб-сканеров »

Зачем сканировать сайт?
Как это работает ?
Вы упомянули бюджет сканирования, но что это?
Зачем сканировать сайт?
Как это работает ?
Вы упомянули бюджет сканирования, но что это?
Можете ли вы увидеть, что менее важные страницы просматриваются больше, чем другие, более важные?
Часто ли роботы получают ошибку 4xx или 5xx при сканировании вашего сайта?
Встречаются ли роботы с ловушками пауков?
Ползет против соскабливания?