Как проверить, сколько страниц в индексе поисковых систем

сколько-страниц-в-индексеЛогические рассуждения на тему: «Как проверить, сколько страниц в индексе поисковых систем».

И числовые расчеты, которые показывают, как я сводила баланс, изучая, что проиндексировано, а что нет и почему.

Я решила разобраться с этим более пристально и разложить все по полочкам.

Рассмотрим на примере Яндекса и Google.

Проблема индексирования, или что такое индексы.

Проблема индексирования постоянно волнует владельца любого сайта. Когда страницы сайта попадают в индексы поисковых систем, это обеспечивает стабильный и, что самое главное, бесплатный трафик. Страницы участвуют в поисковой выдаче, а посетители сами ищут информацию и попадают на Ваш сайт. Это же здорово!

Что из себя представляет процесс индексирования сайта или индексация (как мы привыкли говорить в обиходе) я уже рассказывала. Если кто еще не знает в чем суть, стоит перейти по предложенной ссылке и обязательно ознакомиться. Для самообразования узнать это будет очень даже полезно.

На начальном этапе каждый вебмастер переживает о том, чтобы поисковые системы скорее заметили и начали индексировать вновь созданный сайт.

Для этого ссылку на сайт (Url сайта) добавляют в специально предназначенные для этого аддурилки – информируют поисковые системы о своем новоиспеченном творении.

Но, если с Google обычно проблем не возникает, то с Яндексом они иногда случаются. И многие пытаются разобраться, почему Яндекс не индексирует сайт?

Ну, вот, наконец, сайт начинает стабильно индексироваться.

Теперь владельцев волнует уже то, чтобы каждая новая статья попадала в поиск как можно быстрее, и они мечтают, чтобы сайт посещал, так называемый «быстроробот».

Для этого советуют добавлять информацию на свой сайт регулярно и размещать ссылки на новые статьи в социальных сетях, особенно в Твиттере и Google+.

Это можно легко сделать, использую кнопки социальных сетей для сайта.

Но жизнь идет, алгоритмы меняются. Если сайт раньше посещал быстроробот, и статья попадала в поиск Яндекса в течение нескольких часов, то последнее время (ноябрь 2014) многие вебмастера жалуются, что на это уходит несколько дней.

Я тоже заметила, что после того, как я стала добавлять информацию на страницу оригинальные тексты в сервисе вебмастеров Яндекса перед публикацией (что мне настоятельно посоветовали делать специалисты этого поисковика), новая статья попадает в поиск только при очередной поисковой выдаче Яндекса. Как раз несколько дней и проходит.

Получается что-то типа того: ваш текст уже у нас в кармане, вы и так от нас никуда не денетесь, и спешить нам не обязательно.

А как же можно в таком случае определить, что статья уже проиндексирована?

Я делаю это с помощью расширения браузера Google Chrome RDS bar.

Такое же расширение установлено у меня и на браузере Opera. Оно позволяет для любой открытой страницы определить, проиндексирована она или нет.

Как самостоятельно добавить страницу в индекс Google.

Google в этом вопросе более оперативен. Он позволяет каждому принудительно добавлять новую страницу в индекс. Это можно сделать в сервисе для вебмастеров Google. Там нужно сначала выбрать вкладку «Посмотреть, как Googlebot», где затем появляется возможность самостоятельно добавить страницу в индекс, если указать ее Url.

посмотреть-как-Googlebot

Как говорится: и вам хорошо, и нам не плохо.

Таким способом можно добавлять до 500 страниц в месяц.

А как обстоят дела с количественными показателями индексации для сайта?

Сколько страниц в индексе поисковых систем?

Это проще всего посмотреть в сервисах для вебмастеров поисковых систем.

Допустим, у меня на сайте 106 статей и 10 страниц (это видно в административной панели сайта) плюс Главная страница, или лента новостей. Дальше легко подсчитать (106+10+1=117). Значит, всего будет 117 Url на sitemap.

Вспоминаем, что карту сайта для поисковых систем (sitemap) для WordPress мы строили с помощью специального плагина, а отобразить ее можно по ссылке, если к Url сайта после косой добавить sitemap.xml. Можете попробовать посмотреть таким образом свою карту сайта для роботов.

Сколько страниц в индексе Яндекса?

Итак, есть 117 Url готовых для индексации, а в сервисе вебмастеров Яндекса у меня почему-то числится, что в индексе находятся 141 страница. Откуда же берутся остальные?

сколько-страниц в индексе поисковы систем

На расшифровке показано, что еще учтено.

сколько-страниц-в-индексе-Яндекса

Получается, что добавляются еще 13 из 28 страниц категорий.

На сайте можно открыть каждую рубрику (категорию) и просмотреть, сколько в ней числится страниц на данный момент, а потом все эти страницы просуммировать. Так можно подсчитать, сколько всего у вас страниц категорий.

Дальше идут 9 из 21 страниц, которые находятся в ленте новостей непосредственно за Главной страницей.
И еще 1 тег как-то сюда затесался.

Каким образом были выхвачены именно эти 13 страниц категорий и 1 тег в придачу, я для себя внятно объяснить не смогла.

А вот откуда взялись конкретно эти 9 из 21-й страницы ленты новостей, так это как раз прояснилось.

Если открыть главную страницу моего сайта по ссылке https://tvoy-internet.ru, то внизу видна строка постраничной навигации, организованная у меня с помощью специального плагина.

9-стрвниц-за-главной

Если внимательно посмотреть на эту строку, то становится понятным, что она, кроме ссылки на первую страницу Главной с расположенными на ней пятью статьями (что задается при настройке WordPress) имеет ссылки еще на 9 страниц.

Их можно перечислить: 2, 3, 4, 5, 6, 7, 8, 20 и последняя (в данный момент это у меня страница 22).

Получается, что на сайте есть Главная и еще 21 страница ленты новстей за ней – всего 22.

Мы видим, что явно указаны ссылки на 9 страниц из 21-й в ленте. Наверное, поэтому они и попали в индекс.

Но для нас, прежде всего, важно, чтобы в поиске находились те самые 117 страниц с полезной информацией, которые мы продвигаем (они зафиксированы в sitemap).

Здесь хочу напомнить, что все эти страницы должны иметь правильный заголовок h1, который обеспечивает повышение процента релевантности страницы, т.е. ее соответствия поисковому запросу. Поэтому, если кто-то еще не побеспокоился об организации правильных заголовков ранга h1 для страниц своего сайта на Вордпресс, то я советую сделать это незамедлительно.

Итак, суммируем 117+13+9+1=140. Н,у а если добавить сюда еще и саму sitemap, то и получится 141 страница в индексе.

Но тут сразу возникает следующий вопрос: «А почему робот загрузил 436, а проиндексировано только 141?»

Ответ следующий. Робот находит все имеющиеся ссылки на страницы на Вашем сайте. Но часть таких ссылок блокируется в файле Robots.txt, чтобы информация не дублировалась.

Рекомендую посмотреть список страниц исключенных роботом, чтобы убедиться, что туда не попали страницы с кодом 404 – не найдено.

перечень-страниц-исключенных роботомТаких страниц на сайте быть не должно. Их нужно проверять и исправлять.

У меня установлен плагин, который постоянно проверяет все ссылки на сайте и сразу же находит битые ссылки (в том числе и с кодом 404). Советую установить такой плагин WordPress, чтобы отслеживать несуществующие ссылки в автоматическом режиме.

Можно для интереса посмотреть и другие страницы, исключенные роботом.
Там видно, что исключены короткие ссылки на страницы сайта (в них содержится вопросительный знак).
Такие ссылки на статьи организует сам WordPress.

Но потом мы устанавливаем специальный плагин, чтобы у нас показывались ЧПУ ссылки – «человеко-понятные урлы» в виде названия статьи латинскими буквами. Это важно сделать, так как наличие ключевой фразы в Url способствует SEO-продвижению страницы.

В результате получается два набора разных ссылок на одни и те же страницы.

Так вот для того, чтобы информация не дублировалась, короткие ссылки в Robots.txt запрещены к индексации.

У меня также запрещены к индексации tags – страницы, которые можно открыть, используя метки. Они попадают в раздел страниц, исключенных роботом с пометкой «содержит метатег noindex».

Давайте снова вернемся к нашей арифметике. Робот загрузил 436 страниц, исключил 270.

436-270=166.

А проиндексировано 141. Где остальные?

Возвращаемся опять к указанной выше расшифровке. Там видно, что на сайте было найдено дополнительно 28 страниц категорий и 21 страница, расположенная за Главной. А индексация tags (41-й страницы меток) у меня запрещена.

28+21=49.

Итак, имеем 117 страниц, которые зафиксированы в sitemap, плюс еще 49 найденных дополнительно, как раз и будет 166 (117+49=166).

Получается, что на сайте имеется 166 разрешенных к индексированию страниц, но некоторые страницы категорий и страницы, лежащие за Главной в индекс не попали.

Ну, что ж, будем радоваться тому, что туда хотя бы попали страницы с нашей основной полезной информацией. Вряд ли кто-то будет искать какую-то категорию. Хотя иногда это может оказаться весьма кстати.

Если у Вас на сайте есть виджет с архивами, то страницы архивов тоже попадают в индекс.

Я у себя такой виджет убрала. Хотя стоит подумать, насколько он важен для сайта.

Убрала–то я его, чтобы уменьшить количество внутренних ссылок с главной страницы сайта. А какую он еще несет смысловую нагрузку, кроме истории сайта, и насколько архивы важны и нужны, надо еще подумать.

Итак, мы свели баланс в бухгалтерии проиндексированных страниц нашего сайта в сервисе для вебмастеров Яндекса. И все вроде сошлось (166+270=436).

Сколько страниц в индексе Google?

Аналогичную картину можно увидеть и в сервисе для вебмастеров Гугл.

сколько-страниц-в-индексе-Google

Там показано, что робот загрузил 358, а исключил 147.

Каждая поисковая система использует свою методику подсчета, поэтому данные несколько отличаются. Но можно заметить, что метатег noindex здесь не учитывается.

Поэтому 358-147=211.

Значит, вспоминаем про 166 страниц, которые разрешены к индексированию в Яндексе, да добавляем еще 41 страницу меток (тегов), которые Яндекс не учитывает, и получаем такое: 166+41=207.

211 и 207 — числа близкие.

Нужно принимать во внимание расхождения в датах. Ведь разные поисковые системы проводят индексацию в разное время. А в промежутке между датами информация на сайте могла измениться.

Как проверить количество страниц в индексе?

Чтобы это быстро узнать я использую расширения браузера Google Chrome Yandex CY (TIC) & PR Viewer

определить-сколько-страниц-проиндексировано

и уже упоминавшийся выше RDS bar.

Можно посмотреть и в сервисах для анализа сайта, например,  в www.cy-pr.com.

Существуют и другие ресурсы, которые такую информацию предоставляют.

Дополнительный и основной индекс Google.

Считается, что Google имеет два индекса: дополнительный и основной.

Если в поисковой строке Google набрать вручную команду site:tvoy-internet.ru, то определяется дополнительный индекс. Туда попадает все.

У меня получилось, что в дополнительном индексе Google 403 страницы.

А по команде site:tvoy-internet.ru/& определяется основной индекс.

В основном индексе Google у меня оказалось всего 186 страниц (числа разняться от случая к случаю).

186/403*100=46% страниц не под фильтрами.

Это и показано в анализаторе www.cy-pr.com.

дополнительный и основной индекс

Вот, оказывается, откуда эти проценты берутся!

Выходит, что дублированный контент на сайте в основной индекс не попадает.
Ну, что же, такова участь готового бесплатного шаблона Вордпресс.

Более грамотно организованные сайты имеют более близкие числа в таких ответах.

А разницу между ними называют — «сопли».

Более подробно на эту тему у профессионального оптимизатора.

Анализ страниц в дополнительном индексе Google.

Кстати там же можно посмотреть показатели дополнительного и основного индекса Google для его сайта. У него они оказались значительно ближе друг к другу.

Увы, на моем Вордпресс блоге соплей предостаточно.

Эх, надо учиться создавать сайты на более профессиональном уровне. А не использовать готовые шаблоны…

Шутка, содержащая долю истины. Есть к чему стремиться.

Получается, что сайты нужно строить так, чтобы дублированного контента на них не было и все имеющиеся там ссылки на страницы сразу шли в дело, т.е. в основной индекс.

Вот так.

Может, и WordPress когда-нибудь до такого дорастет.

А пока получается, что, если использовать короткие ссылки на страницы, то это не способствует SEO (оптимизации). А если применять ЧПУ ссылки, то получается дублированный контент.

С нетерпением жду ваших комментариев.

Какие мысли по этому поводу Вас посетили?

Елена и tvoy-internet.ru

 

Понравилась статья? Поделиться с друзьями:
Комментарии: 21
  1. Инна

    Есть у меня расхождения в индексации на сайтах, а почему так происходит — понять не могу, принцип наполнения везде одинаков.

  2. bytrina

    Вот так всегда и бывает: короткие ссылки — плохо, да и ссылки с ЧПУ не лучше. Вот и думай что делать, а с дублями надо бороться.

  3. роман

    Если Вы оптимизатор, продвигаете сайт в поисковых системах Яндекс, Google методом покупки тематических SEO-ссылок через ссылочные и статейные биржи SetLinks, Sape, MainLink, LinkFeed, то Вам обязательно необходима проверка индексации страниц, на которых Вы размещаете платные ссылки. В этом Вам поможет сайт и программа iChecker.biz для массовой (пакетной) проверки индексации страниц (URL-s) в поисковых системах Яндекс, Google.

  4. Сергей

    Для меня было полезно прочесть информацию о индексации. Многое знал и этого. Кое-что даже применял. Например, зарегистрировался в Яндекс-Вебмастер и периодически просматривал, какие из статей на моем блоге находятся в индексе у Яши. Вот только никак не пойму, почему периодически статьи выходят из индексации поисковиков?

  5. Елена Молгачева

    Сергей! Иногда выпадают очень старые статьи. Или не выпадают, но очень сильно отодвигаются назад в поисковой выдаче.

    Все любят свежую информацию.

  6. Наталья Кочеткова

    Спасибо — нашла для себя много полезного

  7. Тамара

    Для меня полезная статья, спасибо за ликбез.

  8. Владимир

    Елена! Вы, может быть, в курсе, что происходит с сервисом blogs.yandex.ru У меня там было более 500 ссылок на мой сайт, но вдруг все ссылки исчезли. Думал, что это происходит только с моим сайтом. Проверил наличие ссылок на Ваш сайт — имеется в наличии десяток ссылок. Хотя помню ранее там имелось несколько тысяч ссылок на Ваш сайт.

  9. Елена Молгачева

    Владимир! У Яндекса свои заморочки.

  10. юрий

    Здравствуйте! У меня на сайте нет виджета с архивами, но архивы все равно попадают в индексацию. Можно ли и нужно от этого избавиться?

  11. Елена Молгачева

    Юрий! Архивы можно оставить. Для истории сайта…

    Других идей их использования у меня нет.

  12. юрий

    Елена! Архивы попадают в индексацию, как от этого избавиться? Везде запретил их индексировать: в древовидных комментах, в robot.txt, поставил даже плагин Robots Meta 10 дней назад. Наверное он не совместим с WordPress 4.1.5. но архивы все равно попали в индексацию.

  13. Елена Молгачева

    юрий! Если операции по запрещению индексации архивов Вы произвели недавно, то нужно некоторое время подождать пока пройдет полная переиндексация Вашего сайта поисковыми системами. А это процесс не быстрый. И тогда архивы уйдут из индексации.

  14. Вячеслав

    Уважаемые специалисты, подскажите, как проверить массово список ссылок на присутствие в основноми ли дополнительном индексе google. Почему спрашиваю!? Покупные ссылки на биржах можно фильтровать различными скриптами, плагинами, после фильтрации, просмартивая доноров видно, что ссылка в индексе, но после ручной проверки в каком индексе – она оказывается в “соплях”! Как я понимаю такие ссылки нужно “нафиг с пляжа”, ведь ссылки с дополнительного индекса не передают никакакой вес (может миниминимальный), а в некоторых утверждениях негативный для моего сайта. Что скажете?

  15. Елена Молгачева

    Вячеслав! У меня нет опыта работы с покупными ссылками. Я их просто не покупаю.

    Думаю, что если и стоит покупать ссылки, то только очень качественные и с тематических ресурсов.

    Нужно добиваться того, чтобы ссылки выглядели естественно.

    Тогда они не будут вызывать подозрения у поисковых систем.

    В статье есть ссылка на сайт профессионального оптимизатора. Задайте вопросы по покупным ссылкам ему.

  16. Вячеслав

    Спасибо, Елена. Ссылки покупаю очень редко и очень мало, как правило в дополнение к уже проделанным seo работам, когда ключи стопоряться на одних позициях и уже не двигаются.

  17. Анна

    Проверила индексацию в Гугле — и с /& и без одно и то же число страниц.. При этом в Гугле в топ-30 даже не попадаем, в то время, как в Яндексе есть ВЧ запросы в топ-5.

    И это несмотря на то, что реклама на множество целевых страниц периодически дается в Гугле..
    Но индексация в Яндексе все равно ОЧЕНЬ медленная (ежедневно пишем новости, которые индексируются по 2 недели; автопостинг идет на 8-10 соц.сетей.
    Хотела внести свои 5 копеек по поводу ссылок закупаемых: сами только изредка берем в соц.сетях или блогах, ибо палевно. При этом в ТОП-1 по ВЧ регулярно пробираются новорожденные сайты, закупившие на 5 непрофильных ресурсах 13 000 ссылок пару месяцев назад. И апы дело не меняют..

  18. Дмитрий

    Подскажите плиз такой вопрос.

    Для ускорения индексирования в гугле я добавил через goolebot большое количество товаров (400 стр.), они практически сразу появились в поиске, но через пару дней начали пропадать и практически все пропали. Вроде как дублей страниц нет, текст более менее уникален, количество страниц основного и дополнительного индекса совпадают, сейчас 1700, а неделю назад было 2500 +-… Ну и странно что месячная норма 500 страниц для индекса, я практически выбрал лимит, а сегодня смотрю что лимит обнулился и могу опять 500 стр. добавить для индекса. Помогите разобраться

  19. Елена Молгачева

    Дмитрий! Вы приложили максимум усилий для раскрутки сайта. И это очень похвально.

    Но, если сайт еще очень молодой, то поисковые системы не воспринимают его всерьез.

    Говорят, что нужно не менее 3-х месяцев (а то и полгода) просидеть в «песочнице» у Гугла.

    И только сайты, выдержавшие проверку временем, начинают хорошо ранжироваться поисковиками.

    Поэтому: работать, ждать и верить! Не раслабляться!

    Все получится!

  20. Елена

    Существует ли специальная команда для проверки индекса статей в Яндексе, вроде как site: да? Или я ошибаюсь?

  21. Елена Молгачева

    Елена! Если найдете, напишите.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: