Здравствуйте, мои дорогие читатели. Последнее время все чаще у меня спрашивают про инструменты для вебмастеров Google и Яндекс, а именно про файл robots.txt, про запрещенные к индексации страницы или заблокированные страницы в файле robots.txt.

Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.
Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.
Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.
Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.
Но есть и другая ситуация, которую мы рассмотрим более подробно.
Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.
Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.
Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.
Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие
В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.
Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.
Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:
Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы
Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида
Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.
Основная проблема блогов Blogger/blogspot заключается в том, что у нас нет доступа к файлу robots.txt, который мы могли бы изменить самостоятельно так, как хотим. У нас вообще нет другого очень важного файла sitemap.xml в котором мы могли бы указать важные страницы своего блога. Это проблема всех бесплатных блоговых платформ. И тут ничего невозможно с этим поделать. Мы можем только смириться и периодически проверять индексацию, удаляя страницы, случайно попавшие в индекс поисковой системы.
Ну и конечно писать интересный и оптимизированный контент.

Странно получается, сначала мы ищем информацию о том, как оптимизировать blogger, выполняем все рекомендации, а потом только начинаем задавать вопросы, почему у меня заблокированы страницы и как их разблокировать.
Поэтому я и решила рассмотреть оптимизацию блогов Blogger/Blogspot с точки зрения файла robots.txt. Начну по порядку, с того, что вообще такое файл robots.txt.
Файл robots.txt – по сути это обычный текстовый файл, который находится в корневой папке сайтов.
http://site.ru/robots.txtФайл обычный, а вот содержание этого файла очень важное. Файл robots.txt был задуман для того, чтобы управлять индексацией сайта. Указывать поисковому роботу, что можно индексировать, а что нельзя.
Естественно, возникает вопрос, а зачем вообще что-то запрещать, пусть робот индексирует все.
Первая и самая очевидная ситуация. С развитием интернета все больше сайтов поддерживают регистрацию и личные кабинеты пользователей с такой информацией, с которой сами пользователи не захотели бы делиться. Так же, к этой ситуации можно отнести и такие, когда на сайте есть разделы доступные для всех пользователей, и разделы, доступные только для зарегистрированных пользователей. Думаю, с этим понятно. И такое содержание специально запрещается к индексации.
Но есть и другая ситуация, которую мы рассмотрим более подробно.
Все современные сайты являются динамическими. Многие пользователи наивно полагают, что динамический сайт, это тот, на котором бегающие строчки, картинки сами сменяют друг друга и т.п. и то, что называют флеш-сайт. На самом деле, динамический сайт к этому не имеет никакого отношения. И слово динамика возникла совсем по другой причине.
Я не являюсь профессионалом, поэтому могу где-то употребить не совсем точные формулировки, но надеюсь, мне удастся передать вам суть. Представьте себе интернет-магазин. На сайте есть форма поиска товара по разным критериям. На один и тот же товар можно попасть употребив разные фильтры. Например, фильтр по производителям может привести к товару, который так же можно выбрать, применив фильтр по цене и габаритам. Использование различных фильтров создает в URL страницы разный путь до товара. И один и тот же товар может находиться на 2-3-4-х разных URL.
Вот тут начинается путаница, а какая из всех этих страниц является правильной и самой важной? Какую страницу показывать в результатах поиска? Вот тут и приходит на выручку такой файл, как robots.txt. В котором указано, что все URL, которые возникли в результате применения фильтров, индексировать нельзя.
Отличительной особенностью всех URL, которые сформировались в процессе выбора товаров, является присутствие специальных символов или слов. Вернемся к нашим блогам. Я предлагаю вам разобрать один частный случай. Этот случай не частый, но и не редкий, особенно, на начальном этапе ведения блогов, когда мы ещё не все понимаем. Прошу отнестись к этому случаю, как к виртуальному примеру, т.е. совершенно не обязательно, что такое может быть у вас, но при этом отнестись со всей серьезностью, потому что такие случаи все же не редкость.
Условие
- Вы показываете полный текст статьи на главной, не пряча часть статьи под кат.
- Этой статье вы присвоили ярлык, по которому у вас ещё нет других статей, кроме этой.
http://мой_блог/дата/моя_статьяПомните, вы присвоили этой статье ярлык, которого ещё нет ни у одной статьи. Вы только что решили придумать писать на эту тему, и других статей на эту тему у вас нет. Зайдем на страницу этого ярлыка. Он имеет URL
http://мой_блог/search/label/название_ярлыкаИ что мы видим. На этой странице наша статья, в полном варианте, т.к. мы не прячем ее под кат, и других статей у нас вообще нет.
В итоге получается, одна и та же статья присутствует сразу по двум разным адресам. Какая из этих двух страниц является правильной? Какая важнее? Поисковый робот не может определить разницу между этими страницами и считает их практически одинаковыми.
Вот к такому содержанию поисковые роботы относятся очень негативно. И даже, когда мы начинаем прятать статьи под кат, и даже, когда у нас по ярлыку находится несколько статей, поисковой системе не нравится, что у нас вообще складываются такие страницы. Такая ситуация носит название – дублирование контента.
Поэтому, чтобы поисковые системы не ругались, чтобы лучше ранжировали наш блог, в файле robots.txt стоит запись:
User-agent: *Которая означает, что любые роботы всех поисковых систем не должны индексировать страницы, которые имеют в себе директиву /search. Это сделано для нашего блага разработчиками платформы. И обнаружив в инструментах предупреждение, что какие-то страницы заблокированы (запрещены) файлом robots.txt, не нужно впадать в панику и переживать, что на вашем сайте что-то не индексируется.
Disallow: /search
Похожая ситуация складывается и с архивами. Например, у вас на главной странице блога отображается 10 статей. Адрес главной страницы
http://мой_блогИ так получается, что все эти 10 статей написаны в ноябре. Многие используют виджет Архив. Выберем в архиве Ноябрь, мы увидим все те же 10 статей, которые сейчас находятся на главной странице блога, но в адресной строке браузера мы видим совершенно другой URL
http://мой_блог/2010_11_01_archive.htmlОдно и тоже содержание по разным адресам. Вот такие страницы архива мы намеренно запрещаем к индексации через мета-теги.
Нечто подобное складывается из-за стандартного листинга страниц блога не по отдельным статьям, а когда можно листать главную страницу. В результате листания главной страницы образуются адреса вида
http://мой_блог/search?updated-max=2010-06-17T16%3A17%3A00%2B03%3A00&max-results=7Казалось бы, в URL этой страницы содержится директива /search, но я обратила внимание, что Google постоянно индексирует эти страницы. Именно поэтому у меня нет листинга по страницам. Я его просто удалила, чтобы не складывалось таких страниц. При этом все, которые попадаются в поиске, я удаляю вручную в инструментах веб-мастера на вкладке Конфигурация сайта – Доступ для сканера – Удалить URL.
Часто в индекс Google (в Яндекс я с таким не сталкивалась) попадают и страницы Ярлыков, которые запрещены файлом robots.txt. Все такие URL я так же удаляю в инструментах вебмастера Google.
Основная проблема блогов Blogger/blogspot заключается в том, что у нас нет доступа к файлу robots.txt, который мы могли бы изменить самостоятельно так, как хотим. У нас вообще нет другого очень важного файла sitemap.xml в котором мы могли бы указать важные страницы своего блога. Это проблема всех бесплатных блоговых платформ. И тут ничего невозможно с этим поделать. Мы можем только смириться и периодически проверять индексацию, удаляя страницы, случайно попавшие в индекс поисковой системы.
Ну и конечно писать интересный и оптимизированный контент.