Оптимизация сайта под Google на примере реального сайта

Доброго времени суток, уважаемые читатели. Идея данной статьи возникла не случайно, и я хочу сказать пару слов предыстории. Ко мне обратился мой читатель за советом. Дело в том, что его сайт находится под фильтром Google. Например, различные анализаторы показывают 0 (ноль) эффективных страницах сайта, т.е. весь он находится в так называемом Supplemental.
Если покопаться в истории, то словом Supplemental, представители Google называли дополнительные результаты поиска, которые всегда "прятались" за словами:
Чтобы показать наиболее значимые результаты, мы опустили некоторые, очень похожие на ХХ уже показанных.
Если вы хотите, можно повторить поиск, включив опущенные результаты.
Но на самом деле, есть ещё и Supplemental, который обозначает дополнительный индекс.
Т.е. у поисковой системы Google есть несколько индексов (баз). И возможно, их больше двух. И очень похоже на то, что каждый сайт проходит несколько уровней разного индекса Google.

Вполне очевидно, что это непосредственно связано с алгоритмом ранжирования Google. На каждом из уровней сайт проверяется на соответствие требованиям поисковой системы Google. И как мне это представляется, на начальном уровне проверяется структура сайта. Google придает серьезное значение организации сайта.

Если все соответствует норме, сайт переводится в следующий индекс. На следующем этапе может быть что-то другое, например, содержание, есть ли дубликаты статей на других ресурсах.

Потом, пройдя несколько уровней индекса, определяются, например, внешние факторы – внешние ссылки. И так до тех пор, пока сайт не окажется в основной выдаче, в которой находятся только качественные ресурсы (с точки зрения Google) абсолютно по всем параметрам.

Т.е., подводя итог, чтобы стать качественным ресурсом с точки зрения поисковой системы Google, не достаточно выполнить одно или несколько условий, необходимо, чтобы сайт соответствовал норме сразу по всем параметрам. Иначе не видать поискового трафика.

И вот, посмотрев сайт своего читателя, и возникла идея данной статьи, показать на примере, чего ни в коем случае делать нельзя, и как правильно.

Если кто-то подумает, что я поступаю некорректно по отношению к обратившемуся ко мне человеку, то заверю, что я получила его одобрение на эту статью. И действую полностью с его разрешения.
Сайт находится на CMS Joomla, домен зарегистрирован в конце ноября 2009 года, имеет показатели PR2, тИЦ20.
Итак, перейду к делу.
Очень многие пренебрегают официальными источниками, таким, например, как официальная документация Google. А ведь для оптимизации под Google не надо ничего придумывать, стоит лишь заглянуть на страницу справки Создание сайтов оптимизированных под Google. Эта справка всегда доступна из инструментов для вебмастеров Google. Там рассмотрены все шаги по созданию качественного сайта с точки зрения поисковой системы Google.
Итак, пожалуй стоит начать с того, что у любого сайта должен быть один и только один URL-адрес. Первая ошибка, которую допустил вебмастер, это не указал главный адрес сайта, как он должен отображаться - с www или без.
Вот наглядный пример, я перешла по ссылке на сайт (ссылка была с www):

url-страницы с www
Убираю www, обновляю страницу

url-страницы  без www
Страница открывается по адресу без www. Такая ситуация недопустима. И ее необходимо исправлять. Все возможные адреса домена задаются в настройках DNS, где прописывается, что домен mydomen.ru имеет адреса:
  • mydomen.ru
  • www.mydomen.ru
  • и другие возможные адреса
Также, в инструментах для вебмастеров Google необходимо подтвердить права на управление сайтом по двум адресам. Вот как это у меня:

Подтверждение прав на сайт в Google вебмастер
Затем, необходимо зайти в Конфигурация сайта – Настройки и указать основной URL адрес:

Установка url-адреса домена
К слову, сразу замечу, чтобы указать поисковой системе Яндекс главное зеркало домена, необходимо в файле robots.txt указать директиву Host. Пример записи в robots.txt:
User-Agent: *
Disallow:
Host: www.mydomen.ru
Более подробную информацию можно получить из справочных материалов Яндекс по этой ссылке.

Возникает вопрос, какой адрес выбрать? Приставка к адресу www возникла ещё в лохматые времена и была обязательна, сейчас же, если домен новый, то лучше сразу указать адрес без www. Никаких практических целей эта приставка не выполняет. Но если сайту уже несколько лет, то необходимо сначала выяснить, какой адрес поисковая система считает главным. Увидеть это можно, если просто ввести в строку поиска домен.

Определение главного зеркала
Итак, видно, какой адрес домена Яндекс считает главным, и именно такой стоит указать в директиве Hosts. Но тут есть подводные камни.

Если на ваш сайт ставили ссылки без www, и эти ссылки с трастовых хороших ресурсов, то, определив главное зеркало с www вы потеряете тот вес, которые передают эти ссылки, поэтому, помимо проделанных действий рекомендуется ещё и склеить домены в файле .htaccess, который находится в папке вашего сайта на сервере хостинга. На этом я останавливаться не буду, т.к. нам ещё многое надо узнать.

Итак, разобравшись с главным зеркалом домена, необходимо настроить CMS, чтобы при публикации страниц, всегда создавался адрес главного зеркала. Например, на сайте моего читателя, часть ссылок в меню имеет адрес с www, а часть без www. Вот наглядный пример:

url-страниц сайта
Это одно меню, в котором есть ссылки без www и с ними. Такого быть не должно. Также из скринов вы можете видеть, какие не читаемые адреса у страниц.
Очень важно, во-первых, иметь человеко-понятные url-адреса (ЧПУ), во-вторых, каждая страница должна иметь один и только один адрес.
Я зашла на сайт по адресу:
http://www.cххххххххх.org/
нажала на ссылку "Главная", отобразился адрес
http://www.cххххххххх.org/index.php?option=com_frontpage&Itemid=47&lang=russian
Я нажала на ссылку русский язык
http://www.cххххххххх.org/index.php?lang=russian
Я нажала на ссылку английский язык
http://www.cххххххххх.org/index.php?lang=english
Я нажала на ссылку "Home"
http://www.cххххххххх.org/index.php?option=com_frontpage&Itemid=47&lang=english
Также, мы уже знаем, что сайт спокойно открывается по адресу
http://cххххххххх.org/

К слову сказать, страницы, которые должны быть на английском, содержат контент на русском. А английский только в пунктах меню. Стоит заметить, что для поисковых систем пункты меню, в общем-то, не имеют никакого значения, и главным является контент.

Стоит ли говорить, что на всех этих страницах я увидела одно и тоже. Содержание этих 6 страниц было совершенно одинаковое.

Итак, как это все исправить.

Первый шаг. Если в базовом пакете CMS нет возможности настроить ЧПУ, необходимо установить специальный плагин. Подобные плагины распространяются в сети бесплатно, и их спокойно можно найти на официальных сайтах, форумах или блогах.

Второй шаг. Создание файла sitemap.xml, в котором прописана каждая страница один единственный раз, и больше не имеет никаких дубликатов. Это также решается с помощью специальных плагинов, если данная возможность не предусмотрена в базовом пакете.

Третий шаг. Я сталкивалась с такой проблемой, что в интернет-магазине никак невозможно было установить один единственный адрес страницы. По структуре интернет-магазина некоторые страницы с товаром находились в разных категориях, и находились по двум разным адресам. В таком случае, необходимо запретить повторяющиеся страницы в файле robots.txt. На настройках самого файла останавливаться сейчас не буду, но полные руководства есть, как у Google, так и у Яндекс.

Также, на сайте некоторые страницы передаются по протоколу https. Если эти страницы повторяют содержание страниц, которые передаются по протоколу http, то необходимо защищенные страницы также закрыть от индексации.

Следующее, на что я хочу обратить внимание вебмастера сайта, это то, что Google настоятельно рекомендует для каждого языка создавать отдельный сайт в той доменной зоне, к которой этот язык относится. Или, как вариант, создать поддомены, например:
  • en.mydomen.ru
  • pl.mydomen.ru
Причем, это сложно даже назвать рекомендацией, это скорее требование. И лучше, если вы будете его соблюдать.

Также, я обратила внимание, что в браузере Google Chrome страницы на болгарском выглядят так:

Кодировка страниц сайта
Примерно также выглядят некоторые страницы и на русском (позже увидела).
Возможные причины:
  • Хостинг работает в другой кодировке, а у сайта четко не прописана кодировка для всех страниц сайта.
  • Вебмастер, который занимается наполнением сайта информацией, не следит за кодировкой статей, и размещает тексты в разных кодировках
  • База MySQL имеет другую кодировку.
В общем, вебмастеру необходимо обратить внимание на то, в какой кодировке сервер отдает сайт в браузер пользователя, в какой кодировке загружается информация, которая находится в базе данных MySQL, и следить за тем, чтобы весь контент страницы был в одной кодировке. Изменения вносятся в:
  • в контент страниц
  • файл .htaccess.
  • в настройки MySQL
В зависимости от ситуации - разные решения проблемы. Смысл всех манипуляций должен сводиться к тому, чтобы везде была одинаковая кодировка, и везде была четко прописана.
В целом, структуру данного сайта я рассмотрела. А главное, рассмотрела именно те моменты, которые очень важны, но не все это исправляют, наивно полагая, что это не влияет на поисковое продвижение.
Это не только влияет на поисковое продвижение, но и вообще препятствует правильному индексированию вашего сайта.
В заключении, хотелось обратить внимание вебмастера ещё на некоторые детали.
Все страницы сайта имеют одинаковый заголовок в title.

Странным для меня было и то, что стили CSS не вынесены в отдельный файл. Да и вообще, верстка ещё табличная. Это уже давно прошлый век. И хоть таких сайтов встречается ещё не мало, я считаю, что стоит перевести сайт в более современную верстку с выносом всего лишнего в отдельные файлы.
Т.к. и таблица и стили влияют на скорость загрузки страницы, а скорость загрузки сайтов является одним из факторов ранжирования.
И ещё очень много пустых страниц:

Пустые страницы на сайте - ЗЛО!
Простите мне мою шутку.
В общем, хочу сказать, над сайтом нужно очень серьезно работать. Тут я рассмотрела самые очевидные и грубые ошибки, на многие мелочи просто уже не хватило сил и времени.

Не могу удержаться и не высказать своего мнения. Обрушу свой гнев на нерадивого вебмастера:).
Нельзя иметь сайт и не заниматься им. Т.е. совершенно очевидна ситуация, что над сайтом не работали вообще. Также ещё раз обращаю внимание на то, что на многие вопросы есть ответ в официальной документации поисковых систем. И прежде, чем обращаться к кому-нибудь за советом, правильным будет ознакомиться хотя бы с азами, чтобы иметь представление о сайтах и поисковых системах, чтобы не краснеть. 

Если вы вдруг подумали, что подобные статьи (анализ чужих ошибок и рекомендации) будут появляться в моем блоге постоянно, то обращаю ваше внимание, что данные услуги обычно стоят денег.  Я вот уже давно мечтаю заработать денег на отдых во Франции, посмотреть Нотердам де Пари, побывать в замках Луары. Но, все может быть, и если у вас будет очень интересный (запущенный) случай, то, почему бы и нет. Посмотрю, и может напишу. Все будет зависеть от конкретной ситуации.
Удачи вам.
В блоге установлена система комментариев Disqus. Если Вы не знаете, как оставить комментарий, прочитайте инструкцию Как пользоваться Disqus. Если Вы хотите установить Disqus в свой блог, как это сделать описано в статье Как установить Disqus в блог.