Работа над ошибками при продвижении сайтов.

Традиционно среди подобных технических изъянов выделяют три группы ошибок:

  • ошибки во вспомогательных файлах,
  • ошибки, возникающие по причине некорректной работы CMS,
  • технические «недосмотры» оптимизатора.

Рассмотрим указанные недочеты подробнее.

Ошибки во вспомогательных файлах

К вспомогательным файлам относятся файлы robots.txt и sitemap.xml. Первый отвечает за то, как будут обходить сайт индексирующие роботы различных поисковиков.

Sitemap.xml – это карта сайта, файл, который содержит полный список его страниц. С его помощью можно передать индексирующему роботу поисковой системы (ПС) перечень адресов, которые надо про- или переиндексировать в первую очередь.

Robots.txt

Robots.txt – очень полезный инструмент, предоставляющий вебмастеру возможность точно определять, какие адреса должны быть проиндексированы роботами различных ПС, как часто можно обращаться к страницам и т.д. Количество настроек, которые можно регулировать путём использования robots.txt постоянно растёт. Так, например, 28 января Яндексом была введена новая директива, позволяющая исключать из URL незначимые cgi-параметры.

Robots.txt – хорошо документированный инструмент для работы с индексацией сайта, однако использование robots.txt не столь широко. Наличие файла не говорит о том, что он работает. Например, многие вебмастера используют неверные символы комментария. Многие допускают орфографические ошибки в написании директив.

Проверить корректность robots.txt можно, например, добавив сайт в консоль для вебмастеров Яндекса, а также воспользовавшись документацией поисковых систем.

Sitemap.xml

Многие вебмастера игнорируют файл sitemap.xml. Возможно, ввиду того, что этот инструмент не так давно стал доступен. Это совершенно напрасно.

Вот что пишет Яндекс в своей документации:

Обычно робот Яндекса узнаёт о страницах сайта, переходя по ссылкам. В большинстве случаев этого достаточно для полной индексации. Однако, если ваш ресурс содержит много динамически создаваемых страниц или же те, для попадания на которые требуется много переходов по ссылкам, робот Яндекса может не сразу найти некоторые страницы или неверно определить их важность. Файлы Sitemap помогают решить эти проблемы. Файл Sitemap -- это файл с дополнительной информацией о страницах, подлежащих индексации. С его помощью вы можете сообщить Яндексу, какие странички вашего сайта нужно индексировать, какие из них наиболее важны, а также как часто обновляется информация на них.

Для ускорения индексации новых страниц на сайте необходимо указывать им приоритет индексации равный «1». Фактически это возможность управлять индексным роботом на Вашем сайте по Вашему усмотрению.

Есть ещё один способ использования sitemap - определение не проиндексированного пула страниц. Обычно оптимизаторы следят лишь за индексацией тех, на которые они «ведут поисковые запросы», однако любая с информацией на сайте – это потенциальная точка входа по низкочастотному запросу. Sitemap может помочь в определении таких неработающих, с точки зрения поиска. Для этого необходимо «наложить» полный список страниц сайта на список проиндексированных в поисковой системе. Список не проиндексированных отдать на индексацию с приоритетом «1».

Ошибки в движке (CMS)

Платформы, на которых построены сайты, и серверы, на которых они расположены, достаточно разнообразны. Не стоит надеяться на чудо и ждать, что разработчики позаботились об оптимизаторе и настроили движок и сервер так, как это требуется для поисковиков. Чаще всего можно столкнуться со следующими ошибками, мешающими индексации: неверные коды ответа сервера, ошибки .htacess, неверное формирование url, наличие малоинформативных страниц, дублирование главной, дублирование внутренних по разным адресам, ошибки многоязычных ресурсов, индексирование результатов поиска, неверная обработка 404 ошибки, ошибки при выводе синонимов.

Неверные коды ответа сервера

Первое, что надо проверить, – это коды отклика сервера. Все рабочие страницы должны отдавать код 200 ОК. Все неверные адреса – 404.

Возможен вариант, когда рабочие страницы отдают код 304 (не изменена), но это применяется только на тех сайтах, где существует множество внутренних страниц, большинство из которых не обновляется.

Ошибки в .htaccess

Файл htaccess является файлом конфигурации сервера. В частности средствами этого файла определяется, как сайт будет открываться: с www перед доменным именем или без указания этой папки. Часто встречается ситуация, когда после переноса на новую CMS, в htaccess указывается, что сайт, например, должен открываться только с www. При этом все адреса без www возвращают заголовок ответа сервера 301, а главным зеркалом в Яндексе является домен без www. В результате все проиндексированные документы с сайта будут исключены из индекса поисковой системы, а новые не будут проиндексированы, так как принадлежат второстепенному зеркалу. Результата удачной переклейки зеркал придётся ждать достаточно долго.

Самым лучшим вариантом настройки файла htaccess является разрешение открывать сайт как с www, так и без www.

Неверное формирование URL

Часто встречаются CMS, которые для маркировки пользователя добавляют к url дополнительный параметр: «идентификатор сессии». Этот маркер - частный пример параметров, из-за которых на сайтах формируется большое количество страниц с дублирующим содержимым.

Это может негативно отразиться на сайте, так как существует квота на максимальное количество страниц, проиндексированных роботом за один сеанс. Таким образом, новые страницы могут не проиндексироваться, так как робот до них не дойдёт, исчерпав выделенную квоту при обходе одинаковых страниц.

Для решения подобной проблемы необходимо пользоваться возможностью файла robots.txt. В частности параметром clean-param, который позволяет исключать из url незначимые cgi-параметры.

Наличие малоинформативных страниц

К незначащим параметрам можно отнести некоторые значения, которые отвечают за особенности вывода контента. В частности, таким параметром является сортировка. Часто встречается ситуация, когда содержимое каталога можно отсортировать, например, по цене, производителю или по другим характеристикам позиции.

Каждый вид сортировки для индексирующего робота поисковой системы будет представлять собой уникальную страницу. В результате, если вы будете продвигать основную страницу каталога, то не исключена вероятность того, что вместо продвигаемого url, поисковая система изберёт главным дубликатом какой-либо вариант сортировок.

Решением этой проблемы является использование параметр clean-param в robots.txt (если позволяет формат url), либо запрет к индексации всех страниц, имеющих определенные префиксы либо постфиксы.

В следующем примере показана более опасная прореха. Как известно, 100% надёжных хостинговых площадок не существует. В случае неработающего хостинга, страницы удаляются из базы не сразу, а по истечению некоторого количества обращений к сайту. Если возникает ошибка соединения с базой данных (рисунок 9), то выводятся те, на которых нет Вашего контента, а представлена техническая информация об ошибках в БД. Эти страницы индексируются роботами поисковых систем, так как контент отличается от того, который был ранее представлен. После того, как робот переиндексирует такие страницы, вы можете значительно потерять в поисковом трафике, особенно если придерживались тактики продвижения по большому спектру низкочастотных запросов.

Единственным способом решения является кеширование и проверка доступности базы данных или контрольной суммы перед формированием страницы.

Есть ситуации, когда неработающий хостинг – не самое плохое, что может случиться. К таким ситуациям относится, например, неработающий SQL сервер.

Дублирование главной страницы

Многие CMS устроены так, что к главной странице можно обратиться не только по адресу корневой папки, но и по адресу типа index.php или index.htm. В таком случае возможно определение такого адреса в качестве адреса главной. Такие нужно закрывать в robots.txt.

Дублирование внутренних страниц по разным адресам

Эта ошибка свойственна сайтам на Joomla (однако, не только им). Если установлены ЧПУ, то открывается одинаковая страница как со слешем на конце, так и без слеша. Решение этой проблемы зависит от тонкостей конкретного движка, но чаще всего решается корректировкой htaccess. К этому же классу проблем можно отнести ситуацию, когда документ может быть открыт как по адресу с htm, так и с html и php.

Ошибки мультиязычных сайтов

Часто на сайтах есть версия для пользователей из других стран. Если вы столкнулись с мультиязычным ресурсом, то обязательно проверьте, чтобы для каждого языкового раздела был написан собственный уникальный контент. Часто бывает так, что при написании технического задания заказчик вкладывает в сайт максимум функций, но после сдачи проекта сайт не наполняется, и в каждом разделе выводятся одни и те же русскоязычные тексты.

Этого нужно обязательно избегать, чтобы не плодить дубликатов страниц и тем самым обезопасить себя от неправильного избрания главного из нескольких дублирующихся документов.

Индексирование результатов поиска

Это одна из самых распространенных ошибок. Результаты поиска по сайту открыты для индексации роботами ПС. Страницы не закрыты в robots.txt и отдают код ответа сервера 200. При этом для каждого поискового запроса формируется уникальный url.

Результатом этого является то, что в индексе поисковых систем появляется множество страниц, дублирующих основной контент. Это является прямым нарушением лицензии на поиск Яндекса. Благодаря тому, что страницы поиска открыты для индексирования, Ваш сайт может быть исключен из индекса поисковых систем с формулировкой санкции: " После анализа и классификации страниц Вашего ресруса наши алгоритмы приняли решение не включать его в поиск. Это может быть вызвано неуникальностью информации, использованием поискового спама или тем, что многие разделы сайта созданы автоматически и не предназначены для чтения пользователями".

Все страницы с результатами поиск надо закрывать от индексации в robots.txt

Неверная обработка 404 ошибки

Все несуществующие страницы должны отдавать 404 код ответа сервера. На рисунке 12 приведен пример ошибки на крупнейшем автопортале России. Какой бы адрес вы не придумали, открывается страница с кодом ответа сервера 200. Яндекс проиндексировал около 3000 страниц «страница не найдена» на сайте auto. ru. Появление таких нужно регулярно отслеживать в индексных базах поисковых систем. Самый лёгкий вариант – разместить в шаблоне страниц, которые не должны индексироваться, определенные маркеры.

Ошибки при выводе синонимов

Свойственна сайтам, разнесённым на несколько доменов. Например, когда разные подразделения компании имеют своё уникальное доменное имя. Ввиду того, что обычно такие сайты строятся на единой CMS, url имеют общие принципы построения. Необходимо очень внимательно проверять, чтобы одни и те же позиции не открывались на всех сайтах. Пересечение контента в этом случае может привести к санкциям. В частности, в е Яндекс большая часть доменов может быть исключена из результатов поиска, так как они будут признаны афилироваными.

Просчеты в работе оптимизатора

В этом разделе статьи мы собрали наиболее частые ошибки, которые происходят по «недосмотру» оптимизатора. Чаще всего к ним относятся: одинаковая мета-информация на большом количестве страниц, открытые серверные логи, нагрузочные, большое количество внешних ссылок.

Одинаковая метаинформация

Каждая страница должна иметь уникальный заголовок (мета-тег title), который бы ее описывал. Не рекомендуется использовать одни и те же заголовки для всех страничек. Прописав уникальные заголовки для большей части страниц (часто это решается прописыванием правил формирования заголовков в CMS), вы обеспечите себе хороший приток целевых пользователей по низкочастотным поисковым запросам. Но главное, Вы уменьшите вероятность попадания в выдачу «непродвигаемой» страницы (которая может не иметь внешних ссылок, но быть признанной более релевантной), т.е. снизите возможность внутренней конкуренции.

Открытые серверные логии

Часто хостеры ставят бесплатную систему статистики, например, webalizer. Если индексирующий робот получает ссылку на статистику Вашей интернет-площадки, он начинает активно индексировать страницы со статистическими данными. Тем самым значительно увеличивается количество не информативных, проиндексированных на Вашем сайте. Возникают проблемы со скоростью индексации нового контента, так как страницы с серверными логами обновляются ежедневно, а значит, индексирующие роботы будут обращаться к ним в первую очередь.

Нагрузочные ошибки

Часто случается такая ситуация, что индексирующий робот поисковой системы сильно нагружает сайт. Если представители хостинга лояльно относятся к большому числу запросов с ip адреса поисковой системы, то движок может этого не выдержать. Решением в этой ситуации может быть использование директивы crewl-delay в robots.txt или же передача индексирующему роботу исключительно закешированных страницх, генерирование которых не вызывает нагрузок.

Примером высокой нагрузки на сайты является робот поисковой системы webalta, который настолько сильно нагружал сервера, что многие оптимизаторы просто закрывали свои сайты для индексации этим роботом.

Большое количество внешних ссылок

Часто бывает так, что на интернет-площадке есть большое количество исходящих ссылок. В исходящих ссылках нет ничего страшного, однако следует понимать и видеть грань между спамом и разумным количеством ссылок. Нужно знать каждую из Ваших внешних ссылок. Есть два решения данного вопроса. Первое – посмотреть в live.com, воспользовавшись запросом linkfromdomain. Вторым способом является проверка всех страниц каким-либо десктопным приложением. В частности, удобным решением является программа xenu.

Из всех перечисленных ошибок большинство достаточно решить один раз, чтобы больше они не мешали. Но забывать о потенциальной возможности их появления не стоит. Есть такие ошибки, которые могут появляться вновь и вновь: Коды ответа сервера могут измениться после обновления ПО на хостинговой площадке, малоинформативные страницы могу появиться во время неполадок или обновлении версии движка, в индексной базе могут постоянно появляться страницы с неверными адресами, могут появляться новые внешние ссылки в результате спамерской активности и пр... Идеальный вариант - проверять всё перечисленное в автоматическом режиме и получать извещения об изменениях.

Пример работ по продвижению сайта

Пример работ по продвижению сайта

Выводы

  1. Релевантный и авторитетный документ не будет находиться поисковиками, если техническая база сайта будет иметь ошибки, мешающие и путающие индексирующий робот.
  2. Существует возможность управлять индексацией: robots.txt, sitemap.xml. Необходимо знать все возможности этих инструментов.
  3. Индексировать нужно только значимый для пользователя контент. Дубли, техническая информация, пустые страницы должны быть исключены из области индексации, если нет возможности избежать их наличия.
  4. Все три группы ошибок (во вспомогательных файлах, возникающие по причине некорректной работы CMS и технические «недосмотры» оптимизатора) должны быть устранены и проверены до непосредственного поискового продвижения.
  5. Необходим постоянный мониторинг технических ошибок. Желательно, чтобы он проводился в автоматическом режиме.

Комментарии:

Валера15.02.15 01:25

Сколько не говори о типичных ошибках, все равно люди будут их делать снова и снов, потому что на чужих ошибках учиться русский человек не может, только на своих.

Фома17.01.15 22:10

В принципе сказанное это верно и правельно.
Хуже когда вроде все делаешь, а трафик уперся в какую-то планку и не растет. не знаешь что-то делать. Варианты есть, можно купить ссылок, но хочется за счет НЧ бесплатно продвигать.

Оставить комментарий

наверх