Эта статья посвящена тем, кто решил заняться или уже занимается раскруткой сайтов. В ней я хочу рассказать о такой, на первый взгляд мелочи, как ошибка "404".
Думаю, ни для кого не будет секретом, что в работе оптимизатора помогает такая штука, как лог-файлы сервера. Пока другие будут вовсю заниматься раскруткой сайта, давайте рассмотрим, какую информацию можно извлечь из этих файлов.
Каждый раз, когда посетитель запрашивает страницу сайта, которая в данный момент недоступна, сервер выдает ему ошибку. Ошибка такого типа называется "Ошибка 404 - Файл не найден" (404 Document Error) или просто "Ошибка 404".
Если посетитель вашего сайта встретит такую ошибку, то виной этому будут лишь ваши ошибки при проектировании сайта. Другими словами, если ваш сайт содержит ссылки, при переходе к которым появляется "404 Document Error", то вам следует как можно скорее это устранить.
Всем известно, что когда поисковый робот заходит на сайт, он проходит по всем ссылкам, которые встречаются на сайте. Это ему необходимо для того, чтобы посмотреть содержимое всех страниц сайта и проиндексировать их по ключевым словам.
А вот что же случится, если паук найдет на вашем сайте неработающие ("битые") ссылки? Так как создатели поисковых алгоритмов не очень охотно делятся информацией на эту тему, то придется базировать ответ на личном опыте и наблюдениях. Могу сказать, что тут до сих пор много противоречивой информации: одни говорят, что сайт просто понижают в рейтинге, другие - что на некоторое время удаляют из индексирования ("забанивают"). В любом случае, шутки с "ошибкой 404" к добру не приведут.
Но все не так драматично. На самом деле установить в чем же причина появления пресловутой "ошибки 404" не так уж и сложно. Если вы сами являетесь вебмастером и занимались разработкой вашего сайта, нужно просто воспользоваться утилитой типа Linkbot Pro, или же инструментом Verify Links (проверить ссылки), который есть в каждом уважающем себя html-редакторе. Хотя можно и вручную, если только хватит терпения. Лично я свой сайт на 170 статей проверял Linkbot'ом - проблем с его использованием не возникает.
А вот что делать в том случае, если источник "ошибки 404" не находиться среди ссылок внутри вашего сайта? Вот тут и настало время заняться расследованием...
Анализ лог-файлов сервера
Если у вас есть доступ к лог-файлам своего сервера, то этой замечательной возможностью просто грех не воспользоваться. Хотя на данный момент у каждого сервера свои особенности лог-файлов, но найти в них строку с "ошибкой 404" думаю не будет проблемой. После нахождения такой записи, необходимо определить источник, который вызвал ее появление.
Очень часто бывает, что поисковый робот находит документы, которые содержат неправильный формат даты или же физически удалены. Если такое произошло, то постарайтесь поскорее исправить данную проблему. Кто знает, может еще робот и не заходил на ваш сайт - пусть лучше 2-3 посетителя столкнутся с "404", чем ваша страничка вылетит из индексации.
Наиболее распространенные виды "ошибки 404"
Теперь настало время рассмотреть некоторые виды "ошибки 404". Чаще всего к ее генерации ведут два файла, которые поисковые роботы очень любят просматривать.
1) favicon.ico
Этот файл пусть и не самый главный для успешного сайта, но зато является доказательством существования веб-странички. По сути этот файл - просто иконка, с помощью которой браузер Internet Explorer помечает сайты, когда пользователь их добавляет в "избранное" (для тех, кто использует другой браузер - это может быть "bookmark" или "закладка").
Если вас заинтересовала проблема создания иконки для вашего сайта и решение надоедливой проблемы "404", можете почерпнуть много полезной информации на следующих ресурсах:
http://www.favicon.com/
http://www.xoomhacker.com/favicon.html
http://global-positioning.com/favicon/
2) robots.txt
Если у вас есть веб-сайт, то вы занимаетесь его раскруткой в поисковых машинах. А вот если внимательно посмотреть статистику посещаемости сайта, то можно заметить, что такие пауки, как GoogleBot (у Google), Яндекс (у Яндекса) и некоторые другие заходят на ваш сайт, просматривают первую страничку и уходят. Часто это бывает из-за того, что неправильно написан или вообще отсутствует файл robots.txt.
Опять же таки, предлагаю вам ознакомиться с ресурсами, которые посвящены этому вопросу:
http://www.robotstxt.org/wc/faq.html
http://www.robotstxt.org/wc/norobots-rfc.htm
Как вы скоро убедитесь, процесс создания и работы с файлом robots.txt довольно простой. Но даже если у вас уже есть на сайте данный файл, можно проверить его на правильность вот по этой ссылочке:
http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
И в завершение...
Что могу посоветовать, так это периодически проверять лог-файлы вашего сервера на "ошибку 404". Лучше один раз потратить время и устранить ее, чем потом копаться в дебрях ссылок и искать в них "битые". Также можно создать страничку, которая бы выдавалась пользователю при возникновении проблемы "404". Очень удачно это сделано на "narod.ru" - там она еще и все время разная.
На данный момент все популярные операционные системы, которые стоят у провайдеров, позволяют эффективно бороться с ошибкой 404. Например, это можно сделать в панели управления IIS (Windows NT и Windows 2000), а в Apache (чаще всего в *NIX-системах) нужно просто подкорректировать файл конфигурации