Semalt дае парады па барацьбе з ботамі, павукамі і гусеніцамі

Акрамя стварэння зручных URL для пошукавых сістэм , файл .htaccess дазваляе вэб-майстрам блакаваць пэўныя боты для доступу да іх сайта. Адзін са спосабаў блакаваць гэтых робатаў - праз файл robots.txt. Аднак менеджэр поспеху кліентаў Semalt Рос Барбер заяўляе, што бачыў, як некаторыя сканеры ігнаруюць гэты запыт. Адным з лепшых спосабаў з'яўляецца выкарыстанне файла .htaccess, каб не даць ім індэксаваць ваш змест.
Што гэта за боты?
Гэта тып праграмнага забеспячэння, якое выкарыстоўваецца пошукавымі сістэмамі для выдалення новага кантэнту з Інтэрнэту для індэксацыі.

Яны выконваюць наступныя задачы:
- Наведайце вэб-старонкі, на якіх вы звязаныя
- Праверце свой HTML код на наяўнасць памылак
- Яны захоўваюць тыя вэб-старонкі, на якія вы спасылаецеся, і бачыце, якія вэб-старонкі спасылаюцца на ваш кантэнт
- Яны індэксуюць ваш змест
Аднак некаторыя боты шкодзяць і шукаюць на вашым сайце адрасы электроннай пошты і формы, якія звычайна выкарыстоўваюцца для адпраўкі вам непажаданых паведамленняў ці спаму. Іншыя нават шукаюць прабелы ў бяспецы ў вашым кодзе.
Што трэба для блакавання вэб-сканераў?
Перш чым выкарыстоўваць .htaccess файл, вам трэба праверыць наступныя рэчы:
1. Ваш сайт павінен працаваць на серверы Apache. У наш час нават тыя кампаніі, якія займаюцца хостынгам, напалову прыстойныя ў сваёй працы, даюць вам доступ да патрэбнага файла.
2. Вы павінны мець доступ да сырых часопісаў сервера вашага сайта, каб вы маглі знайсці боты, якія наведваюць вашы вэб-старонкі.
Звярніце ўвагу, што вы не зможаце заблакаваць усе шкодныя боты, калі вы не заблакуеце іх, нават тых, якія вы лічыце карыснымі. Новыя боты з'яўляюцца кожны дзень, і старыя змяняюцца. Самы эфектыўны спосаб - засцерагчы свой код і зрабіць яго ботам цяжка.
Выяўленне робатаў
Ботаў можна ідэнтыфікаваць па IP-адрасе альбо па "Радцы карыстальніка карыстальніка", якую яны адпраўляюць у загалоўкі HTTP. Напрыклад, Google выкарыстоўвае "Googlebot".
Вам можа спатрэбіцца гэты спіс з 302 ботамі, калі ў вас ужо ёсць імя бота, які вы хацелі б захаваць, выкарыстоўваючы .htaccess
Іншы спосаб складаецца ў тым, каб загрузіць усе файлы часопісаў з сервера і адкрыць іх з дапамогай тэкставага рэдактара. Размяшчэнне іх на серверы можа мяняцца ў залежнасці ад канфігурацыі вашага сервера. Калі вы не можаце іх знайсці, звярніцеся за дапамогай да хостынгу.

Калі вы ведаеце, якую старонку наведалі альбо час яе наведвання, прасцей прыйсці з непажаданым ботам. Вы можаце шукаць файл часопіса з гэтымі параметрамі.
Пасля таго, як вы адзначылі, якія боты трэба блакаваць; вы можаце ўключыць іх у файл .htaccess. Звярніце ўвагу, што блакавання бота недастаткова для таго, каб спыніць яго. Ён можа вярнуцца з новым IP ці імем.
Як іх заблакаваць
Загрузіце копію файла .htaccess. Пры неабходнасці зрабіце рэзервовыя копіі.
Спосаб 1: блакаванне IP
Гэты фрагмент кода блакуе бота, выкарыстоўваючы IP-адрас 197.0.0.1
Загад адмаўляць, дазваляць
Забараніць ад 197.0.0.1
Першы радок азначае, што сервер заблакуе ўсе запыты, якія адпавядаюць шаблонам, якія вы вызначылі, і дазволіць усім астатнім.
Другі радок паведамляе серверу выдаваць старонку 403: забаронена
Спосаб 2. Блакіроўка карыстальніцкімі агентамі
Самы просты спосаб - выкарыстоўваць рухавік перапісання Apache
Перапішыце
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
Перапішыце. - [Ж, Л]
Першы радок гарантуе, што модуль перапісаць уключаны. Другі радок - гэта ўмова, да якога распаўсюджваецца правіла. "F" у радку 4 паведамляе серверу вярнуць 403: Забаронена, а "L" - гэта апошняе правіла.
Затым вы загрузіце .htaccess файл на свой сервер і запішыце існуючы. З часам вам трэба будзе абнавіць IP бота. У выпадку, калі вы памыліліся, проста загрузіце рэзервовую копію, якую вы зрабілі.