Semalt дава совети како да се справите со ботови, пајаци и роботи

Освен создавање URL адреси за пријателски пребарувач , датотеката .htaccess им дозволува на веб-администраторите да блокираат специфични ботови од пристап до нивната веб-страница. Еден начин да ги блокирате овие роботи е преку датотеката robots.txt. Како и да е, Рос Барбер, Менаџер за успех на клиентите на Семсу , изјави дека видел некои роботи кои го игнорираат ова барање. Еден од најдобрите начини е да ја користите датотеката .htaccess за да ги спречите да ја индексираат вашата содржина.

Кои се овие ботови?

Тие се еден вид софтвер што го користат машините за пребарување за да избришат нови содржини од Интернет за цели на индексирање.

Тие ги извршуваат следниве задачи:

  • Посетете ги веб-страниците со кои сте се поврзале
  • Проверете го вашиот HTML код за грешки
  • Тие ги зачувуваат оние веб-страници со кои се поврзуваат и гледаат на кои веб-страници се поврзани со вашата содржина
  • Тие ја индексираат вашата содржина

Сепак, некои ботови се малициозни и ја пребаруваат вашата страница за адреси и формулари за е-пошта кои обично се користат за да ви испратат несакани пораки или спам. Други, дури и бараат безбедносни дупки во вашиот код.

Што е потребно за да се блокираат веб-роботите?

Пред да ја користите датотеката .htaccess, треба да ги проверите следниве работи:

1. Вашата страница мора да работи на серверот Апачи. Денес, дури и оние веб-хостинг компании кои се половина од пристојните во својата работа, ви овозможуваат пристап до потребната датотека.

2. Треба да имате пристап до сте најавените логови на серверот на вашата веб-страница, така што ќе можете да ги лоцирате оние ботови кои ги посетуваат вашите веб-страници.

Забележете дека не постои начин да можете да ги блокирате сите штетни ботови, освен ако не ги блокирате сите нив, дури и оние за кои сметате дека се корисни. Нови ботови доаѓаат секој ден, а постарите се модифицираат. Најефикасен начин е да го обезбедите вашиот код и да им отежнете на ботовите да ве спамираат.

Идентификување на ботови

Ботовите можат да се идентификуваат со IP-адресата или од нивната "низа на кориснички агент", што ја испраќаат во заглавјето на HTTP. На пример, Google користи „Googlebot“.

Можеби ви треба оваа листа со 302 ботови, ако веќе го имате името на бот што сакате да го држите подалеку користејќи .htaccess

Друг начин е да ги преземете сите датотеки за најавување од серверот и да ги отворите со помош на уредувач на текст. Нивната локација на серверот може да се промени во зависност од конфигурацијата на вашиот сервер. Ако не можете да ги најдете, побарајте помош од вашиот веб-домаќин.

Ако знаете која страница била посетена, или време на посета, полесно е да се пристапи со несакан бот. Може да ја пребарувате датотеката за најавување со овие параметри.

Еднаш, забележавте кои ботови треба да ги блокирате; потоа можете да ги вклучите во датотеката .htaccess. Забележете дека блокирањето на бот не е доволно за да се запре. Може да се врати со нова IP или име.

Како да ги блокирате

Преземете копија од датотеката .htaccess. Направете бекап ако е потребно.

Метод 1: блокирање со IP

Овој код, го блокира ботот користејќи ја IP адресата 197.0.0.1

Нарачајте, негирајте, дозволете

Одбиј од 197.0.0.1

Првата линија значи дека серверот ќе ги блокира сите барања што одговараат на обрасците што сте ги навеле и ќе им овозможи на сите други.

Втората линија му кажува на серверот да издаде страница од 403: забрането

Метод 2: Блокирање од агенти на корисници

Најлесен начин е да се користи моторот за препишување на Apache

Преработи повторно

Преработете гоCond% {HTTP_USER_AGENT} BotUserAgent

Препишете го правилото. - [F, L]

Првата линија гарантира дека е овозможен модулот за препишување. Втората линија е услов на кој се однесува правилото. "F" во редот 4 му кажува на серверот да врати 403: Забрането додека "L" значи дека ова е последното правило.

Потоа ќе ја поставите датотеката .htaccess на вашиот сервер и ќе ја презапишете постојната. Со текот на времето, ќе треба да ја ажурирате IP-страницата на ботот. Во случај да направите грешка, само поставете ја резервната копија што сте ја направиле.