ІнтэрнэтБлогі

Як выдаліць сайт або яго асобныя фрагменты з індэкса Google

Згодна з канцэпцыяй індэксацыі, прынятай Google, ўлічваецца паўната, аб'ектыўнасць інфармацыі і адпаведнасць яе пошукаваму запыту пры выдачы вынікаў. Калі ў індэксацыю трапляе сайт з супрацьзаконным кантэнтам, ці ж рэсурс прызначаны для спаму, то старонкі такога сайта не будуць пазначаныя ў агульнай базе пошукавай сістэмы. Нам жа важна даведацца, як выдаліць сайт з выдачы сервера па выніках пошуку.

Варыянты нулявы індэксацыі Google

Як толькі пошукавы робат - праграма збору інфармацыі аб новых рэсурсах - праскануюць сайт пастаронкава, то, пры адпаведнасці патрабаванням палітыкі Google у дачыненні да парсінга, ён будзе праіндэксаваны. Але мы таксама раскажам, як выдаліць свой сайт або асобныя фрагменты для пошукавых сістэм з дапамогай robots.txt - паказальніка і адначасова абмежавальніка пошуку.

Каб выключыць з выдачы рэсурс цалкам, у каранёвай тэчцы сервера, на якім размешчаны сайт, ствараецца пэўная тэкставая зона - згаданы robots.txt. Гэтую зону апрацоўваюць пошукавыя машыны і дзейнічаюць, згодна з прачытаным інструкцыям.

Майце на ўвазе, што пошукавая сістэма Google праіндэксуюць старонку, нават калі для карыстальніка доступ да прагляду забаронены. Калі браўзэр выдае адказ 401 або 403 «Доступ ня дзейнічае», то гэта тычыцца толькі наведвальнікаў, а не праграм-зборшчыкаў для гэтага пошукавага сервера.

Каб зразумець, як выдаліць сайт з пошукавай індэксацыі, у тэкставы паказальнік варта ўпісаць такія радкі:

User-agent: Googlebot

Disallow: /

Гэта паказвае пошукаваму робату на забарону для індэксавання ўсяго змесціва сайта. Вось як выдаліць сайт Google, каб апошні не кэшаваць рэсурс у спіс выяўленых.

Варыянты сканавання для розных пратаколаў

Калі вам трэба пералічыць асобныя стандарты сувязі, для якіх вы хацелі б прымяніць асаблівыя правілы ў дачыненні да індэксацыі Google, напрыклад, асобна для гіпертэкставых пратаколаў http / https, гэта таксама трэба прапісаць у robots.txt наступным шляхам (прыклад).

(Http://yourserver.com/robots.txt) - даменнае імя вашага сайта (любое)

User-agent: * - для любой пошукавай сістэмы

Allow: / - дазволіць поўную індэксацыю

Як выдаліць сайт з выдачы цалкам для пратаколу https

(Https://yourserver.com/robots.txt):

User-agent: *

Disallow: / поўную забарону на індэксаванне

Тэрміновае выдаленне URL- адрасу рэсурсу з пошукавай выдачы Google

Калі вы не хочаце чакаць паўторнай індэксацыі, і сайт трэба схаваць як мага хутчэй, рэкамендую скарыстацца сэрвісам http://services.google.com/urlconsole/controller. Папярэдне robots.txt ужо павінен быць размешчаны ў каранёвым каталогу сервера сайта. У ім павінны быць прапісаны адпаведныя інструкцыі.

Калі паказальнік па нейкіх прычынах не даступны для рэдагавання ў каранёвым каталогу, досыць стварыць яго ў той тэчцы з аб'ектамі, для якіх патрабуецца утойванне ад пошукавых сістэм. Як толькі вы праробіце гэта і звярніцеся на сэрвіс аўтаматычнага выдалення гіпертэкставых адрасоў, Google не будзе сканаваць папкі, якія прапісана спагнаць ва robots.txt.

Перыяд такой нябачнасці усталёўваецца на 3 месяцы. Па заканчэнні гэтага тэрміну каталог, канфіскаваны з выдачы, зноў будзе апрацаваны серверам Google.

Да ак выдаліць сайт для сканавання часткова

Калі пошукавы бот чытае змесціва robots.txt, то на падставе яго змесціва прымаюцца пэўныя рашэнні. Дапусцім, вам трэба выключыць з паказу ўвесь каталог з назвай anatom. Для гэтага дастаткова прапісаць такія інструкцыі:

User-agent: Googlebot

Disallow: / anatom

Або, да прыкладу, вы хочаце, каб не індэксаваліся ўсе карцінкі тыпу .gif. Для гэтага дадайце наступны спіс:

User-agent: Googlebot

Disallow: /*.gif$

Вось яшчэ адзін прыклад. Няхай патрабуецца выдаліць з парсінга інфармацыю аб дынамічна генераваных старонках, тады дадаем у паказальнік запіс тыпу:

User-agent: Googlebot

Disallow: / *?

Вось так, прыкладна, і прапісваюцца правілы для пошукавых сістэм. Іншая справа, што значна зручней для ўсяго гэтага выкарыстоўваць тэг META. І вэб-майстры часцей выкарыстоўваюць менавіта такі стандарт, які рэгулюе дзеянне пошукавых сістэм. Але пра гэта мы пагаворым у наступных артыкулах.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 be.atomiyme.com. Theme powered by WordPress.