ZOEKEN

Hoe een site of fragmenten ervan uit de Google-index te verwijderen

Volgens het concept van indexering, goedgekeurd door Google,De volledigheid, objectiviteit van de informatie en de correspondentie met de zoekopdracht wanneer de resultaten worden gegeven, worden in aanmerking genomen. Als een site met illegale inhoud de index binnengaat of als de bron is bedoeld voor spam, worden de pagina's van een dergelijke site niet gemarkeerd in de algemene database van de zoekmachine. Het is belangrijk voor ons om te leren hoe u een site van de server kunt verwijderen op basis van zoekresultaten.

Geen indexeringsopties voor Google

Zodra de crawler een verzamelprogramma isinformatie over nieuwe bronnen - scant de site per pagina, en als deze voldoet aan de vereisten van het beleid van Google met betrekking tot parsering, wordt deze index geïndexeerd. Maar we zullen ook beschrijven hoe u uw site of afzonderlijke fragmenten kunt verwijderen voor zoekmachines die robots.txt gebruiken - een aanwijzer en tegelijkertijd een zoekterminator.

Om de volledige bron van de uitgifte uit te sluiten,de hoofdmap van de server waarop de site zich bevindt, maakt een specifieke tekstzone aan - de eerder genoemde robots.txt. Deze zone wordt verwerkt door zoekmachines en werkt volgens de gelezen instructies.

Houd er rekening mee dat de Google-zoekmachineindexeer de pagina, zelfs als de gebruiker deze niet mag bekijken. Wanneer de browser 401 of 403 reageert, is "Toegang is niet geldig", dit is alleen van toepassing op bezoekers, niet op verzamelprogramma's voor deze zoekserver.

Als u wilt weten hoe u een site kunt verwijderen uit de indexering van zoekopdrachten, moet u de volgende regels invoeren in de tekstaanwijzer:

User-agent: Googlebot

Disallow: /

Dit geeft aan de zoekrobot aan dat het verboden is om de volledige inhoud van de site te indexeren. U kunt als volgt een Google-site verwijderen, zodat de site geen resource in de lijst met gedetecteerde sites cached.

Scanopties voor verschillende protocollen

Als u afzonderlijke standaarden moet vermeldenLinks waarvoor u specifieke regels wilt toepassen voor het indexeren van Google, bijvoorbeeld afzonderlijk voor hypertext-protocollen http / https, moet ook op de volgende manier in robots.txt worden geschreven (voorbeeld).

(http://yourserver.com/robots.txt) - de domeinnaam van uw site (ongeacht)

User-agent: * - voor elke zoekmachine

Toestaan: / - volledige indexering toestaan

Hoe de site volledig van het probleem te verwijderen voor het https-protocol

(Https://yourserver.com/robots.txt):

User-agent: *

Disallow: / volledig verbod op indexering

Urgente verwijdering van de URL van de bron uit de zoekresultaten van Google

Als u niet wilt wachten op opnieuw indexeren, enDe site moet zo snel mogelijk worden verborgen. Ik raad aan om de service http://services.google.com/urlconsole/controller te gebruiken. Pre-robots.txt moet al in de hoofdmap van de siteserver worden geplaatst. Het moet worden voorgeschreven passende instructies.

Als de aanwijzer om wat voor reden niet beschikbaar isvoor het bewerken van in de root directory, maak je het alleen in de map met doelen waarvoor u wilt verbergen van de zoekmachines. Zodra u dit doet en verwijzen naar de dienst automatisch verwijderen van hypertext adressen, zal Google geen mappen die gespeld een fout in de robots.txt te scannen.

De periode van dergelijke onzichtbaarheid is vastgesteld op 3 maanden. Na deze periode wordt de directory die uit het probleem is verwijderd opnieuw door Google verwerkt.

KHoe de site te verwijderen om gedeeltelijk te scannen

Wanneer de zoekbot de inhoud van robots leest.txt, dan worden bepaalde beslissingen genomen op basis van de inhoud ervan. Stel dat je de gehele map met de naam anatom moet uitsluiten van weergave. Om dit te doen, volstaat het om dergelijke instructies te registreren:

User-agent: Googlebot

Disallow: / anatom

Of u wilt bijvoorbeeld dat alle GIF-afbeeldingen worden geïndexeerd. Voeg hiervoor de volgende lijst toe:

User-agent: Googlebot

Disallow: /*.gif$

Hier is nog een voorbeeld. Laat het nodig zijn om de parseerinformatie over dynamisch gegenereerde pagina's te verwijderen en voeg vervolgens een record van het type toe aan de aanwijzer:

User-agent: Googlebot

Disallow: / *?

Dus, ongeveer, en de regels voorzoekmachines. Een ander ding is dat het veel handiger is om de META-tag voor dit alles te gebruiken. En webmasters gebruiken vaak precies zo'n standaard die de actie van zoekmachines reguleert. Maar we zullen dit in de volgende artikelen bespreken.

  • evaluatie: