W�druj�c po stronach www i korzystaj�c z link�w, na jakie trafia, robot Gooru - Gooru-WebSpider/1.0 (Linux; PI) - zapisuje �ci�gni�te dokumenty w swoim indeksie.

Za pomoc� protoko�u Robots Exclusion Protocol mo�na poinformowa� robota Gooru, �e nie powinien wchodzi� do danej witryny lub jej niekt�rych katalog�w, lub �eby nie czyta� niekt�rych dokument�w w tych katalogach.

Mo�na to zrobi� na dwa sposoby:
  • tworz�c plik robots.txt, dotycz�cy ca�ej witryny,
  • zabraniaj�c robotowi indeksowania poszczeg�lnych dokument�w, za pomoc� metatagu robots umieszczonego w tych dokumentach.

    Plik robots.txt

    Plik robots.txt powinien znajdowa� si� w g��wnym katalogu strony, np. dla strony o nazwie www.strona.com powinien mie� adres www.strona.com/robots.txt

    W pliku robots.txt mo�na zabroni� wchodzenia do witryny wszystkim robotom lub tylko niekt�rym. Mo�na zabroni� im wchodzenia w og�le lub tylko do niekt�rych katalog�w, jakie si� w niej znajduj�.

    Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik sk�adaj�cy si� z: Pole User-agent oznacza, jakich program�w dany rekord dotyczy. Pola Disallow to prefiksy urli, kt�rych �ci�ga� nie wolno.

    Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach program�w.

    UWAGA! Kolejno��, w jakiej wymienione s� nazwy robot�w, nie ma znaczenia.

    Dok�adny opis (po angielsku) pliku robots.txt znajduje si� pod adresem: http://www.robotstxt.org/wc/norobots.html

    Je�li w witrynie nie ma w og�le pliku robots.txt, roboty stwierdzaj�, �e wolno im wchodzi� do witryny i czyta� wszystkie pliki.

    Metatag robots

    Metatag robots instruuje roboty wyszukiwarek, jak maj� indeksowa� serwis. Za pomoc� 2 parametr�w mo�na okre�li�, gdzie chcemy wpu�ci� robota i co mo�e indeksowa�.

    Metatag robots jest usytuowany w nag��wku dokumentu HTML i mo�e wygl�da� nast�puj�co:

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

    CONTENT mo�e mie� zawarto�� jak powy�ej lub dowoln� kombinacj� s��w NOINDEX, NOFOLLOW, tak�e wykorzystuj�c s�owa INDEX, FOLLOW. Brak kt�rego� ze s��w oznacza, �e dana akcja jest dozwolona.

    NOINDEX zapobiega indeksowaniu strony przez roboty.

    NOFOLLOW zabrania robotom indeksowania stron, do kt�rych linki znajduj� si� na stronie.

    INDEX - pozwala robotom indeksowa� dokument HTML.

    FOLLOW - pozwala robotom indeksowa� wszystkie strony, do kt�rych dotrze poprzez linki na odwiedzanej stronie.

    NOIMAGEINDEX - zapobiega indeksowaniu grafiki na stronie HTML - tekst mo�e by� indeksowany.

    Nie ma znaczenia, co jest w metetagu robots w danym dokumencie, je�li dost�pu do tego dokumentu zabrania plik robots.txt.

    Przygotowanie strony do indeksowania

    Czasem zdarza si�, �e nie ma potrzeby indeksowa� poszczeg�lnych element�w dokument�w, gdy� nie wnosz� �adnej nowej tre�ci do bazy danych wyszukiwarki.

    Mo�na w�wczas stron� tak przygotowa�, aby jej poszczeg�lne fragmenty nie by�y indeksowane przez wyszukiwark�. Fragmenty dokument�w, kt�re nie powinny by� indeksowane przez robota Gooru powinny znajdowa� si� pomi�dzy nast�puj�cymi znacznikami:

    <!--GooruNoindexStart-->         <!--GooruNoindexStop-->

    Przy tworzeniu strony www nale�y r�wnie� pami�ta�, i� robot Gooru nie indeksuje element�w przygotowanych w technologii Flash, oraz element�w tekstowych wstawionych jako pliki graficzne. Je�li pierwsza strona serwisu jest w ca�o�ci wykonana we Flash'u i do kolejnych podstron nie prowadzi �aden link w formacie HTML robot nie znajdzie pozosta�ych stron w serwisie.