Većina iskusnih blogera zasigurno zna što je robots.txt i zašto vam je potrebna ova datoteka. No, malo je autora koji odmah požurivaju stvoriti datoteku robots.txt nakon instalacije bloga na WordPressu.
Robots.txt je tekstualna datoteka koja se prenosi u korijenski direktorij vašeg web mjesta i sadrži upute za indeksiranje. Glavna svrha njegove upotrebe je zabraniti indeksiranje pojedinih stranica i odjeljaka na web mjestu. Međutim, pomoću datoteke robots.txt možete odrediti ispravno zrcalo domene, propisati put do karte web stranice i slično.
Većina modernih tražilica naučila je dobro se kretati popularnim CMS-om i obično ne pokušava indeksirati sadržaj koji za to nije namijenjen. Na primjer, Google neće indeksirati vaše administrativno područje WordPress bloga čak i ako ga ne navedete izravno u robots.txt. Međutim, u nekim slučajevima upotreba izravnih zabrana i dalje može biti korisna. A mi prvenstveno govorimo o zabrani dvostrukog sadržaja.
Neki webmasteri idu toliko daleko da zabranjuju indeksiranje stranica s kategorijama i oznakama, jer njihov sadržaj djelomično duplicira sadržaj glavne stranice. No većina je ograničena na zabranu trackback i feed stranica, koje u potpunosti dupliciraju sadržaj članaka i uopće nisu namijenjene tražilicama. Takva mjera predostrožnosti ne samo da će rezultate web stranice učiniti "čišćim", već će vas i spasiti od mogućih filtara za pretraživanje, posebno nakon uvođenja novog algoritma Google Panda.
Evo preporučenih smjernica za datoteku robots.txt (funkcionirat će za gotovo svaki WordPress blog):
Korisnički agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-content / cache Disallow: / wp-content / themes Disallow: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Imajte na umu da su u robots.txt administrativne mape wp-admin i wp-includes potpuno zatvorene za indeksiranje. Mapa wp-content samo je djelomično zatvorena, jer sadrži direktorij za prijenos, koji sadrži sve slike s vašeg bloga koje treba indeksirati.
Sve što trebate je kopirati direktive iz gornjeg koda (imajte na umu da svaka direktiva mora biti napisana u novom retku), spremiti ih u tekstualnu datoteku koja se naziva robots.txt i prenijeti u korijenski direktorij vaše web stranice.
Uvijek možete provjeriti radi li robots.txt ispravno putem sučelja Google Webmaster Tools i Yandex Webmaster.