Jakie znaczenie w SEO ma plik robots.txt?

Spis treści

Jeśli Twoja strona, mimo podejmowanych działań, wciąż nie jest widoczna w wynikach wyszukiwania, prawdopodobnie problem dotyczy indeksacji. Aby serwis znalazł się w wyszukiwarce roboty Google muszą go zauważyć, zeskanować oraz zaindeksować. Plik robots.txt jest niezwykle ważnym aspektem, który warunkuje do jakich podstron serwisu roboty mają dostęp. Jak go poprawnie zbudować?

Plik robots.txt – co to i dlaczego jest potrzebny?

Plik robots.txt jest plikiem tekstowym, który umieszcza się w folderze głównym domeny. Informacje jakie są w nim zawarte to przede wszystkim reguły określające jakie strony mogą być dostępne dla robotów, a do których dostęp jest przez nas zablokowany. Warto zauważyć, że dyrektywy umieszczone w pliku stanowią jedynie wskazówkę dla botów skanujących witrynę i nie w każdym przypadku będą brane pod uwagę.

Dobrze zbudowany plik robots.txt pozwoli przede wszystkim na oszczędność crawl budgetu. Dzięki zawartym w nim dyrektywom ograniczającym dostęp do stron, które są np. mało istotne z punktu widzenia użytkownika, roboty wezmą pod uwagę te adresy URL, na których bardziej nam zależy.

Co umieścić w pliku robots.txt?

Do stworzenia pliku robots.txt możemy wykorzystać zwykły Notatnik, znajdujący się w komputerze. Jest to sposób, który wymaga znajomości konstrukcji pliku i ręcznego tworzenia wszystkich reguł.

Jeśli chcemy zautomatyzować ten proces możemy wykorzystać generatory pliku robots.txt lub utworzyć go bezpośrednio z poziomu CMSa. Ostatnie rozwiązanie jest najbardziej optymalne, ze względu na automatyczne dodawanie reguł, dzięki czemu plik jest na bieżąco aktualizowany.

Aby plik działał prawidłowo, niezbędne jest umieszczenie w nim kilku podstawowych elementów.

Dyrektywy jakie są zawarte w pliku powinny być formułowane zgodnie ze standardem Robots Exclusion Protocol(REP), który jest odczytywany przez boty wyszukiwarek.

User-agent

Tworząc plik robots.txt możemy skierować nasze informacje do różnych robotów indeksujących albo skupić się na jednym, konkretnym adresacie. Najczęstszym rozwiązaniem jest kierowanie dyrektyw do robotów wszystkich dostępnych wyszukiwarek.

Dyrektywa, jaką powinniśmy wtedy zastosować to:

User-agent: *

Natomiast prawidłowo skonstruowana reguła skierowana konkretnie do botów Google wygląda następująco:

User-agent: Googlebot

Disallow i Allow

Są to reguły określające do jakich adresów URL i katalogów określone roboty mogą mieć dostęp.

Automatycznie boty indeksujące mogą odwiedzać wszystkie adresy URL znajdujące się na stronie. Biorąc pod uwagę wspomniany wyżej crawl budget dobrym rozwiązaniem jest zablokowanie dostępu do niektórych podstron.

Właśnie w tym celu stosuje się dyrektywę Disallow.

User-agent: Gogglebot

Disallow: /wp-admin/

Do czego więc potrzebujemy reguły Allow?

W każdej sytuacji możemy mieć do czynienia z wyjątkiem. Nie inaczej jest również w przypadku dostępu botów do podstron serwisu. Jeśli wewnątrz reguły blokującej znajduje się adres URL, do którego chcemy wpuścić roboty indeksujące, możemy użyć komendy Allow.

Prawidłowa konstrukcja w takim przypadku wygląda następująco

User-agent: Googlebot

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php/

Możemy również podzielić plik uwzględniając inne reguły dla botów różnych wyszukiwarek, tworząc dwie oddzielne dyrektywy.

Plik sitemap.xml

Plik robots.txt to także idealne miejsce na umieszczenie adresu URL mapy serwisu w formacie XML. Stanowi ona znaczne ułatwienie w dotarciu do podstron serwisu dla robotów indeksujących. Mapa strony w formacie XML wspiera proces pozycjonowania oraz pokazuje hierarchiczną strukturę witryny.

Zgodnie z wytycznymi od Google adres URL mapy powinien być pełny, aby roboty wyszukiwarki odczytały go poprawnie.

Sitemap: https://nazwa-domeny.pl/plik-sitemapy.xml

Jak sprawdzić plik robots.txt?

Po utworzeniu pliku warto sprawdzić, czy wszystkie informacje w nim zawarte są poprawne i skonstruowane w sposób czytelny dla robotów wyszukiwarek. Możemy to zrobić w narzędziu Google Search Console. Wystarczy się zalogować i przejść na stronę https://www.google.com/webmasters/tools/robots-testing-tool.

Narzędzie pobierze plik robots.txt, który znajduje się w domenie oraz umożliwi sprawdzenie czy dane adresy URL są zablokowane lub dozwolone przez odpowiednie dyrektywy. Program wskaże również, dzięki której regule następuje dana akcja.

Czy robots.txt jest konieczny?

Co w przypadku kiedy nie planujesz blokowania dostępu robotom do żadnej podstrony?

Plik robots.txt jest nieodłącznym elementem witryny. Jeśli robot skanujący nie odnajdzie go pod odpowiednim adresem URL uzna to za błąd 404 (strona nie istnieje) oraz oceni stronę jako źle zoptymalizowaną pod kątem SEO.

W przypadku kiedy nie chcesz blokować dostępu do podstron, możesz wykorzystać dyrektywę:

User-agent:*

Allow: /

Dzięki temu roboty dostaną informację, że domena posiada plik robots.txt i jest on poprawnie skonstruowany.

Zasady pliku robots.txt

Istnieje sporo reguł, którymi należy się kierować przy tworzeniu pliku robots.txt. Warto pamiętać o kilku najważniejszych.

plik musi mieć nazwę robots.txt i znajdować się w katalogu głównym domeny
powinien być to plik tekstowy zakodowany w formacie UTF-8
limit rozmiaru pliku według wytycznych Google wynosi 500 kB. Po przekroczeniu limitu pozostała treść jest ignorowana.
dyrektywy powinny być konstruowane według ogólnie przyjętego formatu directive: [path].
możemy umieścić w pliku komentarze dotyczące dyrektyw. Wystarczy przed treścią komentarza umieścić znak #, a roboty go zignorują.

Tworząc stronę internetową lub rozpoczynając działania dotyczące jej pozycjonowania, pamiętajmy o podstawowych elementach, takich jak plik robots.txt. Dzięki temu, niewielkim nakładem pracy możemy poprawić indeksowanie witryny, co z pewnością przełoży się na większy ruch i widoczność naszej strony.

Porozmawiajmy!

Karolina Jastrzebska

Autorem wpisu jest Karolina Jastrzębska. Swoją przygodę z SEO rozpoczęła w 2021 roku. Obecnie pracuje jako Specjalistka SEO w Up More.