Luty 20, 2020

Plik robots.txt – czym jest, jak go używać? Przydatne przykłady

poradnik robots txt

Jeśli jesteś osobą, która zajmuje się pozycjonowaniem lub masz swój biznes i chcesz zwiększyć jego widoczność w internecie, na pewno spotkałeś się z tajemniczą nazwą: Robots.txt. Nie wiesz co to jest ani nie wiesz jak może pomóc w pozycjonowaniu? Przeczytaj ten artykuł! A w nim:

– dowiesz się, czym jest plik robots.txt

– poznasz sposób, w jaki może pomóc przy pozycjonowaniu

– sprawdzisz przydatne przykłady konfiguracji

 

Czym jest plik robots.txt

Robots.txt to plik tekstowy umieszczany w katalogu głównym na serwerze FTP. Komunikując się z robotami wyszukiwarek przekazuje im informacje o zasobach danej strony, do których mogą mięć dostęp, a do których nie.

Przy sprawdzaniu strony internetowej, odwiedzenie pliku robots.txt jest pierwszą wykonywaną czynnością przez roboty indeksujące. Z niego dowiedzą się, czy w ogóle mogą rozpocząć sprawdzanie strony. Jeśli pliku nie ma, sprawdzą wszystko! Co często nie jest złym rozwiązaniem.

 

Nie wiesz czy twoja strona ma robots.txt?

Żeby sprawdzić, czy strona ma plik robots.txt wystarczy w pasku adresu przeglądarki wpisać mojastrona.pl/robots.txt. Większość najpopularniejszych CMSów automatycznie generuje taki plik.

 

Jak utworzyć plik robots.txt?

Z racji tego, że jest to zwykły plik tekstowy, wystarczy prosty edytor tekstu, na przykład notatnik. Przykładowa konfiguracja wygląda tak:

User-agent: *

Disallow:

Taka dyrektywa pozwala wszystkim robotom na dostęp do całości zasobów na stronie. User-agent określa jakich robotów dotyczą instrukcje, a * oznacza, że wytyczne są dla wszystkich. Disallow informuje, które foldery lub strony są wyłączone z indeksowania. Poniżej przykład, jak możemy instrukcję rozbudować:

User-agent: Googlebot

Disallow: /pliki/

Allow: /pliki/omnie.html

Te wytyczne dotyczą tylko robota Google, co określiliśmy poprzez User-agent. Blokujemy mu dostęp do całego katalogu z wyłączeniem pliku omnie.html.

Plik musimy zapisać pod nazwą robots z rozszerzeniem .txt (robots.txt) – każda inna wersja jest błędna!

 

Dlaczego plik robots.txt jest taki ważny?

Wiemy już, że robots.txt to pierwsze miejsce, w którym roboty indeksujące szukają informacji. Dzięki temu możemy zablokować im dostęp do strony, nad którą ciągle pracujemy. W ten sposób nie pojawi się ona w wynikach wyszukiwania.

Nie będziemy wysoko w wynikach, jeśli roboty zobaczą słabe jakościowo elementy na naszej stronie. Google dba o to, żeby nie marnować ich czasu. W pliku, dzięki odpowiedniej konfiguracji, możemy wykluczyć widoczność niepożądanych elementów, które mogą mieć wpływ na pozycję naszej strony.

Nasza strona może zawierać dane, które chętnie pokażemy na przykład, potencjalnym klientom. Ale już nie za bardzo chcemy, żeby ktoś nas dzięki nim znalazł. Możemy zablokować robotom dostęp do takich danych.

 

Jakie strony zablokować?

Poznaliśmy znaczenie pliku robots.txt, więc zobaczmy strony, które warto wykluczyć z indeksowania:

  • Automatycznie generowane strony,
  • Katalogi zawierające pliki konfiguracyjne,
  • Strony pokazujące wyniki wyszukiwania,
  • Strony ze słabą zawartością, które mogą zaszkodzić pozycji strony.

Blokując dostęp do takich zasobów możemy być pewni, że nasza strona nie otrzyma kar do pozycji oraz zostanie znaleziona dzięki tylko tej zawartości, której chcemy.

 

Przykładowe konfiguracje pliku robots.txt

Poniżej przykładowe wytyczne dla robotów indeksujących, które mogą się przydać.

Dostęp wszystkich robotów do wszystkich zasobów:

User-agent: *

Disallow:

Zablokowanie dostępu do całej strony:

User-agent: *

Disallow: /

Zablokowanie indeksowania dwóch folderów moje i zdjęcia:

User-agent: *

Disallow: /moje/

Disallow: /zdjecia/

Zablokowanie dostępu do plików .png:

User-agent: *

Disallow: /*.png$

Zablokowanie dostępu robotowi wyszukiwarki Bing do konkretnej podstrony:

User-agent: Bingbot

Disallow: /moje/omnie.html

Podsumowanie

Praktycznie wszystkie najpopularniejsze systemy zarządzania stroną lub sklepem internetowym posiadają automatycznie utworzony plik robots.txt. Nie musimy więc się przejmować czy go mamy, ale czy jest dostosowany do naszej strony. Plik powinien być dopasowany indywidualnie do każdej strony i jej zawartości. Warto również sprawdzić czy odpowiednio go skonfigurowaliśmy poprzez Google Search Console.