Crawl budget to pojęcie, z którym powinien zapoznać się każdy właściciel strony www. Czym więc jest crawl budget? Dlaczego jest ważny i jak powinna wyglądać jego optymalizacja? O tym poniżej. Zachęcamy do lektury.
Czym jest crawl budget?
Roboty Google przymierzają strony internetowe, skanują je, indeksują. Dzięki temu w wynikach wyszukiwania pojawiają się strony w najlepszym stopniu dopasowane do intencji użytkownika. Pamiętajmy jednak, że zasoby Google są ograniczone. Google decyduje, jak często będzie odwiedzał naszą witrynę, jak dużo czasu na niej spędzi, ile robotów ją odwiedzi.
Tutaj pojawia się pojęcie crawl budget.
Crawl budget to częstotliwość, z jaką roboty indeksują stronę www. To limit czasu i mocy obliczeniowej przeznaczonej na indeksację danej strony. Na crawl budget składają się:
- Crawl Rate Limit ‒ to limit dotyczący częstotliwości odwiedzania podstron, wytyczne, ile witryn w danym czasie może być odwiedzonych przez roboty.
- Crawl demand ‒ Google dąży do tego, by wyświetlać jak najbardziej aktualne treści. Docenia witryny, na których regularnie pojawia się nowy content.
- Crawl health – to szybka odpowiedź serwera, poprawne kody odpowiedzi, prędkość działania strony www.
Co wpływa na crawl budget?
Czy mamy jakikolwiek wpływ na to, jak często roboty Google będą indeksować naszą stronę www? Tak. Wśród czynników, które mogą podnieść jakość indeksacji, wymienić możemy:
- Serwer ‒ roboty nie chcą obciążać strony www, zaburzać doświadczeń użytkownika, dopasowują więc liczbę jednoczesnych połączeń do wydajności strony. Im mniej wydajnie działa strona, tym mniejszy jest crawl budget. Warto więc zadbać o to, by strona znajdowała się na wysokiej jakości serwerze.
- Optymalizacja prędkości strony ‒ wolno działająca strona to mniejszy crawl budget. Optymalizacja prędkości ładowania jest więc konieczna.
- Kody odpowiedzi serwera ‒ im częściej pojawia się kod 301 lub błędy 404/410, tym skuteczność indeksowania będzie niższa.
- Wartościowy content ‒ regularne publikacje nowych tekstów, jak i aktualizacja treści, które już znajdują się na stronie www, to sygnał dla robotów, że na stronie cały czas się coś dzieje i, że warto ją odwiedzać. Jeśli na stronie znajdują się duplikaty treści, należy je usunąć.
- Plik robots.txt ‒ błędy w pliku robots.txt i nieświadome zablokowanie indeksacji podstron, które powinny być indeksowane.
- Linkowanie zewnętrzne ‒ wartościowe linki zewnętrzne to głosy, które polecają naszą stronę www. Wysokiej jakości linki zewnętrzne to sposób na wysoki crawl budget i lepszą widoczność w rankingu Google.
- Linkowanie wewnętrzne ‒ za pomocą linków wewnętrznych możemy ”wskazać” robotom, które podstrony są dla nas ważne. Pokierować roboty na strony, które są rzadko odwiedzane.
- Plik sitemap.xml ‒ sitemap to plik zawierający listę podstron danej witryny. Prawidłowo przygotowana sitemapa pomoże robotom zrozumieć strukturę strony i pozytywnie wpłynie na jakość indeksacji.
- Google Search Console ‒ jeśli roboty Google nie odwiedzają naszej strony, mimo że wykonujemy zalecane działania, mamy jeszcze jedną możliwość. We wspomnianym narzędziu możemy ręczne zgłosić adres URL do indeksacji.
Jak sprawdzić, czy podstrona jest zaindeksowana?
Jak sprawdzić, czy podstrony są zaindeksowane? Tutaj dużą pomocą będzie Google Search Console. Narzędzie dostarczy nam informacji na temat zaindeksowanych i niezaindeksowanych podstron. W przypadku adresów URL, które nie są indeksowane, otrzymamy informacje na temat powodu braku indeksacji, mogą to być następujące komunikaty:
- Strona zeskanowana, ale jeszcze niezaindeksowana.
- Strona wykryta, a obecnie niezaindeksowana.
- Duplikat, użytkownik nie oznaczył strony kanonicznej.
- Pozorny błąd 404.
- Duplikat, przesłany URL nie został oznaczony jako strona kanoniczna.
Informacje na temat indeksowania znajdziemy także w logach serwera.
Podsumowując, crawl budget jest miarą częstotliwości, z jaką roboty odwiedzają naszą stronę www. Mamy pewien wpływ na to, jak często roboty będą zaglądać na witrynę. Najczęściej odwiedzane są strony, które działają wydajnie, z unikalnym contentem i wartościowym profilem linków zewnętrznych, mające przemyślaną siatkę linków wewnętrznych.