Crawl budget - co to jest i jaki ma wpływ na SEO?

  Ostatnia aktualizacja: 25 września 2024

Pojawianie się na wysokich pozycjach w wynikach wyszukiwania to cel, do którego dąży wiele stron internetowych. Pozycjonowanie się na najbardziej pożądane frazy odpowiadające działalności można przyrównać do nieustannego wyścigu. Konkurencja w popularnych branżach przeważnie nigdy nie śpi, dlatego ciągłe monitorowanie strony i analiza podobnych jest nieodłącznym elementem w prowadzeniu biznesu w Internecie. Aby jednak mieć jakąkolwiek możliwość pojawiania się na wysokich pozycjach, podstrony naszej witryny muszą być zaindeksowane. Indeksacja natomiast w dużej mierze zależeć może od właśnie crawl budgetu.

Czym jest Crawl Budget?

Crawl budget (z ang. budżet indeksowania) to pojęcie używane w SEO dosyć często. Można je określić jako możliwości robotów Google w indeksowaniu naszej strony. Każda strona bowiem może posiadać inny crawl budget, który zależny jest od wielu czynników. Niezależnie od ilości podstron każdy adres na stronie jest skanowany osobno, więc każdy potrzebuje osobnej uwagi od robota Google. Użytkownicy szukają informacji w wyszukiwarce, a wyszukiwarka chce im zapewnić jak najlepsze wyniki. Z tego też powodu roboty Google stale przeglądają sieć i skanują witryny w poszukiwaniu wartościowych treści. Takie skanowanie jest jednak objęte pewnymi ograniczeniami – roboty Google mają “wyznaczony czas” na przebywanie na danej stronie, tymi limitami można nazwać właśnie “budżet indeksowania”.

Crawl budget lubi się z popularnymi witrynami, które otrzymują częste aktualizacje i do których pozyskuje się wartościowe linki. Takie strony mogą być częściej indeksowane. W terminie crawl budgetu możemy wyróżnić jeszcze dwa jego elementy, jakimi jest: crawl rate limit oraz crawl demand.

Crawl rate limit

Crawl Rate Limit to pojęcie powiązane z Crawl Budget, choć nie jest bezpośrednio od niego zależne. Crawl rate limit oznacza ilość żądań, jakie wyszukiwarka może wysłać na serwer do danej strony w określonym czasie, bez przeciążania go. Crawl rate limit zależne jest od czynników takich jak: wydajność serwera i stabilność strony.

  • Wydajność serwera – czas odpowiedzi serwera ma duże znaczenie w przydzielaniu Crawl Rate Limit. Serwery, które reagują wolno na zapytania, mogą spowodować, że wyszukiwarki zmniejszają tempo crawlowania strony. Ważnym czynnikiem są również zasoby serwera, ich moc obliczeniowa i przepustowość pozwalająca im obsłużyć więcej zapytań w krótszym czasie.
  • Stabilność strony – to kolejny ważny element, który pomaga określić wyszukiwarkom o przydzielanym crawl rate limit. Jeśli serwer często zwraca błędy lub strona często jest niedostępna, może to zmniejszyć częstotliwość odwiedzin robotów Google. Na crawl limit rate może wpływać też ilość przekierowań, czy pojawiających się błędów 404/410.
  • Poprzedni wzór crawlowania – wyszukiwarka Google może analizować również swoje wcześniejsze próby indeksowania. Odnosi się to nieco do możliwości serwera i jeśli poprzednie skanowanie odbywało się bezproblemowo, to wyszukiwarka może wówczas zwiększyć Crawl Rate Limit. Uzna bowiem, że serwer poradzi sobie z większą liczbą zapytań.
  • Popularność witryny – strony, które są popularne i mają znaczenie dla użytkowników, mogą mieć większy Crawl Rate Limit.

Crawl Demand

Crawl Demand można określić jako częstotliwość indeksacji i może odnosić się do popularności witryny. Strony, które są chętnie odwiedzane przez użytkowników i które otrzymują częste aktualizacje, cieszą się zainteresowaniem również wśród robotów Google. Takie strony są dobrze widziane przez roboty Google i doceniane, bo crawlerom zależy na tym, by docierać do świeżych zawartości, aktualnych treści. Oczywiście nie należy tego odbierać jako zachęty do częstego publikowania „byle jakich” postów. Dodawanie niskiej jakości i wartości treści nie przyczyni się do zwiększenia Crawl budgetu. Może wręcz przeciwnie – zaszkodzić stronie.

Crawl demand jest zatem zależny od dwóch głównych czynników:

  • Popularność strony – witryna, która jest chętnie odwiedzana przez użytkowników, posiada wiele linków prowadzących do niej, ma zazwyczaj wyższy Crawl Demand. Wyszukiwarkom zależy, by dostarczać użytkowników najlepsze i najbardziej aktualne treści, stąd regularnie starają się aktualizować swoje indeksy dla takich stron, które są często aktualizowane i dostarczają wartościowy content.
  • Aktualizacja treści – strony, które dbają o aktualizowanie treści i nowe aktualności mają przeważnie wyższy Crawl Demand. Warto jednak wiedzieć, że częstotliwość nie może umniejszać jakości. Mało przydatne treści o niskiej jakości nie zapewnią zwiększonego Crawl Budgetu.

Na co wpływa budżet indeksowania?

Budżet indeksowania, jak już było wspomniane, jest ważnym pojęciem, który odnosi się do maksymalnej liczby stron, które roboty indeksujące Google mogą odwiedzić i zindeksować na danej witrynie w konkretnym czasie. Roboty Google mają ograniczony czas, dlatego może się zdarzyć, że niektóre strony będą pomijane lub ich indeksacja będzie odkładać się w czasie.

Z problemem ilości budżetu indeksowania często muszą mierzyć się duże sklepy internetowe lub portale informacyjne. Budżet indeksowania bardzo często może być też marnowany, kiedy na stronie pojawia się wiele podstron z błędami, problemami technicznymi czy zduplikowanymi stronami. Takie podstrony marnują budżet indeksowania, ponieważ roboty muszą poświęcać zasoby na przetwarzanie niepotrzebnych stron.

Ważne jest więc pilnowanie, by w witrynie nie pojawiały się błędy 404, które mogą niepotrzebnie wykorzystywać budżet. Podobnie ma się sprawa ze zduplikowanymi stronami – wpływ mogą mieć nie tylko na budżet indeksowania, ale również obniżać pozycję tych podstron, które są dla nas istotne i które chcielibyśmy, aby pokazywały się wysoko w rankingu wyszukiwania. Dzieje się to dlatego, że Google w przypadku zduplikowanych podstron może nie wiedzieć, która jest tą ważną stroną, którą warto pokazać użytkownikom.

Czy można zoptymalizować budżet indeksowania?

Optymalizacja budżetu indeksowania jest jak najbardziej możliwa i stanowi ważne działanie w kontekście poprawiania widoczności strony w wynikach wyszukiwania. Oto kilka rzeczy, o które warto zadbać, aby poprawić budżet indeksowania strony internetowej:

Poprawa wydajności strony

Optymalizacja czasu ładowania strony może wpłynąć na działanie strony, co sprawi, że roboty Google będą mogły zaindeksować więcej stron w krótszym czasie. Warto przyjrzeć się wydajności strony, posługując się takimi narzędziami jak PageSpeed Insight, i wyeliminować pojawiające się problemy, które mogą spowalniać stronę.

Używanie kanonicznych adresów URL

Niektóre podstrony mogą się duplikować, lecz niekiedy nie można ich usunąć, przekierować czy zmienić. Często ten problem pojawiać się może w sklepach internetowych, a mianowicie w kategoriach. Powtarzający się opis na kolejnych stronach paginacji zależny jest jednak od samego zbudowania struktury strony. Często możemy spotkać jednak powtarzające się opisy jednej i tej samej kategorii na kolejnych jej podstronach. Jeśli nie użyjemy wówczas linku kanonicznego, możemy doprowadzić do duplikacji treści. Link kanoniczny zwykle nadajemy na najważniejszy adres URL, czyli w tym przypadku zwykle jest to czysty adres URL głównej kategorii. Adresy, które są kolejnymi podstronami głównej kategorii i mają numerację, są traktowane jako te „mniej ważne”, jednak w głównej mierze ma to zapobiec duplikacji treści, która może mieć wpływ na budżet indeksowania.

Użycie pliku robots.txt

Aby zoptymalizować budżet indeksowania, warto przyjrzeć się pliku robots.txt. Pozwala on kontrolować tę części witryny, które mają być indeksowane i te, które mogą być pominięte. Często bowiem zdarza się, że na stronach internetowych znajdują się podstrony, które niekoniecznie muszą być widoczne w wyszukiwarkach (np. regulaminy, koszyki zakupowe, strony logowania itp.). Blokada takich podstron może pozytywnie wpłynąć na budżet indeksowania – blokujemy bowiem dostęp robotom do podstron, które nie są dla nas istotne, dzięki czemu mogą się one skupić na przeszukiwania ważniejszych części witryny. W pliku robots.txt warto też zablokować dynamiczne parametry adresów URL, które często pojawiają się w sklepach internetowych lub stronach, które posiadają np. sortowanie produktów. Takie strony mogą bowiem prowadzić do duplikacji treści, tym samym marnując budżet indeksowania.

Linkowanie wewnętrzne

Efektywne i logiczne linkowanie wewnętrzne jest istotne, zwłaszcza jeśli chcemy, by nie tylko użytkownicy mieli łatwy dostęp do zamieszczanych przez nas treści czy produktów, ale również roboty. Łatwe przemieszczenia robotów po witrynie może być zawdzięczane właśnie dobremu linkowaniu wewnętrznemu. Warto zatem, aby na stronie linkować do ważnych stron, jednak należy pamiętać, by struktura strony nie była zbyt głęboka. Dostęp do podstron z głównej strony powinien być możliwy w kilku kliknięciach. Będzie to nie tylko ułatwieniem dla robotów, ale również logiczne dla samych użytkowników – zbyt głęboka struktura linkowania może prowadzić do frustracji i spowodować, że użytkownicy opuszczą stronę, jeśli nie znajdą w łatwy sposób interesujących ich rzeczy.

Usuwanie nieaktualnych treści

Czasami może zdarzyć się tak, że jakiś produkt lub podstrona usługowa całkowicie znika z naszej oferty. Mimo to nadal możemy ją znaleźć w sieci zaindeksowaną, chociaż może ona nie przenosić żadnych istotnych informacji. Niekiedy warto usuwać nieaktualne treści, zwłaszcza jeśli wiemy, że nie będą dalej wykorzystywane w naszym biznesie. UWAGA! Należy jednak sprawdzić, czy podstrona przynosi ruch, czy prowadzą do niej linki zwrotne, czy w jakiś sposób może ona sprawić, że nasza strona straci na ruchu i wartości. Każdy przypadek należy zbadać z osobna, by uniknąć pochopnych decyzji o usunięciu podstron, które mogą mieć wpływ na naszą stronę. Często w przypadku takich nieaktualnych treści stosuje się przekierowania. Warto zatem przed definitywną decyzją o usunięciu podstron, zbadać jej zawartość, stan indeksacji, linkowanie i sprawdzić, czy pojawia się na frazy kluczowe, które mogą przynosić naszej stronie ruch.

Monitorowanie Google Search Console

Ważnym narzędziem, którego należy regularnie używać, jest Google Search Console. Raporty zindeksowanych stron i stron niezindeksowanych to bardzo ważny element w budowaniu widoczności strony. W GSC możemy sprawdzić, które strony nie są zaindeksowane i z jakiego powodu. Często to właśnie w Google Search Console możemy dostrzec podstrony, które się duplikują, posiadają błędy 404 lub z innego powodu Google nie może ich zaindeksować. Regularny monitoring GSC pozwala dostrzec błędy indeksowania i zidentyfikować obszary wymagające poprawy. A jak już wiadomo każda podstrona ma znaczenie, jeśli chodzi o wpływ na budżet indeksowania. Musimy zatem pilnować podstron, które posiadają błędy, duplikują treści lub z jakiegoś innego powodu nie są indeksowane (a być może powinny, bo są niezwykle istotne dla naszej firmy).

Dbanie o jakość treści na stronie

Crawl budget można również optymalizować poprzez regularną publikację wartościowych treści. Ważne jest przy tym zachowanie pewnej regularności, bo boty wyszukiwarki chętnie odwiedzają często aktualizowane strony. Należy jednak pamiętać, że nie ilość, a jakość ma tutaj też ogromne znaczenie. Treści publikowane często o wątpliwej jakości nie wpłyną na budżet indeksowania. Wręcz przeciwnie – niekiedy mogą stronie nawet zaszkodzić. Google lubi treści, które są unikalne i mogą być przydatne dla użytkowników. Dlatego dbanie o jakościowe treści to bardzo ważny element, który można traktować poniekąd jako optymalizację budżetu indeksowania.

Oferujemy również: