Crawl Budget: Cara Google Merayapi Situsmu

by Bayu Wicaksono

Crawl Budget: Cara Google Merayapi Situsmu dan Kenapa Kamu Harus Peduli

Banyak orang panik ketika halaman baru mereka tidak muncul di Google setelah dua minggu. Mereka submit ulang di Search Console, cek robots.txt berkali-kali, bahkan rebuild sitemap. Padahal masalahnya lebih mendasar: Google tidak punya cukup "jatah" untuk merayapi semua halaman di situs kamu.

Itu yang disebut crawl budget — jumlah halaman yang bersedia di-crawl Googlebot dalam periode tertentu di situsmu. Untuk situs kecil dengan 50 halaman, ini bukan isu. Tapi kalau kamu punya toko online dengan 10.000 SKU, blog dengan arsip 5 tahun, atau portal berita lokal, crawl budget bisa jadi bottleneck yang diam-diam membunuh visibilitas organik kamu.

Di artikel ini aku akan bahas cara kerja crawl budget, cara mengauditnya pakai data nyata dari Search Console, dan langkah konkret untuk mengoptimalkannya — khusus untuk konteks situs Indonesia yang sering punya struktur URL berantakan.

Apa Sebenarnya Crawl Budget Itu?

Google sendiri mendefinisikan crawl budget sebagai kombinasi dua hal: crawl rate limit (seberapa cepat Googlebot bisa crawl tanpa membebani server kamu) dan crawl demand (seberapa sering Google mau kembali ke halamanmu berdasarkan popularitas dan perubahan konten).

Jadi crawl budget bukan angka tetap. Dia dinamis. Situs dengan server lambat dapat jatah lebih sedikit karena Googlebot tidak mau bikin server kamu down. Situs dengan banyak backlink dan traffic tinggi dapat jatah lebih banyak karena Google menganggapnya penting.

Satu hal yang sering salah kaprah: crawl budget ≠ indexing. Google bisa crawl halaman tapi memilih tidak mengindeksnya. Dan sebaliknya, halaman yang tidak di-crawl ulang dalam waktu lama tetap bisa ada di index — hanya saja versinya sudah basi.

Cara Audit Crawl Budget Pakai Google Search Console

Sebelum optimasi, kamu perlu tahu kondisi sekarang. Buka Google Search Console, masuk ke Settings > Crawl Stats. Ini fitur yang banyak diabaikan padahal isinya gold.

Yang perlu kamu perhatikan:

Total crawl requests per hari. Kalau angkanya stagnan di level rendah padahal kamu rutin publish konten baru, itu sinyal ada masalah. Situs e-commerce dengan 8.000 halaman idealnya di-crawl ratusan hingga ribuan halaman per hari.

Response codes. Ini yang paling kritis. Lihat berapa persen crawl kamu berakhir dengan status 404, 301, atau 5xx. Kalau 404 kamu di atas 15%, Googlebot sedang buang-buang crawl budget di URL yang tidak ada. Aku pernah audit situs properti di Surabaya — 34% crawl mereka habis di URL 404 bekas halaman listing yang sudah dihapus. Hasilnya? Halaman baru mereka butuh 3-4 minggu untuk terindeks.

File types yang di-crawl. Kalau Googlebot banyak menghabiskan waktu di file CSS, JS, atau gambar, kamu perlu evaluasi apakah itu memang perlu.

# Cara cek cepat di terminal (butuh akses log server)
grep 'Googlebot' /var/log/nginx/access.log | \
  awk '{print $7}' | \
  sort | uniq -c | sort -rn | head -50

Kalau punya akses ke server log, ini lebih detail dari Search Console. Kamu bisa lihat persis URL mana yang paling sering di-crawl, dan apakah itu URL yang memang penting.

Lima Penyebab Crawl Budget Terbuang Sia-sia

Dari pengalaman audit puluhan situs Indonesia, ini pola yang paling sering aku temukan:

1. Parameter URL yang Tidak Dikontrol

Ini momok situs e-commerce Indonesia. URL seperti ini sangat umum:

/produk/sepatu-lari?sort=harga&filter=warna-merah&page=3&ref=homepage

Setiap kombinasi parameter menciptakan URL unik di mata Googlebot. Satu halaman kategori dengan 5 filter bisa menghasilkan ratusan URL berbeda — semua konten duplikat, semua menyedot crawl budget.

Solusinya: gunakan rel="canonical" yang konsisten, dan kalau pakai platform seperti WooCommerce atau Shopify Indonesia, pastikan plugin SEO-mu sudah handle ini. Di Search Console, kamu bisa pakai URL Parameters tool (meski Google sudah deprecated ini di Search Console versi baru, logikanya tetap relevan untuk diimplementasikan di sisi server).

2. Halaman Pagination Tanpa Batas

Blog dengan arsip 4 tahun dan pagination sampai /page/847/ adalah contoh nyata. Google akan terus crawl semua halaman itu meski kontennya sudah tidak relevan.

Yang aku rekomendasikan: pastikan halaman pagination lama tidak dilink dari mana-mana selain dari halaman pagination itu sendiri. Pertimbangkan noindex untuk halaman pagination di luar /page/2/ atau /page/3/. Ini kontroversial, tapi untuk situs yang crawl budget-nya terbatas, trade-off ini masuk akal.

3. URL Sesi dan Tracking Parameter

Kalau kamu pakai sistem affiliate atau tracking internal dengan parameter seperti ?utm_source= atau ?sid=abc123 di URL internal (bukan hanya eksternal), Googlebot akan memperlakukan setiap URL itu sebagai halaman berbeda. Pastikan semua link internal bersih dari parameter tracking.

4. Halaman Tipis yang Tidak Dihapus

Tag pages, author pages dengan satu artikel, halaman hasil pencarian internal yang bisa diakses Googlebot — semua ini menghabiskan crawl budget tanpa nilai. Audit konten tipis kamu, lalu pilih: hapus, consolidate, atau noindex.

5. Redirect Chain yang Panjang

Setiap redirect memakan satu slot crawl. Redirect chain 301 → 301 → 301 memakan tiga slot untuk satu URL tujuan. Aku sering lihat ini di situs yang sudah pindah platform berkali-kali — dari Blogspot ke WordPress, lalu ganti domain, lalu migrasi server. Audit redirect chain kamu dengan Screaming Frog (versi gratis cukup untuk situs di bawah 500 URL).

Cara Prioritaskan Halaman yang Harus Di-crawl

Setelah kamu bersihkan sampah, langkah berikutnya adalah memastikan Googlebot tahu mana halaman yang paling penting.

Sitemap XML yang terawat. Jangan include URL yang noindex, URL dengan canonical ke halaman lain, atau URL yang mengembalikan 404/301. Sitemap harusnya hanya berisi URL yang kamu mau Google crawl dan index. Ini kedengarannya basic, tapi aku cek sitemap sebuah portal berita daerah bulan lalu — 40% URL di sitemap mereka sudah 404.

Internal linking yang strategis. Halaman yang banyak dapat internal link akan lebih sering di-crawl. Kalau ada halaman penting yang terisolir (tidak ada link internal ke sana selain dari sitemap), Googlebot jarang revisit. Pastikan halaman uang kamu — halaman kategori utama, halaman produk best-seller, landing page layanan — mendapat internal link dari halaman-halaman dengan traffic tinggi.

Update konten secara berkala. Crawl demand naik kalau konten sering berubah. Halaman yang tidak pernah diupdate akan semakin jarang di-crawl seiring waktu. Ini salah satu alasan kenapa refresh konten lama itu punya nilai teknis, bukan hanya nilai konten.

Untuk lebih dalam soal strategi internal linking, baca juga artikel kami tentang arsitektur situs untuk SEO.

Benchmark: Berapa Crawl Budget yang "Normal"?

Pertanyaan yang sering masuk ke DM aku. Tidak ada angka universal, tapi ini patokan kasar berdasarkan pengalaman:

Ukuran Situs Crawl per Hari (Wajar) Red Flag
< 500 halaman 50–200 < 20
500–5.000 halaman 200–1.000 < 100
5.000–50.000 halaman 1.000–10.000 < 500
> 50.000 halaman 10.000+ < 2.000

Angka ini untuk situs dengan server response time di bawah 200ms. Kalau server kamu lambat, Googlebot akan throttle sendiri dan angkanya bisa jauh lebih rendah.

Speed server adalah faktor crawl budget yang paling langsung bisa kamu kontrol. Hosting shared murah yang response time-nya 800ms–1.5 detik secara harfiah membatasi seberapa banyak Googlebot mau crawl situsmu. Ini bukan teori — Google dokumentasikan ini secara eksplisit di developer docs mereka.

Kalau kamu masih pakai hosting shared dengan harga di bawah Rp 50.000/bulan untuk situs dengan ribuan halaman, ini mungkin bottleneck terbesar kamu. Bukan konten, bukan backlink — tapi server.

Langkah Praktis: Audit Crawl Budget dalam 1 Jam

Ini yang aku lakukan setiap kali mulai audit situs baru:

  1. Buka Crawl Stats di Search Console. Catat rata-rata crawl per hari dan breakdown response codes.
  2. Download crawl log dari server (kalau ada akses). Filter hanya Googlebot.
  3. Crawl situs dengan Screaming Frog. Export semua URL, filter yang 404, 301 chain, dan noindex.
  4. Cek sitemap. Bandingkan URL di sitemap dengan URL yang benar-benar returning 200.
  5. Identifikasi parameter URL. Cari pola ? di crawl log, kelompokkan, dan nilai mana yang perlu dikontrol.
  6. Hitung "waste ratio". Berapa persen crawl yang habis di URL tidak produktif (404, redirect chain, duplikat)? Target kamu: di bawah 10%.

Proses ini biasanya mengungkap 2-3 quick wins yang bisa langsung diimplementasikan. Di situs klien otomotif yang aku handle awal 2024, setelah bersihkan 2.100 URL 404 dan fix redirect chain, crawl rate naik 40% dalam tiga minggu. Indexing halaman baru yang sebelumnya butuh 2 minggu turun jadi 3-4 hari.

Untuk riset keyword yang mendukung strategi konten kamu setelah crawl budget beres, lihat panduan kami di riset keyword untuk pasar Indonesia.

Kesimpulan

Crawl budget bukan isu yang sexy. Tidak ada yang share artikel tentang crawl budget di LinkedIn dengan caption "growth mindset 🚀". Tapi ini salah satu lever teknis yang paling underrated — terutama untuk situs Indonesia yang sering punya URL chaos akibat migrasi platform, plugin yang tidak dikonfigurasi dengan benar, atau arsitektur yang organik tumbuh tanpa perencanaan.

Kalau situs kamu punya lebih dari 1.000 halaman dan kamu belum pernah audit crawl budget, kemungkinan besar ada puluhan hingga ratusan jam crawl Googlebot yang terbuang setiap bulan di URL yang tidak berguna.

Yang harus kamu lakukan besok: Buka Google Search Console, masuk ke Crawl Stats, dan lihat breakdown response codes-mu. Kalau 404 di atas 10%, itu prioritas pertama. Fix itu dulu sebelum mikirin strategi konten apapun.