MATERI PENDUKUNG:
PENGERTIAN ISTILAH:
Crawler | Mesin/software/program penjelajah web yang digunakan oleh pihak tertentu untuk keperluan tertentu. Dalam konteks ini, crawler yang dimaksud lebih ditujukan pada crawler mesin pencari, yaitu program yang dibuat untuk mengindex konten web (Halaman, file atau aset lainnya). Istilah lainnya yang juga sering digunakan untuk menyebutkan crawler adalah Spider atau Bot. |
---|---|
User Agent | Identitas/nama/token untuk menyebutkan satu atau sekelompok crawlers. Satu user agent dapat mewakili satu atau lebih crawlers. |
Index (mengindex) | Proses atau keadaan dimana konten web diambil oleh mesin pencari dan diletakkan dalam database mereka. Konten yang telah diindex oleh mesin pencari dapat ditemukan pada hasil penelusuran mesin pencari yang besangkutan. |
Format (Sintak) Penulisan Robots.txt
User-agent: Nama user agent 1
Intruksi: Path URL
Intruksi: Path URL
User-agent: Nama user agent 2
Intruksi: Path URL
Intruksi: Path URL
User-agent: Nama user agent n
Intruksi: Path URL
Intruksi: Path URL
Sitemap: URL sitemap xml
Contoh:
User-agent: *
Disallow: /search
Allow: /search/label/
User-agent: Mediapartners-google
Disallow:
Sitemap: http://www.wiblogger.com/atom.xml
Bagian-bagian Konfigurasi Robots.txt
Berikut adalah beberapa bagian konfigurasi robots.txt berdasarkan contoh konfigurasi di atas:
Grup Intruksi (selanjutnya disebut grup) adalah bagian utama dari konfigurasi robots.txt. Grup merupakan kumpulan intruksi yang akan diterapkan untuk satu atau sekelompok crawlers. Sebuah grup selalu dimulai dengan mendefinisikan target user agent yang akan terpengaruh oleh intruksi-intruksi yang didefinisikan setelahnya (didalamnya). Dengan kata lain, semua intruksi yang didefinisikan dalam grup tertentu hanya akan berlaku untuk target user agent yang didefinisikan pada grup yang bersangkutan. Kita misalkan format konfigurasi robots.txt adalah sebagai berikut:
Pada konfigurasi robots.txt diatas, intruksi-intruksi grup 1 hanya akan digunakan oleh user agent grup 1. Begitupula dengan intruksi-intruksi grup 2, ini hanya akan digunakan oleh user agent grup 2.
Setiap intruksi didefinisikan setelah target user agent (pembuka grup) didefinisikan.
Setiap grup setidaknya memiliki satu intruksi. Terdapat 2 intruksi yang umumnya digunakan, yaitu: Disallow dan Allow.
Keterangan:
Untuk memperkuat pemahaman anda, sedikit akan kita tinjau mengenai contoh konfigurasi yang telah anda jumpai diawal.
Keterangan:
Sampai pada paragraf ini, anda telah memiliki pemahaman dasar terkait format penulisan serta bagian-bagian yang terdapat didalam konfigurasi robots.txt. Sekarang, akan kita bahas mengenai setiap bagian ini secara lebih dalam.

Grup Intruksi
User-agent: Nama target user agent grup 1
Intruksi-intruksi grup 1..................
User-agent: Nama target user agent grup 2
Intruksi-intruksi grup 2..................
Pada konfigurasi robots.txt diatas, intruksi-intruksi grup 1 hanya akan digunakan oleh user agent grup 1. Begitupula dengan intruksi-intruksi grup 2, ini hanya akan digunakan oleh user agent grup 2.
Intruksi (directives)
User-agent: Nama target user agent grup
Disallow: Path URL
Allow: Path URL
Keterangan:
-
Disallow: Path URLTidak mengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.
-
Allow: Path URLMengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.
Untuk memperkuat pemahaman anda, sedikit akan kita tinjau mengenai contoh konfigurasi yang telah anda jumpai diawal.
User-agent: *
Disallow: /search
Allow: /search/label/
User-agent: Mediapartners-google
Disallow:
Sitemap: http://www.wiblogger.com/atom.xml
Keterangan:
-
User-agent: *
Mulai grup 1. Nama user agent diisi dengan simbol *. Hal ini berarti pengaturan yang terdapat pada grup 1 diperuntukkan untuk semua crawlers.
-
Disallow: /search
Intruksi yang diterapkan untuk grup 1. Tidak mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search
-
Allow: /search/label/
Intruksi lainnya yang juga diterapkan untuk grup 1. Mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search/label/
-
User-agent: Mediapartners-google
Mulai grup 2. Nama user agent ditentukan secara spesifik (Mediapartners-google).
Hal ini berarti intruksi yang terdapat pada grup 2 hanya diperuntukkan untuk
crawler dengan nama Mediapartners-google.
Dalam hal ini, Mediapartners-google adalah nama user agent untuk crawler Google adsense.
-
Disallow:
Intruksi yang diterapkan untuk grup 2. Pada intruksi ini, Path URL tidak didefinisikan.
Fungsi dari pengaturan ini adalah mengizinkan crawler yang disebutkan pada grup 2 untuk
dapat mengindex semua konten web.
- Sitemap: http://www.wiblogger.com/atom.xml Menginformasikan URL sitemap xml kepada semua crawlers. Ini bertujuan untuk mempermudah crawler dalam mengindex konten blog.
Sampai pada paragraf ini, anda telah memiliki pemahaman dasar terkait format penulisan serta bagian-bagian yang terdapat didalam konfigurasi robots.txt. Sekarang, akan kita bahas mengenai setiap bagian ini secara lebih dalam.
Mendefinisikan Target User Agent
Setiap crawler mesin pencari memiliki user agent yang berbeda.
Pada konfigurasi robots.txt, pendefinisian user agent dilakukan dengan 2 cara, yaitu:
Seperti yang telah disampaikan sebelumnya, setiap crawler (user agent) hanya akan menjalankan satu grup intruksi.
Untuk kasus dimana suatu crawler memiliki kecocokan terhadap lebih dari satu grup, crawler akan memilih satu grup yang akan dijalankan.
Contoh:
Pada konfigurasi diatas, terdapat grup yang menyebutkan semua crawlers (grup 1). Selain itu, terdapat juga grup yang menyebutkan crawler dengan user agent Googlebot (grup 2). Pada kasus ini, crawler dengan user agent Googlebot juga memiliki kecocokan terhadap grup 1. Hal ini karena grup 1 diperuntukkan untuk semua crawler.
Berdasarkan prioritas grup, pada konfigurasi diatas, semua crawlers selain Googlebot akan mengeksekusi grup 1. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 2.
Konfigurasi di bawah ini memiliki peranan yang sama dengan konfigurasi sebelumnya.
-
Mengisi target user agent dengan * (simbol bintang)
User-agent : * Intruksi-intruksi grup...........
Ini adalah cara untuk menyebutkan semua user agent. Dengan kata lain, semua intruksi yang terdapat pada grup bersangkutan diperuntukkan untuk semua crawlers.
-
Menyebutkan target user agent secara spesifik
User-agent: Googlebot Intruksi-intruksi grup...........
Intruksi yang terdapat pada grup yang bersangkutan hanya diperuntukkan untuk user agent Googlebot. Googlebot sendiri merupakan user agent untuk crawler google yang bertugas mengindex konten web.
Prioritas Grup
Contoh:
User-agent: *
Intruksi-intruksi grup 1...........
User-agent: Googlebot
Intruksi-intruksi grup 2...........
Pada konfigurasi diatas, terdapat grup yang menyebutkan semua crawlers (grup 1). Selain itu, terdapat juga grup yang menyebutkan crawler dengan user agent Googlebot (grup 2). Pada kasus ini, crawler dengan user agent Googlebot juga memiliki kecocokan terhadap grup 1. Hal ini karena grup 1 diperuntukkan untuk semua crawler.
Berdasarkan prioritas grup, pada konfigurasi diatas, semua crawlers selain Googlebot akan mengeksekusi grup 1. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 2.
Konfigurasi di bawah ini memiliki peranan yang sama dengan konfigurasi sebelumnya.
User-agent: Googlebot
Intruksi-intruksi grup 1...........
User-agent: *
Intruksi-intruksi grup 2...........
Mendefinisikan Path URL pada intruksi
Path URL merupakan lokasi file di dalam sebuah situs relative terhadap domain utama (hostname). Lebih jauh tentang Path URL bisa dibaca pada halaman: Pengertian dan bagian-bagian URL. Pada konfigurasi robtos.txt, penulisan path url tidak harus dilakukan secara lengkap. Perhatikan contoh penulisan path url berikut:
Keterangan: Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /search. Beberapa contoh halaman berikut tidak akan diindex.
Seperti halnya prioritas grup, Intruksi dengan path yang didefinisikan lebih spesifik memilik prioritas yang lebih tinggi.
Keterangan: Tidak menginzinkan semua crawlers untuk mengindex halaman statis blog kecuali untuk halaman tentang kami.
Pada konfigurasi robots.txt, terdapat 2 simbol spesial yang bisa digunakan yaitu simbol * (bintang) dan simbol $ (dollar).
User-agent: *
Disallow: /search
Keterangan: Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /search. Beberapa contoh halaman berikut tidak akan diindex.
https://www.wiblogger.com/search
https://www.wiblogger.com/search/label/SEO
https://www.wiblogger.com/search?q=Belajar+blogger
https://www.wiblogger.com/searchwhateverhere
Prioritas Intruksi
User-agent: *
Disallow: /p/
Allow: /p/tentang-kami.html
Keterangan: Tidak menginzinkan semua crawlers untuk mengindex halaman statis blog kecuali untuk halaman tentang kami.
URL | Izin pengindeksan |
---|---|
https://www.wiblogger.com/p/hubungi-kami.html | Tidak diizinkan |
https://www.wiblogger.com/p/sanggahan.html | Tidak diizinkan |
https://www.wiblogger.com/p/kebijakan-privasi.html | Tidak diizinkan |
https://www.wiblogger.com/p/tentang-kami.html | Diizinkan |
Penggunaan simbol * dan $ pada Path URL
-
Simbol *
Menerima karakter apapun yang terletak pada posisi yang bersangkutan.
Penggunaan simbol * pada Path URL umumnya dikombinasikan dengan karakter sebelum atau setelahnya.
Perhatikan beberapa contoh penggunaan simbol * pada Path URL berikut:
Contoh penulisan Keterangan /abc* Berlaku untuk: https://www.wiblogger.com/abchttps://www.wiblogger.com/abcdefhttps://www.wiblogger.com/abc/defhttps://www.wiblogger.com/abcapapun-disini
Tidak berlaku untuk:https://www.wiblogger.com/https://www.wiblogger.com/def/abchttps://www.wiblogger.com/defabchttps://www.wiblogger.com/ghi-abc/abc*ghi Berlaku untuk: https://www.wiblogger.com/abcdefghihttps://www.wiblogger.com/abc-def-ghihttps://www.wiblogger.com/abc/def/ghihttps://www.wiblogger.com/abc/def/ghi/hij
Tidak berlaku untuk:https://www.wiblogger.com/defabchttps://www.wiblogger.com/ghi-abc
-
Simbol $
Simbol $ digunakan untuk menentukan akhiran URL.
Simbol $ selalu diletakkan diakhir path url. Perhatikan beberapa contoh penggunaan simbol $ berikut:
Contoh penulisan Keterangan abc$ Berlaku untuk: https://www.wiblogger.com/abchttps://www.wiblogger.com/search/abchttps://www.wiblogger.com/whatever/abchttps://www.wiblogger.com/whatever-abc
Tidak berlaku untuk:https://www.wiblogger.com/https://www.wiblogger.com/abc.htmlhttps://www.wiblogger.com/whatever-abc.html/abc$ Berlaku untuk: https://www.wiblogger.com/abchttps://www.wiblogger.com/search/abchttps://www.wiblogger.com/whatever/abc
Tidak berlaku untuk:https://www.wiblogger.com/https://www.wiblogger.com/whateverabchttps://www.wiblogger.com/whatever-abchttps://www.wiblogger.com/whatever-abc.html
URL Sitemap
Sebuah file robots.txt dapat menyertakan URL sitemap. Sitemap pada robots.txt bersifat global.
Dengan kata lain, URL sitemap tersedia untuk semua crawlers.
Tidak seperti pada intruksi yang menuliskan URL hanya berupa Path, pada sitemap URL harus didefinisikan secara lengkap (Absolute URL).
User-agent: Nama user agent
Intruksi: Patch URL .........
Sitemap: Absolute URL
Tidak seperti pada intruksi yang menuliskan URL hanya berupa Path, pada sitemap URL harus didefinisikan secara lengkap (Absolute URL).
User-agent: *
Disallow: /search/
Sitemap: http://www.wiblogger.com/atom.xml
User Agent Crawlers Google
Berbagai contoh yang akan anda jumpai selanjutnya akan menggunakan crawler milik google sebagai target user agent. Perlu diketahui bahwa user agent Googlebot yang telah anda jumpai pada contoh-contoh sebelumnya adalah user agent untuk menyebutkan semua crawler google yang bertugas mengindex konten (semua jenis konten).
Berdasarkan halaman daftar user agent google, hingga saat ini terdapat beberapa crawler yang bertugas mengindex konten. Diantaranya adalah:
Ketika kita mendefinisikan user agent dengan Googlebot, hal ini berarti grup tersebut berlaku untuk semua crawler yang disebutkan pada tabel diatas. Jika anda menginginkan konfigurasi grup yang hanya diperuntukkan untuk user agent google tertentu saja. Hal ini bisa dilakukan dengan menuliskan nama user agent dengan lebih spesifik. Perhatikan contoh konfigurasi berikut:
Berdasarkan halaman daftar user agent google, hingga saat ini terdapat beberapa crawler yang bertugas mengindex konten. Diantaranya adalah:
User Agent | Kebutuhan |
---|---|
Googlebot | Mengindex konten web (Crawler utama) |
Googlebot
Googlebot-Image
|
Mengindex konten berupa gambar (images.google.com) |
Googlebot
Googlebot-News
|
Mengindex konten untuk google news (news.google.com) |
Googlebot
Googlebot-Video
|
Mengindex konten berupa video |
Ketika kita mendefinisikan user agent dengan Googlebot, hal ini berarti grup tersebut berlaku untuk semua crawler yang disebutkan pada tabel diatas. Jika anda menginginkan konfigurasi grup yang hanya diperuntukkan untuk user agent google tertentu saja. Hal ini bisa dilakukan dengan menuliskan nama user agent dengan lebih spesifik. Perhatikan contoh konfigurasi berikut:
User-agent: *
Intruksi-intruksi grup 1...........
User-agent: Googlebot-Image
Intruksi-intruksi grup 2...........
User agent | Grup yang dijalankan |
---|---|
Bingbot (crawler mesin pencari Bing.com) | 1 |
Googlebot | 1 |
Googlebot-Video | 1 |
Googlebot-Image | 2 |
User-agent: *
Intruksi-intruksi grup 1...........
User-agent: Googlebot
Intruksi-intruksi grup 2...........
User-agent: Googlebot-Image
Intruksi-intruksi grup 3...........
User agent | Grup yang dijalankan |
---|---|
Bingbot (crawler mesin pencari Bing.com) | 1 |
Googlebot | 2 |
Googlebot-Video | 2 |
Googlebot-Image | 3 |
Daftar User Agent Berbagai Crawler
Untuk crawlers dari pihak selain google, informasi user agent ini bisa anda dapatkan pada halaman: http://www.robotstxt.org/db.html.
Contoh-contoh
Berikut adalah beberapa contoh konfigurasi robots.txt beserta fungsinya. Semua contoh ini menggunakan format URL blogger.com.
Contoh 1:
Contoh 2:
Contoh 3:
Contoh 4:
Contoh 1:
User-agent: *
Disallow: /search/
Tidak mengizinkan semua crawlers untuk mengindex konten yang terdapat pada halaman bertipe search.
Contoh 2:
User-agent: *
Disallow: /search/
User-agent: Mediaparners-google
Disallow:
Berfungsi seperti halnya pada contoh 1 sebelumnya, namun terdapat pengecualian yang didefinisikan melalui grup 2 yaitu tetap menginzinkan crawler google adsense untuk dapat mengindex semua halaman.
Contoh 3:
User-agent: *
Disallow: *noindex
Tidak mengizinkan semua crawlers untuk mengindex konten dengan URL yang terdapat query noindex. Semua URL dibawah ini tidak akan diindex:
https://www.wiblogger.com/p/noindex.html
https://www.wiblogger.com/2018/06/noindex-post.html
https://www.wiblogger.com/search/label/noindex
https://www.wiblogger.com/search?q=noindex
Contoh 4:
User-agent: *
Disallow: .jpeg$
Disallow: .png$
Tidak menginzinkan semua crawlers untuk mengindex file gambar dengan format .jpeg dan .png