Format (sintak) penulisan Robots.txt Blog/Website

MATERI PENDUKUNG:

PENGERTIAN ISTILAH:

Crawler	Mesin/software/program penjelajah web yang digunakan oleh pihak tertentu untuk keperluan tertentu. Dalam konteks ini, crawler yang dimaksud lebih ditujukan pada crawler mesin pencari, yaitu program yang dibuat untuk mengindex konten web (Halaman, file atau aset lainnya). Istilah lainnya yang juga sering digunakan untuk menyebutkan crawler adalah Spider atau Bot.
User Agent	Identitas/nama/token untuk menyebutkan satu atau sekelompok crawlers. Satu user agent dapat mewakili satu atau lebih crawlers.
Index (mengindex)	Proses atau keadaan dimana konten web diambil oleh mesin pencari dan diletakkan dalam database mereka. Konten yang telah diindex oleh mesin pencari dapat ditemukan pada hasil penelusuran mesin pencari yang besangkutan.

Format (Sintak) Penulisan Robots.txt

        
          User-agent: Nama user agent 1
          Intruksi: Path URL
          Intruksi: Path URL

          User-agent: Nama user agent 2
          Intruksi: Path URL
          Intruksi: Path URL

          User-agent: Nama user agent n
          Intruksi: Path URL
          Intruksi: Path URL

          Sitemap: URL sitemap xml

Contoh:

        
          User-agent: *
          Disallow: /search
          Allow: /search/label/

          User-agent: Mediapartners-google
          Disallow:

          Sitemap: http://www.wiblogger.com/atom.xml

Bagian-bagian Konfigurasi Robots.txt

Berikut adalah beberapa bagian konfigurasi robots.txt berdasarkan contoh konfigurasi di atas:

Grup Intruksi

Grup Intruksi (selanjutnya disebut grup) adalah bagian utama dari konfigurasi robots.txt. Grup merupakan kumpulan intruksi yang akan diterapkan untuk satu atau sekelompok crawlers. Sebuah grup selalu dimulai dengan mendefinisikan target user agent yang akan terpengaruh oleh intruksi-intruksi yang didefinisikan setelahnya (didalamnya). Dengan kata lain, semua intruksi yang didefinisikan dalam grup tertentu hanya akan berlaku untuk target user agent yang didefinisikan pada grup yang bersangkutan. Kita misalkan format konfigurasi robots.txt adalah sebagai berikut:

    
        User-agent: Nama target user agent grup 1
        Intruksi-intruksi grup 1..................

        User-agent: Nama target user agent grup 2
        Intruksi-intruksi grup 2..................

Pada konfigurasi robots.txt diatas, intruksi-intruksi grup 1 hanya akan digunakan oleh user agent grup 1. Begitupula dengan intruksi-intruksi grup 2, ini hanya akan digunakan oleh user agent grup 2.

POIN Setiap crawler (user agent) hanya akan menjalankan satu grup intruksi.

Intruksi (directives)

Setiap intruksi didefinisikan setelah target user agent (pembuka grup) didefinisikan. Setiap grup setidaknya memiliki satu intruksi. Terdapat 2 intruksi yang umumnya digunakan, yaitu: Disallow dan Allow.

	
    User-agent: Nama target user agent grup
    Disallow: Path URL
    Allow: Path URL

Keterangan:

Disallow: Path URL
Tidak mengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.
Allow: Path URL
Mengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.

POIN Intruksi default robots.txt adalah Allow. Ketika tidak terdapat intruksi Disallow untuk URL yang bersangkutan, konten dengan url tersebut akan diindex.

Untuk memperkuat pemahaman anda, sedikit akan kita tinjau mengenai contoh konfigurasi yang telah anda jumpai diawal.

	
    User-agent: *
    Disallow: /search
    Allow: /search/label/

    User-agent: Mediapartners-google
    Disallow:

    Sitemap: http://www.wiblogger.com/atom.xml

Keterangan:

User-agent: * Mulai grup 1. Nama user agent diisi dengan simbol *. Hal ini berarti pengaturan yang terdapat pada grup 1 diperuntukkan untuk semua crawlers.
Disallow: /search Intruksi yang diterapkan untuk grup 1. Tidak mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search
Allow: /search/label/ Intruksi lainnya yang juga diterapkan untuk grup 1. Mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search/label/
User-agent: Mediapartners-google Mulai grup 2. Nama user agent ditentukan secara spesifik (Mediapartners-google). Hal ini berarti intruksi yang terdapat pada grup 2 hanya diperuntukkan untuk crawler dengan nama Mediapartners-google. Dalam hal ini, Mediapartners-google adalah nama user agent untuk crawler Google adsense.
Disallow: Intruksi yang diterapkan untuk grup 2. Pada intruksi ini, Path URL tidak didefinisikan. Fungsi dari pengaturan ini adalah mengizinkan crawler yang disebutkan pada grup 2 untuk dapat mengindex semua konten web.
Sitemap: http://www.wiblogger.com/atom.xml Menginformasikan URL sitemap xml kepada semua crawlers. Ini bertujuan untuk mempermudah crawler dalam mengindex konten blog.

Sampai pada paragraf ini, anda telah memiliki pemahaman dasar terkait format penulisan serta bagian-bagian yang terdapat didalam konfigurasi robots.txt. Sekarang, akan kita bahas mengenai setiap bagian ini secara lebih dalam.

Mendefinisikan Target User Agent

Setiap crawler mesin pencari memiliki user agent yang berbeda. Pada konfigurasi robots.txt, pendefinisian user agent dilakukan dengan 2 cara, yaitu:

Mengisi target user agent dengan * (simbol bintang)
```
        
        User-agent : *
        Intruksi-intruksi grup...........
        
      
```
Ini adalah cara untuk menyebutkan semua user agent. Dengan kata lain, semua intruksi yang terdapat pada grup bersangkutan diperuntukkan untuk semua crawlers.
Menyebutkan target user agent secara spesifik
```
        
          User-agent: Googlebot
          Intruksi-intruksi grup...........
        
      
```
Intruksi yang terdapat pada grup yang bersangkutan hanya diperuntukkan untuk user agent Googlebot. Googlebot sendiri merupakan user agent untuk crawler google yang bertugas mengindex konten web.

Prioritas Grup

Seperti yang telah disampaikan sebelumnya, setiap crawler (user agent) hanya akan menjalankan satu grup intruksi. Untuk kasus dimana suatu crawler memiliki kecocokan terhadap lebih dari satu grup, crawler akan memilih satu grup yang akan dijalankan.

POIN Grup dengan target user agent yang didefinisikan secara spesifik memiliki prioritas lebih tinggi dibandingkan dengan grup dengan target user agent yang didefinisikan menggunakan simbol bintang

Contoh:

    
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot
Intruksi-intruksi grup 2...........

Pada konfigurasi diatas, terdapat grup yang menyebutkan semua crawlers (grup 1). Selain itu, terdapat juga grup yang menyebutkan crawler dengan user agent Googlebot (grup 2). Pada kasus ini, crawler dengan user agent Googlebot juga memiliki kecocokan terhadap grup 1. Hal ini karena grup 1 diperuntukkan untuk semua crawler.

Berdasarkan prioritas grup, pada konfigurasi diatas, semua crawlers selain Googlebot akan mengeksekusi grup 1. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 2.

POIN: Urutan grup akan diabaikan. Dengan kata lain, prioritas grup tidak dipengaruhi oleh urutan grup.

Konfigurasi di bawah ini memiliki peranan yang sama dengan konfigurasi sebelumnya.

    
User-agent: Googlebot
Intruksi-intruksi grup 1...........

User-agent: *
Intruksi-intruksi grup 2...........

Mendefinisikan Path URL pada intruksi

Path URL merupakan lokasi file di dalam sebuah situs relative terhadap domain utama (hostname). Lebih jauh tentang Path URL bisa dibaca pada halaman: Pengertian dan bagian-bagian URL. Pada konfigurasi robtos.txt, penulisan path url tidak harus dilakukan secara lengkap. Perhatikan contoh penulisan path url berikut:

	  
User-agent: *
Disallow: /search

Keterangan: Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /search. Beberapa contoh halaman berikut tidak akan diindex.

	  
https://www.wiblogger.com/search
https://www.wiblogger.com/search/label/SEO
https://www.wiblogger.com/search?q=Belajar+blogger
https://www.wiblogger.com/searchwhateverhere

POIN Penulisan path url yang dilakukan secara standar (tanpa menggunakan simbol spesial) berarti berlaku untuk semua url yang memiliki kecocokan di awal path.

Prioritas Intruksi

Seperti halnya prioritas grup, Intruksi dengan path yang didefinisikan lebih spesifik memilik prioritas yang lebih tinggi.

	  
User-agent: *
Disallow: /p/
Allow: /p/tentang-kami.html

Keterangan: Tidak menginzinkan semua crawlers untuk mengindex halaman statis blog kecuali untuk halaman tentang kami.

URL	Izin pengindeksan
https://www.wiblogger.com/p/hubungi-kami.html	Tidak diizinkan
https://www.wiblogger.com/p/sanggahan.html	Tidak diizinkan
https://www.wiblogger.com/p/kebijakan-privasi.html	Tidak diizinkan
https://www.wiblogger.com/p/tentang-kami.html	Diizinkan

Penggunaan simbol * dan $ pada Path URL

Pada konfigurasi robots.txt, terdapat 2 simbol spesial yang bisa digunakan yaitu simbol * (bintang) dan simbol $ (dollar).

Simbol * Menerima karakter apapun yang terletak pada posisi yang bersangkutan. Penggunaan simbol * pada Path URL umumnya dikombinasikan dengan karakter sebelum atau setelahnya. Perhatikan beberapa contoh penggunaan simbol * pada Path URL berikut:

Contoh penulisan	Keterangan
/abc*	Berlaku untuk: https://www.wiblogger.com/abc https://www.wiblogger.com/abcdef https://www.wiblogger.com/abc/def https://www.wiblogger.com/abcapapun-disini Tidak berlaku untuk: https://www.wiblogger.com/ https://www.wiblogger.com/def/abc https://www.wiblogger.com/defabc https://www.wiblogger.com/ghi-abc
/abc*ghi	Berlaku untuk: https://www.wiblogger.com/abcdefghi https://www.wiblogger.com/abc-def-ghi https://www.wiblogger.com/abc/def/ghi https://www.wiblogger.com/abc/def/ghi/hij Tidak berlaku untuk: https://www.wiblogger.com/defabc https://www.wiblogger.com/ghi-abc

PENTING! Penggunaan simbol * seperti diatas hanya berlaku untuk Path URL, untuk penggunaan pada nama user agent (untuk menyebutkan semua crawler), penulisan dilakukan tanpa karakter lainnya.

Simbol $ Simbol $ digunakan untuk menentukan akhiran URL. Simbol $ selalu diletakkan diakhir path url. Perhatikan beberapa contoh penggunaan simbol $ berikut:

Contoh penulisan	Keterangan
abc$	Berlaku untuk: https://www.wiblogger.com/abc https://www.wiblogger.com/search/abc https://www.wiblogger.com/whatever/abc https://www.wiblogger.com/whatever-abc Tidak berlaku untuk: https://www.wiblogger.com/ https://www.wiblogger.com/abc.html https://www.wiblogger.com/whatever-abc.html
/abc$	Berlaku untuk: https://www.wiblogger.com/abc https://www.wiblogger.com/search/abc https://www.wiblogger.com/whatever/abc Tidak berlaku untuk: https://www.wiblogger.com/ https://www.wiblogger.com/whateverabc https://www.wiblogger.com/whatever-abc https://www.wiblogger.com/whatever-abc.html

URL Sitemap

Sebuah file robots.txt dapat menyertakan URL sitemap. Sitemap pada robots.txt bersifat global. Dengan kata lain, URL sitemap tersedia untuk semua crawlers.

	  
User-agent: Nama user agent
Intruksi: Patch URL .........

Sitemap: Absolute URL

Tidak seperti pada intruksi yang menuliskan URL hanya berupa Path, pada sitemap URL harus didefinisikan secara lengkap (Absolute URL).

	  
User-agent: *
Disallow: /search/
Sitemap: http://www.wiblogger.com/atom.xml

User Agent Crawlers Google

Berbagai contoh yang akan anda jumpai selanjutnya akan menggunakan crawler milik google sebagai target user agent. Perlu diketahui bahwa user agent Googlebot yang telah anda jumpai pada contoh-contoh sebelumnya adalah user agent untuk menyebutkan semua crawler google yang bertugas mengindex konten (semua jenis konten).

Berdasarkan halaman daftar user agent google, hingga saat ini terdapat beberapa crawler yang bertugas mengindex konten. Diantaranya adalah:

User Agent	Kebutuhan
Googlebot	Mengindex konten web (Crawler utama)
Googlebot Googlebot-Image	Mengindex konten berupa gambar (images.google.com)
Googlebot Googlebot-News	Mengindex konten untuk google news (news.google.com)
Googlebot Googlebot-Video	Mengindex konten berupa video

Di atas merupakan daftar sebagian crawler miliki google. Ada beberapa lagi lainnya dengan fungsi yang berbeda, secara lengkap daftar crawler ini bisa anda lihat pada: https://support.google.com/webmasters/answer/1061943?hl=id.

Ketika kita mendefinisikan user agent dengan Googlebot, hal ini berarti grup tersebut berlaku untuk semua crawler yang disebutkan pada tabel diatas. Jika anda menginginkan konfigurasi grup yang hanya diperuntukkan untuk user agent google tertentu saja. Hal ini bisa dilakukan dengan menuliskan nama user agent dengan lebih spesifik. Perhatikan contoh konfigurasi berikut:

	  
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot-Image
Intruksi-intruksi grup 2...........

User agent	Grup yang dijalankan
Bingbot (crawler mesin pencari Bing.com)	1
Googlebot	1
Googlebot-Video	1
Googlebot-Image	2

	  
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot
Intruksi-intruksi grup 2...........

User-agent: Googlebot-Image
Intruksi-intruksi grup 3...........

User agent	Grup yang dijalankan
Bingbot (crawler mesin pencari Bing.com)	1
Googlebot	2
Googlebot-Video	2
Googlebot-Image	3

Daftar User Agent Berbagai Crawler

Untuk crawlers dari pihak selain google, informasi user agent ini bisa anda dapatkan pada halaman: http://www.robotstxt.org/db.html.

Contoh-contoh

Berikut adalah beberapa contoh konfigurasi robots.txt beserta fungsinya. Semua contoh ini menggunakan format URL blogger.com.

Contoh 1:

        
  User-agent: *
  Disallow: /search/

Tidak mengizinkan semua crawlers untuk mengindex konten yang terdapat pada halaman bertipe search.

Contoh 2:

        
User-agent: *
Disallow: /search/

User-agent: Mediaparners-google
Disallow:

Berfungsi seperti halnya pada contoh 1 sebelumnya, namun terdapat pengecualian yang didefinisikan melalui grup 2 yaitu tetap menginzinkan crawler google adsense untuk dapat mengindex semua halaman.

Contoh 3:

        
User-agent: *
Disallow: *noindex

Tidak mengizinkan semua crawlers untuk mengindex konten dengan URL yang terdapat query noindex. Semua URL dibawah ini tidak akan diindex:

  
  https://www.wiblogger.com/p/noindex.html
  https://www.wiblogger.com/2018/06/noindex-post.html
  https://www.wiblogger.com/search/label/noindex
  https://www.wiblogger.com/search?q=noindex

Contoh 4:

        
User-agent: *
Disallow: .jpeg$
Disallow: .png$

Tidak menginzinkan semua crawlers untuk mengindex file gambar dengan format .jpeg dan .png