Profil Resmi - Hakan Kuyrukçu
Hakan Kuyrukçu
Software Developer
Blog - Detay

Robots Txt Nedir

08.08.2019 Tarihinde Oluşturuldu
Robots Txt Nedir - Blog | Hakan Kuyrukçu

robots.txt dosyası, arama motoru (Google, Bing vb) tarayıcılarının sitemizde erişmesini engellememizi sağlıyan bir dosyadır ve sitemizin kök dizininde (ana klasörde) bulunması gerekmektedir.

Dosya Robotları Engelleme Standardı olan protokol dizinini kullanır. Bu protokol komutları sitenize erişimi bölüm bazında ve bazı web tarayıcı türlerine göre göstermek için kullanılmaktadır.

  1. Grup komutları
    1. Arama motoru robotu engelleme / izin verme
    2. Dizin engelleme / izin verme
    3. Sayfa engelleme / izin verme
    4. Tarama gecikmesi belirtme
  2. Grup dışı komutlar
    1. Site haritası belirtme
  3. Yorum ve notlar
    1. Dosyaya eklediğiniz komutlar için yorum ve notlar yazma

Grup Komutları

User-agent: user-agent komutunu kullanarak bütün arama motorlarının sitenizi taramasını engellemek istiyorsanız robots.txt dosyasını aşağıdaki gibi düzenlemeniz gerekir:

user-agent: *
disallow: /

Dizin Engelleme / izin verme: allow ya da disallow komutlarını kullanarak sitenizdeki belirli dizinlere erişim izni verebilir ya da sınırlama koyabilirsiniz. Bu bölümde yapacağınız değişiklik sadece arama motoru robotuna özeldir. Kullanıcılar komut verdiğiniz dizine erişmeye devam edebileceklerdir. Örneğin:

user-agent: *
disallow: /ozel/

Sayfa Engelleme / izin verme: allow ya da disallow komutlarını kullanarak sitenizdeki belirli sayfalara erişim izni verebilir ya da sınırlama koyabilirsiniz. Bu bölümde yapacağınız değişiklik sadece arama motoru robotuna özeldir. Kullanıcılar komut verdiğiniz sayfaya erişmeye devam edebileceklerdir. Örneğin:

user-agent: *
disallow: /ozel-belgeler.html/

Tarama Gecikmesi Belirtme: Crawl-delay komutunu kullanarak, arama motoru robotunun tarama için harcayacağı zamanı sınırlandırabilirsiniz. Bu komut genelde sıklıkla sunucu hatası yaşanan ya da çok yüksek ziyaretçi trafiği yüzünden zaman zaman geçici olarak hizmet vermeme ihtimali olan siteler için kullanışlıdır. Bu amaçlar dışında kullanılmamasını tavsiye ederiz. Örneğin belirli bir arama motoru robotunun sitenize geldiğinde sadece 2 dakika boyunca sitenizi taramasını istiyorsanız, şöyle bir komut kullanabilirsiniz:

user-agent: yandexbot
crawl-delay: 2

Grup Dışı Komutlar

Arama motoru robotu sitenizi tararken ilk olarak robots.txt dosyasına göz atmaktadır ve bu dosyada ve sitede sitemap.xml dosyasına dair herhangi bir içerik bulunmaması bir dezavantaj yaratabilir. Örneğin:

user-agent: *
Sitemap: http://www.siteadresiniz.com/sitemap.xml

Yorum ve Notlar

Robots.txt dosyası içerisine, kendinize, site yöneticisine, tasarımcıya veya kullanıcıya hitap eden, arama motoru robotlarının dikkate almadığı notlar bırakabilirsiniz. Bunun için # karakterini kullanmanız gerekmetekdir. Örneğin:

# Not: Tasarım dizini 1 hafta sonra robot erişimine açılacak.
user-agent: *
Disallow: /tasarim/
Disallow: /dosyalar/ # Bu dizin, kopyalama bittikten sonra erişime açılacak.

Robots.txt Dosyasında Kullanılabilen Özel Komutlar

Robots.txt dosyasına ekleyeceğiniz özel komutlarla, belli bir karakteri içeren ya da belli bir URL uzantısını içeren sayfaları bütünüyle arama motoru robotlarınnın erişimine kapatabilirsiniz. Örneğin;

user-agent: *
Disallow: /*?

Yukarıdaki örnekte, URL içerisinde soru işareti (?) olan tüm URL’ler arama motoru robotlarının erişimine kapatılmış durumdadır. Yukarıdaki örnekten hariç olarak soru işareti yerine farklı karakterler de kullanabilirsiniz.

User-agent: Googlebot
Disallow: /*.asp$

Yukarıdaki örnekte, dolar işareti ($) kullanarak sitemizde URL uzantısı .asp olan tüm sayfaları arama motoru robotlarının erişimine kapatmış olduk.

Örnekler

User-agent: *
Disallow: /ozel/
Allow: /ozel/ozel-degil.html

Yukarıdaki örnekte, “ozel” dizinini erişime kapattık ancak “ozel degil” sayfasına erişim izni verdik. Bu durumda arama motoru robotu “ozel” dizinini taramıyor ancak “ozel” dizini içinde yer alan “ozel-degil.html” sayfasını tarayabiliyor.

User-agent: googlebot
Disallow: /ozel/
User-agent: *
Disallow: /

Yukarıdaki örnekte, sadece Google Bot’un “ozel” dizinine erişimini engelliyoruz, Googlebot dışındaki diğer tüm arama motoru robotlarının sitenin tamamına erişimini engellemiş oluyoruz.

User-agent: googlebot
Disallow: /ozel/
User-agent: googlebot-images
Disallow: /ozel/
Disallow: /tasarim/

Yukarıdaki örnekte, Google Bot’un “ozel” dizinine erişimini engellerken, Google Görsel Bot’un “ozel” ve “tasarim” dizinlerine erişimini engellemiş oluyoruz.

Not: robots.txt komutlarınız, diğer sitelerde bulunan adreslerinize sağlanan bağlantıları önleyemez. Bu ne demek ? Bunun anlamı Google gibi arama motoru servisleri engellemiş olduğumuz sayfaları taramayacak fakat sitenizden referans alınarak oluşturulan sayfalar sitenizi indexliyebilir ve google sıralamalarında çıkabilir. İndexlemeyi tamamen durdurmak adına dosyalarınızı şifreleme ile korumak veya noindex meta etiketi gibi işlemler uygulanabilir.

Seo Tagları: robots, google, google robot, website, access