robots.txt – web siteleri için 30 yıllık temel kurallar

Saberie · 26 Şub 2024

robots.txt – web siteleri için 30 yıllık temel kurallar

Duyuru

“Önemli: Örümcekler, Robotlar ve Web Gezginleri”: Tam otuz yıl önce Hollandalı geliştirici Martijn Koster, www-talk e-posta listesine bir ipucu verdi. O dönemde web ile ilgili teknik konular konuşuluyordu. World Wide Web Konsorsiyumu henüz mevcut değildi; sadece 1 Ekim 1994'te kuruldu.

Koster şunları yazdı: “Robotlar var olduğundan ve asla yok olmayacaklarından, aktif robotlar hakkında mümkün olduğunca fazla bilgi toplamak için bir sayfa oluşturdum. […] Robot yazarları için davranış kuralları, bilinen tüm robotların bir listesi ve en önemlisi, WWW sunucu operatörlerinin robotların sunucularına erişmesine izin verip vermeyeceğini ve eğer öyleyse hangi parçalara erişmesine izin vermek isteyip istemediklerini belirlemelerine olanak tanıyan önerilen bir standart içerir. “

Koster, ilk web arama motorlarından biri olan Aliweb'i geliştirmişti. Aliweb, tarayıcı adı verilen bir robottan oluşuyordu. Web'de gezindi ve etiketlendikleri bir dizine yeni web siteleri ekledi.

Robot ev kuralları

Web'in ilk günlerinde bu tür tarayıcılar ağ yükünü ve maliyetlerini artıran bir faktördü. İnternet erişimi hem sörfçüler hem de web sitesi operatörleri için yavaş ve pahalıydı. WWW'nin ilk günlerinde birçok web sitesi ev bilgisayarlarında veya LAN'larda barındırılıyordu. Aşırı hevesli robotlar faturayı hızla artırabilir.

Koster'in teklifi, robotik doğayı düzenli bir kanala yönlendirme girişimiydi: Web sitesi operatörlerinin robotlara (o zamanlar Örümcekler ve Web Gezginleri gibi diğer isimlerle de anılıyorlardı) sitenin hangi bölümlerine izin verdiklerini bildirebilecekleri bir standart. ziyaret etmek.

Teklif, kendisini “Robotları Hariç Tutma Standardı” olarak kabul ettirmeyi başardı ve o zamandan beri, web yöneticileri ve arama motoru operatörleri arasında bir tür centilmenlik anlaşması olarak, resmi bir kurum tarafından hiçbir zaman onaylanmadan yarı standart olarak yaygın şekilde kullanıldı. diğer robot operatörleri gibi.

Standardın yaygın kullanımı aynı zamanda uygulamasının basit ve kolay olmasından kaynaklanmaktadır: web yöneticileri, robotların bir web sitesi olarak eriştiği web sunucularının kök dizinine robots.txt adlı bir dosya yerleştirir. Dosya, robotlara ilişkin kuralları makine tarafından okunabilir bir biçimde kaydeder.

Sanal yasaklama işaretleri

Haberler Online'ın robots.txt dosyası: AI botları dışarıda kalmalı, bireysel dizinler diğer botlar için tabu.

Haberler Online'ın robots.txt dosyasından da görülebileceği gibi basit kurallar insanlar tarafından da kolaylıkla okunabiliyor. Dosyadaki her ifade iki öğeden oluşur. Öncelikle robota bir isim verin. Bunu yapmak için, robotun kendisine verdiği isim olan kullanıcı aracısını kullanır. Robotun sitenin bazı bölgelerine erişmesini yasaklayan bir veya daha fazla satır takip ediyor.

User-agent: GPTBot

Disallow: /

Bu kural, örneğin, GPTBot'un tüm alt dizinleri de dahil olmak üzere web sunucusunun kök dizinini engeller, yani OpenAI botunun siteye girişi tamamen yasaklanmıştır. Diğer botlar için kurallar – User-agent İşte yer tutucu * kullanım için – daha farklıdırlar: yalnızca belirli dizinleri ziyaret etmemelisiniz. Başka kurallar da var, ayrıntılar Wikipedia'da bulunabilir.

Sadece bir istek

“Robotları Hariç Tutma Standardı” ne kadar pratik ve yaygın olursa olsun, yalnızca web yöneticisinin iradesini belgelemektedir, ancak bir robotun operatörü buna uymak istemezse ve botunun iyileşmesine izin verirse ne teknik ne de yasal olarak bunu engelleyemez. ilgili bilgiler. içerik. Örneğin İnternet Arşivi'nin yöneticileri, hangi sayfaların arşivleneceğine kendilerinin karar vereceğini ve bu nedenle robotlarının her zaman robots.txt spesifikasyonlarına uymayacağını açıkça belirttiler.

Ev kurallarını göz ardı eden bir bota kötü bot denir. İnternette mal veya hizmetlerin sunulduğu pek çok yerde, İnternet Arşivindekilerden çok daha aktif olan kötü botlar kullanılıyor: düzenli olarak fiyatları ve diğer bilgileri, örneğin rakipler adına Ürün bilgilerini tarıyorlar. Bu durumlarda, eğer web yöneticisi kendini savunmaz ve botları tespit edip engellemek için teknik önlemler almazsa, bu botlar trafiğin büyük bir bölümünü temsil edebilir.

Tek yönlü sokak yapay zeka botları

Birçok medya şirketi şu anda OpenAI gibi yapay zeka şirketlerinin botlarını araştırıyor. Bunlar, fiyat tarayıcıları kadar trafik oluşturmaz: AI sağlayıcılarının, modellerine aktarabilmek için web sitelerinden içeriği yalnızca bir kez getirmeleri gerekir.

Ancak yapay zeka botları, web sitesi yöneticilerinin istenen bot yöneticilerinin çoğuyla yaptığı yazılı olmayan anlaşmayı bozuyor. Çünkü birçok bot, örneğin arama motorlarına verinin tek yönlü aktığı tek yönlü bir yol değildir. Web siteleri bir geri dönüş alır: trafik, ziyaretçiler, arama motorları onlara başvurur.

Öte yandan yapay zeka robotları, veri modellerini eğitmek için tek taraflı olarak veri madenciliği yapıyor. Çoğu durumda trafik şeklinde geri dönüş yoktur. Buna karşılık, örneğin dil modelleri, birikmiş bilgiye dayalı olarak birçok soruyu yanıtlar. Bilgilerin orijinal olarak geldiği web sitesini ziyaret etmenize gerek yoktur.

İçeriklerini yapay zeka şirketlerinin istismarından korumak isteyen tüm web sitesi operatörlerinin, söz konusu botları robots.txt aracılığıyla yasaklamaları akıllıca olacaktır. OpenAI, Google'ın AI tarayıcıları için yaptığı gibi buna uyuyor. Bir diğer önemli robot ise birçok yapay zeka modeline dahil edilen Common Crawl organizasyonunun veritabanlarına güç veren CCBot'tur. Common Crawl aynı zamanda robots.txt dosyasına da uyar. Ancak başka yapay zeka robotları da var. Netfuture'un bir listesi var.

Haberler hukuk danışmanı Joerg Heidrich'e göre robots.txt dosyasındaki bir giriş, kişinin içeriğini kullanma hakkını saklı tuttuğunu yasal olarak kanıtlamak için yeterli değil (§ 44b (3) UrhG). Kanun gerekçesinden sonra atıf açıkça belirtilmelidir. Burada yaptığımız gibi, rezervasyonunuzu yasal bildirimde belgelemenizi öneririz.

Karşı Stratejiler

Originality.ai'nin istatistiklerine göre çoğu web sitesi yapay zeka robotlarının içeriklerine erişmesine izin veriyor.

Ancak web yöneticisi, AI şirketlerinin içeriğini kullanmasını istemediğini yasal olarak güvenli bir şekilde belgelese bile, gerçekte kötüye kullanımı nasıl kanıtlamak istiyor? Yalnızca en nadir durumlarda, içeriğini AI modellerinden neredeyse 1:1 oranında yeniden üretebilecektir. Geçmişte yapay zeka modellerine çok fazla içerik eklenmişken, gelecekte robotları engelleyen güncellenmiş bir robots.txt dosyasının ne faydası var?

Her halükarda, New York Times gibi yazarlar ve medya şirketleri haklarının ihlal edildiğini görüyor ve OpenAI & Co.'ya karşı dava açıyor. Ya da OpenAI & Co. ile anlaşıp içeriklerini AP haber ajansı Springer-Verlag gibi şirketlere satıyorlar. , daha yakın zamanda Reddit.

Büyük miktarlarda verinin istenmeden kullanılmasına dayanan iş modellerinin olduğu zamanlarda, robots.txt artık olumlu bir şekilde güncellenmiyor gibi görünüyor. “Robotları Hariç Tutma Standardı”, değişime ve işbirliğine dayanan ilk webin ruhunu hâlâ yansıtıyor. Doğum günün kutlu olsun, robots.txt.

(Evet)

Haberin Sonu

robots.txt – web siteleri için 30 yıllık temel kurallar

Saberie

Active member