DarkBERT, ChatGPT’nin karanlık kardeşi Darknet’ten gelen verilerle mi eğitiliyor?

Saberie · 21 May 2023

DarkBERT, ChatGPT’nin karanlık kardeşi Darknet’ten gelen verilerle mi eğitiliyor?

Güney Koreli araştırmacılardan oluşan bir ekip, Büyük Dil Modelleri (LLM) eğitimi için bir veri kümesi bulmak üzere Tor ağını taradı. Alışılmadık bir şekilde elde edilen veriler, yalnızca karanlık ağdan, yani potansiyel olarak bilgisayar korsanlarından, siber suçlulardan ve dolandırıcılardan ve ayrıca hem anlaşılmaz işlemler hem de fark edilmeyen bilgi alışverişi için zulüm gören politikacılardan ve anonimliğe değer veren diğerlerinden gelir. örneğin baskıcı bir rejim altında.

Bununla oluşturulan DarkBERT modeli, yetenekler açısından aynı mimari tipindeki (BERT ve RoBERTa) diğer büyük dil modellerine eşit veya biraz daha üstün olmalıdır. Ekip, arXiv.org’daki bir ön araştırma raporunda bunun ilk tur testlerden ortaya çıktığını bildirdi. Genel olarak atom kodunu veya hassas bilgileri onlara emanet etmemek en iyisidir, ancak aynı şey genel olarak AI sistemleri için de geçerlidir.

Dark Web, Clear Web’den farklı konuşuyor

Karanlık web etkinliğini kategorilere ayırmak için istatistikleri kaydedin

(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)

Gerçeklere bir bakış: Dunkelbert’in yaratıcıları, işlerine karanlık bir hava katsalar da, dünya hakimiyetini ele geçirmeye veya gizli İnternetten İnternet’in görünür alanına (Clear Web) içerik dökmeye niyetleri olmadığını söylüyorlar. cevapsız olarak adlandırarak not edin. DarkBERT ile, farklı kullanım durumlarında derin ağ için belirli bir alan modelinin avantajlarını ve dezavantajlarını araştırmak istiyorlar.

DarkBERT, Darknet’e ışık getirmeyi hedefliyor

Raporun giriş kısmına göre araştırmanın amacı, Darknet’in dilini daha da geliştirmek. Dark web için özel olarak tasarlanmış dil modelleri “değerli bilgiler sağlayabilir”. Güney Koreli ekip, karanlık ağın geniş bir dilbilimsel modelde yeterli şekilde temsil edilmesinin, bu alanı açık ağın görünür alanından ayırıyor gibi görünen sözcüksel ve yapısal çeşitliliği evcilleştirmede önemli olduğuna inanıyor. Araştırmacılara göre, ana odak noktası güvenlik araştırması ve Darknet alanı için bağlamsal anlayışa sahip bir AI modelinin oluşturulması.

Projenin ilk sorusu, Darknet verilerine odaklanan eğitimin, ücretsiz olarak erişilebilen ‘yüzeye yakın’ internet verileriyle eğitime göre bu alanın dilinin bağlamını daha iyi anlayan bir LLM sağlayıp sağlayamayacağıydı. Ekip, veri toplamak için Tor aracılığıyla bir dil modelini karanlık ağa bağladı ve ikinci adımda bir model oluşturmak için kullandıkları tarama yoluyla ham veriler topladı. Araştırmacılar daha sonra yeni modeli, Google tarafından geliştirilen BERT (Transformers’tan Çift Yönlü Kodlayıcı Temsilleri) türündeki mevcut AI modelleri ve geliştirilmiş mimarisi RoBERTa (Robustly Optimized BERT Pre-training Approach) ile karşılaştırdı.

DarkBERT: Ön oluşum süreci ve değerlendirme senaryolarının gösterimi

(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)

Hedef kitle: Siber güvenlik kurumları ve kolluk kuvvetleri

Beklendiği gibi DarkBERT, alan bilgisiyle en azından biraz karanlık web testlerinde ikisinden daha iyi performans gösterdi. BERT, güçlü GPT tipi Transformer modelleri karşısında artık biraz modası geçmiş olarak görülse de, Google tarafından açık kaynak olarak kullanıma sunuldu ve çoğaltma çalışmaları için model türünün kullanıldığı araştırmalar devam ediyor. DarkBERT, ön baskıdan da görülebileceği gibi, iki haftalık bir süre boyunca iki veri setinin girildiği, sonradan eğitilmiş bir RoBERTa’dır: bir kez taranan ham veriler ve ikinci kez veri seti verilerinin hazırlanmış (ön işlenmiş) formu.

Hedef grup siber suçlular değil, siber suçla savaşmak için karanlık ağı araştıran kanun uygulayıcı kurumlardır. Ön baskıya göre, dark web’deki en yaygın konular dolandırıcılık ve veri hırsızlığıdır ve dark web’in ayrıca organize suçlar tarafından isimsiz röportajlar için kullanıldığı söylenir. Yaklaşımla ilgili ilginç olan şey, karanlık veya derin ağın, Google gibi arama motorlarının gizlediği ve çoğu insanın eğlenmediği (veya hoşlanmadığı) bir internet alanı olmasıdır, çünkü bunun için özel bir gereklilik vardır. yazılım .

Tor Tarayıcıda soğan prosedürü: Tor ağı nasıl çalışır?

(Resim: BSI)

Anonimlik, gazeteciler ve muhalefet üyeleri için de önemlidir.

Temel olarak, internette anonim olarak gezinmek, mahremiyetine önem veren ve verilerini kişiselleştirilmiş reklamcılık yoluyla veri toplamayı veya hedeflemeyi bir iş modeli haline getiren büyük teknoloji şirketlerinin havuzuna dökmek istemeyen herkes için ilginç olacaktır (örneğin, Google olarak). Gazeteciler, muhalefet üyeleri ve siyasi olarak zulüm gören kişiler de, örneğin bölgesel olarak engellenen ve sansürlenen içeriğe erişmek için karanlık ağı kullanıyor. Tor tarayıcı, başlangıçta, bağlantı verilerini anonimleştirmek için bir yer paylaşımlı ağdan başka bir şey değildir, logosu ve kısaltması, soğan ilkesini temsil eder (yazıldığında, kısaltma “Soğan Yönlendiricidir”). Tor, kullanıcılarını örneğin tarama yaparken, sohbet ederken ve e-posta gönderirken veri trafiği analizinden korur.

Önerilen editoryal içerik

İzninizle, buraya harici bir YouTube videosu (Google Ireland Limited) yüklenecek.

Her zaman YouTube videoları yükleyin

YouTube videosunu şimdi yükleyin

c’t 3003: “Darknet hakkında bilmeniz gerekenler (ve orada nasıl güvende olunacağı)” – Jan-Keno Janssen

İnsan Geri Bildirimi Güçlendirme Eğitimi (RLHF) nedeniyle mevcut modelleri çok yumuşak ve empatik bulan herkes, DarkBERT’ten memnun olabilir veya “karanlık” varyant, Darknet’in doğası hakkındaki mitleri yok ederse ve çıktı ortaya çıkarsa, nihayetinde hayal kırıklığına uğrayabilir. beklenenden daha önemsiz. Yüzey İnternet bile estetiğiyle ünlü değil. DarkBERT ücretsiz olarak erişilebilir değil ve arXiv ön baskısına göre modeli halka açık hale getirme planları yok.

Karanlık web etkinlik sıralamasında BERT ve RoBERTa’ya karşı DarkBERT performans sonuçları (her durumda en iyi performans kalın harflerle vurgulanmıştır)

(Resim: DarkBERT: İnternetin Karanlık Yüzü İçin Bir Dil Modeli)

Yayın beklenmiyor

Benzer yaklaşımlar, örneğin ilgili forumları veya yasa dışı faaliyetleri izlemek için gerçek zamanlı araştırmalarla birleştirilmeleri koşuluyla siber güvenlik yetkililerinin ilgisini çekebilir. Bu tür yaklaşımların, gözetim ve sansürün henüz yürürlüğe girmediği, İnternet’in en son korunan alanlarına kurban gitmemesi umulmaktadır.

Kolluk kuvvetlerinin erişime sahip olup olmayacağı bilinmiyor, ancak akademik araştırma amaçlı talepler kabul edilecek. LLaMA’nın Meta AI / FAIR (Facebook AI Research) tarafından da bu formda erişilebilir hale getirildiğini ve hızlı bir şekilde sızdırıldığını düşünürsek, DarkBERT’in yakın gelecekte, örneğin Darknet’te gayri resmi olarak dolaşabileceği düşünülebilir.

(onun)

Haberin Sonu

DarkBERT, ChatGPT’nin karanlık kardeşi Darknet’ten gelen verilerle mi eğitiliyor?

Saberie

Active member