Makine Öğrenimi: Google and Co.'dan Croissant ile veri kümelerini bulun ve kullanın.
Google, araştırma blogunda makine öğrenimi için yeni bir meta veri biçimini tanıttı: Croissant, ML uygulamaları için kullanılacak veri kümelerini açıklıyor.
Duyuru
Format, hem yayınlama sırasında veri kümelerini tanımlamak hem de uygun veri kümelerini bulmak ve bunları bir ML çerçevesinde okumak için kullanılır.
Meta veri formatı, ML uygulamaları için uygun içeriği bulmak ve bunları araçlarda daha kolay okumak için veri kümelerini açıklar.
(Resim: Google)
Kruvasan, çeşitli araştırma enstitüleri ve MLCommons konsorsiyumunun şirketleri arasındaki işbirliği sayesinde yaratıldı.
Klasik veri açıklamasından daha fazlası
Meta veri formatı, Schema.org veri kümesi açıklamasına dayanır ve bunu, örneğin yapılandırılmış ve yapılandırılmamış verileri birleştirmek için makine öğrenimi uygulamalarına yönelik belirli açıklamalarla genişletir.
Makine öğrenimi modellerinin eğitimi için kullanıma özel olan, hangi veri kümelerinin eğitim için, hangilerinin test için ve hangilerinin doğrulama için olduğunu belirtme yeteneğidir.
İnsanlar ve makineler için kruvasanlar
Kruvasan, farklı çerçevelerin ve diğer makine öğrenimi araçlarının verileri eşit şekilde işleyebilmesini ve veri bilimcilerin içeriğe ilişkin bir açıklama almasını sağlamak için kullanılır.
Format, farklı platformlar ve araçlar arasındaki değişimi basitleştirmeyi amaçlamaktadır.
(Resim: MLCommons)
Sorumlu Yapay Zeka (RAI) konusu başından beri ilgi odağı olmuştur. Croissant RAI sözlüğü, diğer hususların yanı sıra yapay zeka güvenliğini ve adilliğini değerlendirmek, verileri izlemek ve uyumluluk gerekliliklerinin karşılandığından emin olmak için çeşitli kullanım örneklerini ele alır.
Özellikler, örnekler ve araçlar
Croissant'ın yeni 1.0 sürümüyle birlikte formatın tüm özellikleri yayımlandı. Kruvasan meta verileri JSON-LD formatında saklanır.
Minds Mastering Machines, 24 ve 25 Nisan 2024 tarihlerinde Köln'de gerçekleşecek. iX VE dpunkt.verlag Yapay zeka abartısının ötesinde düzenlenen uzman konferansı, makine öğrenimi projelerini gerçeğe dönüştüren veri bilimcileri, veri mühendisleri ve geliştiricileri hedef alıyor.
Konferans programı, iki gün boyunca üç bölüm halinde, ayrıca aşağıdaki konularda 30 konferans içermektedir:
- Büyük dil modellerine giriş
- Açıklanabilir yapay zeka sayesinde daha fazla izlenebilirlik
- Teorik ve pratikte birleşik öğrenme
- LLM ile otomatik kod geçişi
- Vektör veritabanı optimizasyonu
- Taraflılık ve adalet arasında denge kurma eylemi
- AI Yasası ve Co.
Açık kaynaklı Python kütüphanesi mlcroissant meta verileri oluşturabilir, doğrulayabilir ve okuyabilir. İçerik oluşturmak, yüklemek ve görüntülemek için görsel bir düzenleyici de bulunmaktadır.
Platformlar ve araçlar
Sürüm 1.0'ın piyasaya sürülmesiyle birlikte Kaggle, Hugging Face ve OpenML platformları kruvasan formatında veri kümeleri sunmaya başlayacak.
Çerçeveler arasında TensorFlow, PyTorch ve JAX bulunur. Örnek veri kümeleri GitHub'da bulunabilir ve Google Colab'daki etkileşimli Jupyter Notebook, mlcroissant Python kitaplığıyla çalışmaya yönelik bir eğitim sunar.
Daha fazla ayrıntıyı Google Araştırma blogundaki duyuruda ve Croissant GitHub deposunda bulabilirsiniz.
(kendim)
Haberin Sonu