DataChain: AI tabanlı veri iyileştirme için yeni açık kaynaklı araç

Saberie

Active member
Veri Sürümü Kontrolü (DVC) komut satırı aracının arkasındaki şirket olan Iterative, başka bir açık kaynak projesini duyurdu: DataChain, özellikle yapılandırılmamış verileri işlemek ve değerlendirmek için tasarlanmış bir Python kütüphanesidir. Makine öğrenimi ve veri profesyonellerinin iş akışlarını optimize etmelerine yardımcı olmak için tasarlanmıştır.


Duyuru



LLM ve yerel ML modelleriyle verileri düzenleyin


Her geçen gün daha fazla şirket üretken yapay zekayı kullansa da, yakın tarihli bir McKinsey araştırmasına göre ankete katılan şirketlerin yalnızca %15'i bunun kendi işleri üzerinde önemli bir olumlu etkisi olduğunu doğrulayabiliyor. Bunun nedenleri arasında yapılandırılmamış verilerin işlenmesindeki zorluklar da vardı. Burası tam olarak Iterative'in DataChain ile başlamak istediği yer. Açık kaynaklı aracın, örneğin yapay zeka destekli veri iyileştirme yoluyla verileri daha kullanışlı formatlara dönüştürmeye ve kaliteyi artırmaya yardımcı olması amaçlanıyor. Geliştiriciler, verilerini zenginleştirmek için hem yerel makine öğrenimi modellerini hem de büyük dil modellerine (GPT veya Claude gibi Yüksek Lisans'lar) yapılan API çağrılarını kullanabilir.

DataChain'in diğer tipik uygulama alanları arasında LLM analizleri ve çok modlu yapay zeka uygulamalarının doğrulanması yer alır. Verileri doğrularken DataChain, JSON yerine kesin olarak yazılan Pydantic nesnelerini kullanmanıza olanak tanır. Projenin GitHub deposunda geliştirme ekibi, farklı veri kaynaklarından gelen chatbot diyaloglarının farklı yöntemler kullanılarak, örneğin yerel bir ML modeli kullanılarak veya evrensel bir sınıflandırıcı görevi gören LLM'ler kullanılarak nasıl değerlendirilip değerlendirilebileceğine dair bir örnek gösteriyor.



DataChain, veri kümelerini depolamak için otomatik olarak sürüm oluşturan yerleşik bir SQLite veritabanı kullanır. Gerekirse geliştiriciler, bir LLM'nin tüm yanıtını, yanıt veri yapısı (sınıf) yerine doğrudan dahili veritabanına serileştirmek için aracı kullanabilirler. ChatCompletionResponse) ayıklamak. Aşağıdaki kod örneği, depolanan kayıtların nasıl alınacağını ve nesneler üzerinde yinelemenin nasıl yapılacağını açıklamaktadır.


chain = DataChain.from_dataset("response")

# Iterating one-by-one: support out-of-memory workflow
for file, response in chain.limit(5).collect("file", "response"):
# verify the collected Python objects
assert isinstance(response, ChatCompletionResponse)

status = response.choices[0].message.content[:7]
tokens = response.usage.total_tokens
print(f"{file.get_uri()}: {status}, file size: {file.size}, tokens: {tokens}")


DataChain hakkında daha fazla bilgiyi Iterative'in resmi açık kaynak proje duyurusunda bulabilirsiniz. DataChain hakkında somut bir fikir edinmek istiyorsanız GitHub deposuna göz atmalısınız. Python kütüphanesi hakkında detaylı bilgilerin yanı sıra giriş niteliğinde bir eğitime de bağlantı bulunmaktadır.


(harita)
 
Üst