Google'ın yapay zekası grafik arayüzleri yönetir ve infografikleri anlar

Saberie

Active member
Google'ın yeni bir resim dili modeli mecazi dili anlamaya ve onu kullanılabilir hale getirmeye çalışıyor. Bunlar, diğer şeylerin yanı sıra, daha sonra kullanılmak üzere büyük dil modellerinin (LLM'ler) kullanımına sunulan grafik arayüzleri (UI'ler), sembolleri, tabloları, infografikleri ve düzenleri içerir.

Duyuru



Gemma'nın ardından Google Research, ScreenAI ile bir yapay zeka modeli daha sundu. Araştırmacılar onu, öğe türü, konumu ve açıklaması da dahil olmak üzere kullanıcı arayüzü öğelerini ve bilgilerini deşifre etmek için eğitti. Yüksek Lisans'lar bu bilgileri bir web sitesini veya infografiği anlamak, onunla ilgili soruları yanıtlamak ve arayüzünde gezinmek için kullanmalıdır.

ScreenAI'de bulunan öğeler benzer kalıplara ve tasarım ilkelerine sahiptir ve bu da onu ortak bir AI modeline uygun hale getirir. Pix2struct ile genişletilmiş PaLI mimarisini temel alır. Google araştırmacıları bunu çok modlu bir kodlayıcı bloğu ve otoregresif kod çözücüyle eğitti. Bir görüntü transformatörü (ViT), kodlayıcıya girdi görevi gören görüntülerin anlamsal bir tanımını (görüntü yerleştirme) sağlar. ViT ayrıca farklı sayfa formatlarındaki görselleri de işler.




Google'dan ScreenAI



ScreenAI için örnek bir uygulama: görsel bir temsilin içeriğinin özetlenmesi.


(Resim: Google araması)



İki aşamalı eğitim


Eğitim iki aşamada gerçekleştirildi; ilk olarak ViT ve dil modeli için otomatikleştirilmiş ve kendi kendine öğrenme, ardından yalnızca dil modeli için manuel olarak öğrenme. Masaüstü bilgisayarlardan, akıllı telefonlardan ve tabletlerden “geniş bir ekran görüntüsü koleksiyonu” temel oluşturdu. Öğe analizine (resimler, metin, kontroller) ek olarak piktogramlar, bir simge sınıflandırıcı kullanılarak özel olarak 77 simge türüne göre sınıflandırıldı. Duyuruya göre bu gerekliydi çünkü piktogramlar incelikli bilgiler içeriyor. Ek olarak, optik karakter tanıma (OCR), metinlerin görüntülerde kullanılabilir olmasını sağlamıştır.




Google'dan ScreenAI



ScreenAI, grafiksel kullanıcı arayüzünün öğelerini analiz eder ve bunları makine tarafından okunabilen koda dönüştürür.


(Resim: Google araması)



Google'ın araştırma ekibi daha sonra görsel bağlamlarıyla ilgili yapay olarak oluşturulmuş kullanıcı sorularıyla bir Yüksek Lisans eğitimi aldı. Bu, “Restoran ne zaman açılıyor?” gibi soruları, “Düğmeye tıklayın” gibi baştan savma eylemleri ve “Ekran görüntüsünde iki cümleyle ne var?” gibi özetleri içeriyordu.

ScreenAI, bir dizi AI kıyaslamasında (WebSRC, MoTIF Chart QA ve DocVQA) iyi, son teknoloji sonuçlar elde etti, ancak: “Ancak, yaklaşımımızın hala büyük modellerin gerisinde kaldığını ve daha fazla araştırmaya ihtiyaç olduğunu da not ediyoruz. bu boşluğu doldurun.” Google Araştırma, soru ve cevap yeteneklerini test etmek için iki yeni kıyaslama başlattı: ScreenQA Kısa ve Karmaşık ScreenQA.

Daha fazla bilgiyi belirtilen bilimsel makale ve blog yazısında bulabilirsiniz.


(DSÖ)



Haberin Sonu
 
Üst