Google, Gemini mimarisi üzerine geliştirilen ilk tam multimodal embedding modeli olan Gemini Embedding 2’yi tanıttı.
Yeni model, geliştiricilerin kullanımına Gemini API ve Vertex AI üzerinden ön izleme olarak sunulmuş durumda.
Metin, görüntü, video ve ses tek bir sistemle analiz edilebilecek
Gemini Embedding 2’nin en dikkat çekici özelliği, farklı veri türlerini tek bir ortak anlam uzayında işleyebilmesi. Model; metin, görüntü, video, ses ve belgeleri aynı sistem içinde analiz ederek 100’den fazla dilde anlam ilişkilerini ortaya çıkarabiliyor.
Bu sayede geliştiriciler için karmaşık yapay zekâ sistemleri kurmak çok daha kolay hâle geliyor. Özellikle semantik arama, duygu analizi, veri kümelendirme ve RAG (Retrieval-Augmented Generation) gibi alanlarda daha güçlü sonuçlar elde edilmesi hedefleniyor.
Çoklu veri girişi aynı anda kullanılabiliyor
Yeni model farklı veri türlerini tek tek işlemekle sınırlı değil. Örneğin bir görüntü ve metin aynı anda modele gönderilebiliyor. Böylece model, gerçek dünyadaki karmaşık veri ilişkilerini daha doğru şekilde anlayabiliyor.
Gemini Embedding 2’nin teknik kapasitesinden bazı öne çıkan detaylar şöyle:
Metin: 8192 token’a kadar bağlam desteği
Görüntü: Aynı istekte 6 adet PNG veya JPEG