Teknoloji ve bilim dünyasını seven ve takip etmekten büyük zevk alan Metin, öğrendiklerini ise DonanımHaber okuyucuları ile paylaşır.
Yapay zeka özelinde “embedding” kavramının Türkçe bir karşılığı yok. Ancak “anlamsal vektör temsili” desek ifadeyi karşılamış oluruz. Yine de haber içinde literatürdeki orijinal kavramı kullanacağız. Peki embedding modelleri aslında ne yapıyor?
Yapay zeka tartışmalarında sıkça geçen embedding kavramı, verilerin anlamını matematiksel olarak temsil eden sayısal vektörlere dönüştürülmesi anlamına geliyor. Basit bir benzetmeyle embedding modeli, bilgiyi anlamına göre düzenleyen dev bir kütüphane sistemi gibi çalışıyor.
Klasik kütüphanelerde kitaplar yazarına veya türüne göre sınıflandırılır. Embedding uzayında ise içerikler anlam benzerliğine göre konumlandırılır. Örneğin Steve Jobs hakkında bir biyografi kitabı, Macintosh hakkında teknik bir kılavuzla aynı “anlam kümesi” içinde yer alabilir. Bu sistemde bir metin, fotoğraf veya podcast kesiti yüksek boyutlu bir harita üzerinde sayısal koordinatlara dönüştürülür. Eğer iki içerik anlam bakımından birbirine yakınsa, bu koordinatlar da vektör uzayında birbirine yakın olur.
Bugün embedding modelleri pek çok dijital hizmetin arkasındaki görünmez altyapıyı oluşturuyor. Arama motorları, kullanıcının yazdığı kelimeler yerine niyetini anlayarak sonuç üretirken bu teknolojiden yararlanıyor. Öneri sistemleri ise kullanıcıların izlediği veya dinlediği içeriklere benzer olanları bu vektör yakınlığına göre belirliyor.
Öte yandan günümüzde bu modellerin birçoğu halen “metin odaklı” bir yaklaşıma sahip. Google’ın Temmuz 2025’te tanıttığı gemini-embedding-001 modeli yalnızca metin verilerini işleyebiliyordu. Yeni duyurulan Gemini Embedding 2 ise aynı mimariyi temel almasına rağmen kapsamını ciddi ölçüde genişletiyor.
Yeni model yalnızca metinle sınırlı kalmıyor, bunun yanında; görselleri, videoları, ses kayıtlarını ve PDF belgelerini de metinle aynı semantik vektör uzayına dönüştürebiliyor. Bu yaklaşım, farklı veri türlerinin anlam temelli olarak doğrudan karşılaştırılmasına olanak tanıyor.
Gemini Embedding 2’nin dikkat çeken yeniliklerinden biri de ses verisini doğrudan işleyebilmesi. Geleneksel yöntemlerde ses verisi önce konuşmadan metne sistemiyle yazıya dökülüyor, ardından embedding modeline aktarılıyordu. Bu süreçte bazı bağlamsal veya akustik bilgilerin kaybolabildiği biliniyor.
Yeni model ise ses verisini doğrudan ses dalgaları, videoyu ise hareket ve zaman bilgisi üzerinden analiz ediyor. Böylece metne dönüştürme sürecinde oluşabilecek bilgi kaybı ortadan kalkıyor ve daha ayrıntılı semantik analiz yapılabiliyor.
Model ayrıca “interleaved input” olarak adlandırılan bir özelliği de destekliyor. Bu özellik sayesinde geliştiriciler tek bir istekte birden fazla veri türünü birlikte gönderebiliyor. Örneğin bir görsel ile ona ait açıklama metni aynı anda işlenebiliyor. Google’a göre bu yöntem, farklı medya türleri arasındaki ilişkilerin daha doğru biçimde öğrenilmesini sağlıyor.