Google yeni ses modelini tanıttı
Google yeni modelin eşsiz bir kontrol imkanı sunduğunu ifade ediyor. Kullanıcılar sohbet botunun ses tonunu, hızını ve vurgularını metin tabanlı komutlarla dile
Google yeni modelin eşsiz bir kontrol imkanı sunduğunu ifade ediyor. Kullanıcılar sohbet botunun ses tonunu, hızını ve vurgularını metin tabanlı komutlarla dilediği şekilde yönlendirme imkanına sahip. Paylaşılan bir video da bu yeniliğin ne kadar esnek olduğunu gözler önüne serdi. Sisteme hevesli, şaşkın ya da bilgilendirici gibi farklı duygu durumları yüklenebiliyor.
Gemini 3.1 Flash TTS sese yalnızca duygu katmakla kalmıyor, aynı zamanda farklı dil aksanlarını da başarıyla taklit ediyor. Kullanıcılar Amerikan veya İngiliz aksanlarının çeşitli yerel ağızları arasından seçim yapabilir. Bununla birlikte sistemde bir yönetmenmiş gibi konuşma tarzını ince ince işlemek de mümkün. Podcast sunucusu, sesli kitap anlatan biri, dil öğretmeni veya haber spikeri gibi hazır şablonlar sayesinde istenilen atmosfere anında uyum sağlanıyor.
70’ten fazla dili destekleyen Gemini 3.1 Flash TTS, Japoncadan Hintçeye kadar geniş bir yelpazede akıcı bir konuşma deneyimi vadediyor. Üstelik üretilen seslerin yapay zeka elinden çıktığını belli eden SynthID filigranı da unutulmamış. Bu sayede şeffaflık da elden bırakılmıyor.
Gerçek insanların değerlendirme yaptığı ses testlerinde ikinci sıraya yerleşen Gemini 3.1 Flash TTS şimdiden yeteneklerini kanıtlamış durumda. Geliştiriciler Gemini API ve Google AI Studio üzerinden modeli kullanabilirken, şirketler de Vertex AI platformu üzerinden erişebiliyor. Standart kullanıcılar ise bu yenilikçi ses modelini Google Vids’de deneyimleyebilir.
(Kaynak: CNN)