Google, yapay zekâ modellerini metin tahmin eden sistemlerden gerçekliği daha iyi anlayan ve simüle edebilen yapılara taşımak için yeni Gemini Omni model ailesini duyurdu. Şirketin yeni modeli, farklı girdi türlerinden farklı çıktı formatları üretebilen çok modlu bir yapay zekâ sistemi olarak konumlanıyor.
Google’a göre Gemini Omni, Gemini’nin akıl yürütme kabiliyetini şirketin üretken medya modelleriyle birleştiriyor. Bu sayede kullanıcılar görsel, ses, video ve metin gibi farklı girdileri bir araya getirerek yüksek kaliteli video çıktıları oluşturabilecek. Modelin ilk aşamada video üretimine odaklanacağı, ilerleyen dönemde ise görsel ve ses gibi farklı çıktı türlerini de destekleyeceği belirtiliyor.
Google, Omni ailesinin ilk modeli olarak Gemini Omni Flash’ı kullanıma sundu. Model bugünden itibaren Gemini uygulaması, Google Flow ve YouTube Shorts üzerinden denenebilecek. Şirket, önümüzdeki haftalarda Gemini Omni Flash’ı geliştiricilere ve kurumsal müşterilere API’ler üzerinden de açmayı planlıyor.
Bu duyuru, Google’ın geçtiğimiz yıl kullanıma sunduğu Nano Banana modelinin ardından geliyor. Nano Banana, Gemini’nin zekâsını görsel üretim ve düzenleme tarafına taşıyarak kullanıcıların eski fotoğrafları yenilemesine, eskizlerden tasarımlar oluşturmasına ve fikirlerini görselleştirmesine yardımcı olmuştu. Google şimdi bu yaklaşımı video üretimi ve daha kapsamlı çok modlu içerik oluşturma tarafına genişletiyor.
Gemini Omni’nin dikkat çeken taraflarından biri, yalnızca içerik üretmesi değil, aynı zamanda kullanıcıların videoları konuşarak düzenleyebilmesi. Kullanıcılar, oluşturdukları videolar üzerinde sohbet ederek değişiklik isteyebilecek ve model bu istekleri Gemini’nin gerçek dünya bilgisiyle birlikte değerlendirebilecek.
Google, Gemini’yi en başından itibaren yerel olarak çok modlu bir model ailesi olarak geliştirdiğini belirtiyor. Gemini Omni ile şirket, bu stratejide bir sonraki adıma geçerek yapay zekânın sadece metin, görsel veya video üreten ayrı araçlar yerine; farklı veri türlerini anlayan ve bunlardan yeni medya çıktıları oluşturabilen birleşik bir modele dönüşmesini hedefliyor.
Bu hamle, Google’ın üretken yapay zekâ yarışında özellikle video üretimi, görsel düzenleme ve çok modlu içerik oluşturma alanlarında daha agresif bir pozisyon almaya başladığını gösteriyor. Gemini Omni Flash’ın YouTube Shorts’a entegre edilmesi ise Google’ın bu teknolojiyi yalnızca profesyonel üretim araçlarında değil, günlük içerik üretimi ve kısa video ekosisteminde de yaygınlaştırmak istediğine işaret ediyor.
Gemini Omni Nedir?
Gemini Omni, Google’ın farklı girdi türlerinden farklı medya çıktıları üretebilen yeni çok modlu yapay zekâ model ailesidir. Model; metin, görsel, ses ve video gibi girdileri anlayarak ilk aşamada yüksek kaliteli video çıktıları oluşturabiliyor. İlerleyen dönemde görsel ve ses üretimi gibi farklı çıktı türlerini de desteklemesi planlanıyor.
Gemini Omni ile Videolar Doğal Dil Komutlarıyla Düzenlenebilecek
Gemini Omni, videoları doğal dil komutlarıyla düzenlemeyi kolaylaştırıyor. Kullanıcıların verdiği her yeni talimat, bir öncekinin üzerine inşa ediliyor. Böylece karakterler tutarlılığını koruyor, fiziksel gerçeklik bozulmuyor ve sahne daha önce yaşananları hatırlayarak ilerliyor.
Gemini Omni ile kullanıcılar çevrelerindeki dünyayı dönüştürebiliyor. Videodaki belirli unsurları değiştirmek ya da sahnenin tamamını yeniden kurgulamak mümkün hale geliyor. Böylece mevcut video, kullanıcıların kendi başına çekemeyeceği yeni bir görsel anlatının başlangıç noktasına dönüşüyor.
Gemini Omni ile Videodaki Aksiyon Yeniden Kurgulanabilecek
Gemini Omni, kullanıcıların çektikleri videolardaki aksiyonu yalnızca doğal dil komutlarıyla yeniden kurgulamasına olanak tanıyor. Kullanıcılar Omni’den videoda yaşananları değiştirmesini isteyerek sahnedeki hareket akışını düzenleyebiliyor.
Bu özellik sayesinde videoya yeni karakterler veya nesneler eklemek, mevcut aksiyonu değiştirmek ya da sıradan bir anı beklenmedik bir sahneye dönüştürmek mümkün hale geliyor.
Gemini Omni, Fikirleri Gemini’nin Dünya Bilgisiyle Hayata Geçiriyor
Gemini Omni, yalnızca gerçekçi görünen sahneler oluşturmakla kalmıyor; bir sahnede bundan sonra ne olması gerektiğini de akıl yürüterek belirleyebiliyor. Fizik kurallarına dair sezgisel anlayışını Gemini’nin tarih, bilim ve kültürel bağlam bilgisiyle birleştiren model, fotogerçekçilik ile anlamlı hikâye anlatımı arasındaki boşluğu kapatmayı hedefliyor.
Omni, yerçekimi, kinetik enerji ve akışkan dinamiği gibi kuvvetlere dair gelişmiş sezgisel anlayışı sayesinde daha gerçekçi sahneler oluşturulmasına imkân tanıyor. Böylece kullanıcılar, fiziksel olarak daha tutarlı ve inandırıcı görseller üretebiliyor.
Gemini Omni, Farklı Girdi Türlerinden Tek Bir Video Oluşturabiliyor
Gemini Omni, kullanıcıların farklı referans türlerini bir araya getirerek video üretmesine olanak tanıyor. Görsel, metin, video veya ses gibi herhangi bir referans, Omni tarafından tek ve bütünlüklü bir çıktıya dönüştürülebiliyor.
İlk aşamada ses tarafında yalnızca ses referansları desteklenecek. Ancak Google, diğer ses girdi türlerinin de yakında kullanıma sunulacağını belirtiyor.
Gemini Omni ile Kullanıcılar Kendi Dijital Avatarlarıyla Video Oluşturabilecek
Google, yapay zekâyı sorumlu şekilde geliştirmeye odaklandığını ve kullanıcıları olası zararlardan korumak için yapay zekâ araçlarının kullanımına yönelik net politikalara sahip olduğunu belirtiyor. İlk aşamada kullanıcılar, Avatarlar özelliğiyle kendi seslerini kullanarak videolar oluşturabilecek. Bu özellik, kullanıcıların kendilerine benzeyen ve kendileri gibi konuşan dijital bir versiyon oluşturarak video üretmesine imkân tanıyor.
Avatar özelliğinin ötesinde, videolardaki ses ve konuşmaları değiştirmeye yönelik düzenleme kabiliyetleri için Google’ın test süreci devam ediyor. Şirket, bu özelliği kullanıcılara sorumlu bir şekilde nasıl sunabileceğini daha iyi anlamak için çalışmalarını sürdürüyor.
Omni ile oluşturulan tüm videolarda, Google’ın görünmez SynthID dijital filigranı yer alıyor. Kullanıcılar, videoların Gemini Omni ile üretilip üretilmediğini Gemini uygulaması, Chrome’daki Gemini ve Google Arama üzerinden kolayca doğrulayabiliyor. Google ayrıca, içeriklerin web genelinde nasıl oluşturulduğunu ve düzenlendiğini anlamaya yardımcı olmak için içerik şeffaflığı ve doğrulama araçlarını genişlettiğini belirtiyor.
Google, Omni ailesinin ilk modeli olan Gemini Omni Flashı kullanıma sundu. Gemini Omni Flash, bugünden itibaren dünya genelindeki Google AI Plus, Pro ve Ultra abonelerine Gemini uygulaması ve Google Flow üzerinden sunuluyor. Model ayrıca bu haftadan itibaren YouTube Shorts ve YouTube Create App kullanıcılarına ücretsiz olarak açılıyor.
Google, Gemini Omni Flash’ın önümüzdeki haftalarda geliştiriciler ve kurumsal müşteriler için API üzerinden de kullanıma sunulacağını açıkladı.
FounderN, Türkiye’nin girişim ve teknoloji haber platformudur.
LinkedIn | Instagram | FounderN 09:13 Bülteni | FounderN Daily





