Google’ın yeni kuşak yapay zekâ görüntü üretim modeli olan Veo 3, yalnızca birkaç sözlük metin komutlarıyla gerçekçi görüntüler oluşturabiliyor. Yeni sürümle birlikte, sistem artık bu görüntülere ortam sesleri, insan sesi ve gerçek vakitli fizik simülasyonları da ekleyebiliyor. Örneğin; “kalabalık bir metro vagonu” komutu verildiğinde, sırf görsel değil, tren sesleri, kalabalığın uğultusu ve konuşmalar da oluşturulabiliyor.
Veo 3, ağız hareketleriyle senkronize ses üretimi konusunda da tezli. Bu da onu sinema sanayisi için değerli bir araç haline getiriyor. Model, Google’ın yeni duyurduğu AI tabanlı sinema üretim aracı Flow üzerinden de erişime açık. Şimdilik sadece ABD’deki Gemini Ultra aboneleri tarafından kullanılabiliyor.
Google, bu gelişmeyi “yaratıcı bölümlerde kullanılabilir yapay zeka üretme vizyonumuzun bir parçası” olarak tanımlıyor.
ZORLU BİR TEKNİK PÜRÜZ AŞILDI
Video ve sesi tıpkı anda yapay zekâ ile üretmek, teknoloji dünyasında bugüne dek epeyce şiddetli bir sıkıntı olarak görülüyordu. Zira görüntü sabit karelerden oluşurken, ses dalga formunda ve büsbütün farklı vakit ölçeklerinde işliyorlar. Bu da iki farklı bilgi çeşidinin birebir anda işlenmesini ve senkronize edilmesini son derece karmaşık hale getiriyor.
Örneğin; birebir otomobil, 10 km/saat süratle gittiğinde farklı, 100 km/saat süratle gittiğinde farklı ses çıkarır. Yüzeye nazaran de ses değişir: Taş döşeli bir yolda yürüyen atın sesi, çim üzerindekiyle tıpkı değildir. Veo 3, bu tıp fizikî değişkenleri dinamik olarak hesaplayabilen bir altyapıya sahip.
Google’ın yanı sıra Meta da bu alanda adım atan teknoloji devlerinden biri. Lakin Google’ın Veo 3 modeli, eş vakitli görüntü ve ses üretimini muvaffakiyetle gerçekleştiren birinci modellerden biri olarak öne çıkıyor.
Yapay zekâ, artık yalnızca imaj değil; duyulabilen, hissedilebilen sahneler de yaratabiliyor. Bu da dijital içerik üretiminin geleceğini büsbütün tekrar şekillendirebilir.