Herkese merhaba. Açıkçası aklımda hiç böyle bir animasyon denemesi yapmak yoktu. Zaten animasyon demek de doğru olmaz. Sadece görseller üzerinde minimal adobe premiere pro bilgim ile hafif geçişler eklemeye çalıştım. Peki nereden çıktı bu Hitoshi?
Öncelikle ben ne bir tasarımcıyım, ne de bir senaristim. Bu konulara ilgi bile duymamakla birlikte aslında bütün hikaye, yapay zeka araçlarını incelerken ortaya çıktı. Bu animasyon denemesindeki tüm görselleri leonardo.ai ile görsel üretme denemeleri yaparken ürettim. Sonra aklıma bu görselleri yine yapay zeka ile seslendirmek geldi ve bu amaçla da elevenlabs.io kullandım. Keşke senaryoyu da chatgpt yazsaydı ama maalesef henüz o noktaya gelememişiz. Absürt ve gerçekten uzak olmasına özen gösterdiğim bu senaryoyu da hızlıca kendim yazmak durumunda kaldım. Bir de video edit işini kotarabilecek bir yapay zeka üretirlerse bu sektörden ekmek yiyenlerin vay haline.
Öncelikle karşılaştığım problemlerden bahsetmek istiyorum. Görsel üretmek için Midjourney ile leonardo.ai arasında kalmıştım. Öncelikle bu ilk denemede leonardo.ai kullanmak istedim ve ücretli olarak kayıt oldum. Olumsuz yönlerinden başlayacak olursak maalesef yaşadığım en büyük sorun, karakter stabilizasyonu oldu. Bu sorunu da düzeltmeye çalışmak yerine animasyonda olduğu şekilde kullanmaya karar verdim. Aynı karakteri yapay zekaya ürettirmek ve hep aynı karakter ile görseller ürettirmek mümkün, fakat maalesef leonardo.ai farklı zaman dilimlerinde bu görevi getirmekte başarısız oldu. Bu konuda midjourney ne kadar başarılı olacak bunu da merakla bekliyorum. Bir görselden seed ID'si alarak yeni görseller üretirken nadiren başarılı olsa da çoğu zaman oldukça olumsuz sonuçlar üretti. Bunu belki bir video ile de ürettiğim görseller üzerinden paylaşabilirim. İkinci sıkıntı ise el ve ayaklardaki parmak sayıları ile boyutlandırma. Ürettiğim görsellerdeki hataları aslında düzeltebilecek kadar photoshop bilgim var ama bilinçli olarak bu hatalı görselleri kullanmayı tercih ettim.
elevenlabs kullanarak ürettiğim seslendirmede yaşadığım problemler ise özellikle vurgularda oldu. elevenlabs, text to speech aracında çeşitli ayarlamalar sunda da maalesef stabil ve akıcı bir çözüm elde etmek en azından benim için mümkün olmadı. Ayrıca istediğim şekilde seslendirtemediğim metinler de oldu. Örnek olarak HODL ifadesini hodıl olarak da yazdırsam bir türlü istediğim sesi ürettiremedim.
Gelelim başarılı kısımlara. Hem görsel hem de ses üretirken ilk kez denemekte olduğum bu yapay zeka araçları açıkçası beklentilerimin çok üzerinde sonuçlar üretti. Görsel üretirken o kadar çok seçeneğe sahipsiniz ki başınız dönüyor. Bazen kafanızda ürettiğiniz bir görseli sizin hayal gücünüzden bile daha detaylı şekilde üretebiliyor. Hız olarak yine muazzam, fiyatlandırma da bence makul seviyede. Ama prompt yazma konusu bence ayrıca ele alınması gereken bir konu. Ben tercihen İngilizce olarak uzun ve detaylı metinler ile prompt yazmayı tercih ettim ve prompt'larda yer alan en ufak nüansları bile yapay zeka çok güzel yakaladı. Yakın zamanda midjourney ile de benzer denemeler yapmak niyetindeyim.
Seslendirme konusunda elevenlabs'in ürettiği seslendirmelerde beni en çok şaşırtan şey, gerçeğe bu kadar yakın olmasıydı. Gerçeklikten kastım ise ağız şapırtıları, uzun nefes esleri ve dilin dönmemesi gibi detaylar ve sanki siz text ile seslendirme talep ettiğinizde başka bir bilgisayarda sizin seçtiğiniz kişi dili döndükçe ve nefesi yettikçe o yazıları seslendiriyor gibi hissettiriyor. Bunun yapay olarak üretilebilmesine halen inanamıyorum.
Her zaman olduğu gibi yine zaman darlığından ötürü bu yazıyı da kısa tutmak durumundayım. İlk animasyon denemesine gelecek tepkilere bağlı olarak bu seriyi de devam ettirebiliriz. Ama elimizde önceki sorulardan birikmiş çok uzun bir liste olduğu için excel/google sheets/programlama serileri de elbette devam ediyor olacak.
Sevgi ve saygılarımla.