İstenen Görseli Oluşturabilen Yapay Zeka: DALL-E 2

Samuag

New member
Yapay zeka araştırmalarıyla bilinen OpenAI, metin açıklamalarından çarpıcı manzaralar üretebilen yapay zeka DALL-E 2 ile yeni bir muvaffakiyete imza attı. Geçen yılın başında çıkan birinci sürümünün üzerine geliştirilen DALL-E 2, gelişmiş derin öğrenme teknikleri ve yapay hudut ağları yardımıyla insan hayalini yorumlama yeteneğiyle ilgilerin odağı haline gelmiş durumda. Dilerseniz sunduğu yenilikler ve öne çıkan yanlarıyla DALL-E 2’ye daha yakından bakalım.

San Francisco’daki OpenAI laboratuvarında doğan DALL-E 2’nin en büyük niteliği Generative Adversarial Network (GAN) olarak bilinen makine tahsili modelini kullanımında gizli. Çalışma biçimi bakımından Türkçeye Çekişmeli Üretici Ağ olarak çevrilen bu model, son senelerda muazzam gelişmelere sahne oldu. Bu gelişmelere her insanın bildiği Deepfake’i örnek gösterebiliriz. GAN, artık ise DALL-E 2’ye güç vererek bir metin açıklamasıyla uyuşan olağanüstü görseller oluşturmanın önünü açıyor. Pekala Çekişmeli Üretici Ağlar nedir ve nasıl çalışıyor buna kısa bir bakış atalım.

Günümüzde Apple’ın özel projeler kümesinde makine tahsili yöneticisi olarak çalışan Ian Goodfellow’un 2014 yılında tasarladığı GAN, temel olarak üretici ve ayırt edici olarak isimlendirilen iki yapay hudut ağının birbiriyle yarışı temeline dayanıyor. Bu sistemi bir örnek üzerinden ele alarak GAN’a köpek görselleri ürettirmek istediğimizi var iseyalım. Birinci başta yapay zekaya köpeklerin ne olduğunu öğretmemiz gerektiğinden kendisine fazlaca sayıda gerçek köpek görseli sunmamız gerekiyor. Akabinde GAN’ın bünyesindeki üretici ağ, köpeklerin fizikî yapısını öğrendiği için görsel üretimine başlayabilir. Üretilen her görsel ondan sonrasındaki süreçte ayırt edici ağa aktarılır ve burada gerçek ve yapay hudut ağının ürettiği geçersiz görseller karşılaştırılarak ayırt edilir. Çok kısa vakit içerisinde gerçekleşen bu süreçler devam ettikçe üretici ve ayırt edici ağ içindeki rekabet kızışır, bu iki yapay hudut ağı da yetenek açısından gelişmeye başlar. Yani, ayırt edici ağ gitgide geçersiz görselleri daha yanlışsız belirlerken, üretici ağ ise buna karşılık fazlaca daha gerçekçi geçersiz görseller üretir.

DALL-E 2’nin Oluşturduğu Görseller
1 – 6













DALL-E’ye dönecek olursak, bu projede yalnızca GAN teknolojisinin kullanılmadığını belirtmekte yarar var. DALL-E 2’nin ardındaki asıl bilim, son birkaç yılda isminden oldukçaça bahsedilen iki gelişmiş derin öğrenme tekniği, CLIP ve Difüzyon modelleri olarak ön plana çıkıyor. Bu iki derin öğrenme tekniğinin dayanağıyla DALL-E 2, oluşturduğu imajlardaki anlamsal tutarlılığı müdafaası yardımıyla rakiplerinden çok ileride. Örneğin, “Ata binen bir astronot” açıklamasıyla DALL-E 2 tarafınca üstteki görsellerin oluşturulması, yapay zekanın lisana hakimiyetini gözler önüne seriyor. Ayrıyeten, açıklamaların sonunda yer alan “karakalem” ve “fotogerçekçi” üzere görsellerin usulünü belirten kavramların dahi dikkate alınması ilgi cazibeli. OpenAI’nin kendi gerçekleştirdiği testlerle oluşturulan öteki görselleri buradaki interaktif içerikten inceleyebilirsiniz.

Birinci versiyonuna kıyasla değişik bir hale bürünen DALL-E 2, şimdilik herkese açık değil lakin OpenAI birinci kullanım bahtına erişmek isteyenler için müracaatları açtı. İlerleyen günlerde bekleme listesine kaydını yaptıranlar bu yapay zekayı deneme hakkına sahip olabilecekler. Niyetlerinizi yorumlarda bizlerle paylaşmayı unutmayın.