Microsoft, Yapay Zeka Takviyeli Ses Simüle Tahlilini Duyurdu

Samuag

New member
Microsoft araştırmacıları, üç saniyelik bir ses örneği verildiğinde bir kişinin sesini simüle edebilen VALL-E isimli yeni bir yapay zeka modeli geliştirdi. Geliştirilen yapay zeka sırf üç saniyelik bir ses alıntısı ile mükemmeller yaratabiliyor, uzun soluklu metinler birebir şahsa aitmiş üzere seslendirilebiliyor.

VALL-E, şahıstan alınan sesi sentezleyebiliyor ve bunu duygusal tonu koruyacak biçimde yapabiliyor. Yazılım şirketi VALL-E’yi bir “nöral kodek lisan modeli” olarak isimlendirmiş. Bu vakte kadar geliştirilen metinden-konuşmaya yapay zeka tahlilleri, dalga biçimlerini işleyerek konuşmayı standart bir biçimde sentezliyordu. VALL-E ise metin ve akustik ile başka ses kodek kodları üretebiliyor. Temel olarak bir kişinin nasıl ses çıkardığını tahlil ediyor, EnCodec yardımıyla tüm dataları ayrıştırıyor ve yapay zeka eğitim modeli yardımıyla verilen örnek haricindeki telaffuz formunu iddia edebiliyor. Microsoft’un tanımlaması ise şöyle:

VALL-E, kişiselleştirilmiş konuşma sentezleme için konuşmacı ve içerik ayrıntılarını kısıtlayan 3 saniyelik kayıtla bile akustik dataları ve ses detaylarıne bağlık olarak akustik örnekler üretir. Son olarak, üretilen akustik örnekler ilgili nöral kod çözücü ile kesin dalga biçimini sentezlemek için kullanılır.

Microsoft, VALL-E’nin konuşma sentezi yeteneklerini Meta tarafınca bir ortaya getirilen LibriLight isimli bir ses kütüphanesi üzerinde eğitti. Bu kütüphane, çoğunluğu halka açık LibriVox sesli kitaplardan alınan, 7.000’den çok konuşmacının 60.000 saatlik İngilizce konuşmasını içeriyor. VALL-E’nin düzgün bir sonuç üretebilmesi için üç saniyelik örnekteki sesin eğitim bilgilerindeki bir sesle yakından eşleşmesi gerekiyor.

Bir konuşmacının vokal tınısını ve duygusal tonunu müdafaanın yanı sıra, Microsoft’un tahlili örnek sesin “akustik ortamını” da taklit edebiliyor. Örneğin mevcut ses bir telefon görüşmesinden alındı diyelim. Ses çıkışı, bir telefon görüşmesinin akustik ve frekans özellikleri sentezlenmiş çıktısında simüle ediliyor.