Banner

Radikal Forum

Yaşama dair her ne varsa...

Yapay Zeka Anlatıcıları

1
yapay zeka kitap okuyor


Sesli kitap kaydetmek, deneyimli seslendirme sanatçıları için bile kolay bir iş değildir. Ancak sesli kitaplara olan talep artıyor ve Spotify gibi büyük akış platformları, büyümeleri için özel alanlar yaratıyor. İnovasyonu çılgınlıkla birleştirmek için MIT ve Microsoft araştırmacıları, çevrimiçi metinlerden sesli kitaplar oluşturmak için yapay zekayı kullanıyor. İddialı yeni bir projede, 5.000 yapay zeka anlatımlı sesli kitap yapmak için dünyanın en eski ve muhtemelen en büyük çevrimiçi açık lisanslı e-kitap deposu olan Project Gutenberg ile işbirliği yapıyorlar. Bu koleksiyon, Gurur ve Önyargı, Madame Bovary, Vahşetin Çağrısı ve Alice Harikalar Diyarında gibi edebiyattaki klasik başlıkları içerir. Üçlü, Eylül ayında çabaları hakkında bir arXiv ön baskısı yayınladı.

MIT Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'nda doktora öğrencisi ve projenin baş araştırmacısı Mark Hamilton, PopSci'ye verdiği demeçte, "Yapmak istediğimiz şey, büyük miktarda ücretsiz sesli kitap oluşturmak ve bunları topluluğa geri vermekti" diyor. "Son zamanlarda, nöral metinden konuşmaya, metni okuyabilen bu algoritmalarda çok fazla ilerleme oldu ve kulağa oldukça insan gibi geliyorlar."

Bunu mümkün kılan sihirli bileşen, milyonlarca insan konuşması örneği üzerinde eğitilmiş ve daha sonra onu taklit etmekle görevlendirilmiş sinirsel bir metinden konuşmaya algoritmasıdır. Farklı dillerde farklı aksanlarla farklı sesler üretebilir ve yalnızca beş saniyelik sesle özel sesler oluşturabilir. Hamilton, "Onlara verdiğiniz herhangi bir metni okuyabiliyorlar ve inanılmaz derecede hızlı okuyabiliyorlar" diyor. "Sekiz saatlik bir metin verebilirsiniz ve birkaç dakika içinde bitecektir."

Daha da önemlisi, bu algoritma, bir telefon numarasının veya bir web sitesinin nasıl okunduğu, nelerin birlikte gruplandırıldığı ve duraklamaların nerede olduğu gibi tonlar ve insanların kelimeleri okurken eklediği değişiklikler gibi incelikleri algılayabilir. Algoritma, makalenin Microsoft'taki ortak yazarlarından bazılarının önceki çalışmalarına dayanmaktadır.

Büyük dil modelleri gibi, bu algoritma da büyük ölçüde makine öğrenimine ve sinir ağlarına dayanır. Hamilton, "Aynı çekirdek bağırsaklar, ancak farklı girdiler ve çıktılar" diye açıklıyor. Büyük dil modelleri metin alır ve boşlukları doldurur. Sohbet uygulamaları oluşturmak için bu temel işlevi kullanırlar. Öte yandan, nöral metinden konuşmaya algoritmalar, metni alıyor, aynı tür algoritmalar aracılığıyla pompalıyor, ancak şimdi metni tükürmek yerine, sesi tükürüyorlar, diyor Hamilton.

"Koyduğunuz metne sadık sesler üretmeye çalışıyorlar. Bu aynı zamanda onlara biraz hareket alanı sağlıyor" diye ekliyor. "Görevi iyi çözmek için gerekli olduğunu düşündükleri türden bir ses çıkarabilirler. Kulağa daha insancıl gelmesi için telaffuzu değiştirebilir, gruplayabilir veya değiştirebilirler."

Kayıp fonksiyonu adı verilen bir araç, bir modelin iyi bir iş mi yoksa kötü bir iş mi yaptığını değerlendirmek için kullanılabilir. Yapay zekayı bu şekilde uygulamak, şu anda kamuya açık eserlerin sesli kitaplarını yapmak için insan gönüllüleri kullanan Librivox gibi projelerin çabalarını hızlandırabilir.

İş bitmekten çok uzak. Sonraki adımlar kaliteyi artırmaktır. Project Gutenberg e-kitapları insan gönüllüler tarafından oluşturulduğundan, e-kitabı yapan her kişi bunu biraz farklı yapar. Beklenmedik yerlerde rastgele metinler içerebilirler ve e-kitap oluşturucuların sayfa numaralarını yerleştirdiği yerlerde, içindekiler tablosu veya resimler kitaptan kitaba değişebilir.

Hamilton, "Tüm bu farklı şeyler, bir sesli kitap için garip eserler ve hiç dinlemek istemeyeceğiniz şeylerle sonuçlanıyor" diyor. "Kuzey yıldızı, bu kitaplarda ne okuyup ne okumayacağını anlamak için iyi insan sezgisini kullanabilecek daha esnek çözümler geliştirmektir." Bunu başardıktan sonra, sesli kitap koleksiyonunu Project Gutenberg'deki 60.000'in tamamına ölçeklendirmek ve hatta belki de tercüme etmek için AI dil teknolojisindeki en son gelişmelerle birlikte bunu kullanmayı umuyorlar.

Şimdilik, yapay zeka tarafından seslendirilen tüm sesli kitaplar Spotify, Google Podcasts, Apple Podcasts ve İnternet Arşivi gibi platformlarda ücretsiz olarak yayınlanabilir.

Bu tür bir algoritma için çeşitli uygulamalar vardır. Oyunları okuyabilir ve her karaktere farklı sesler atayabilir. Bütün bir sesli kitabı sesinizle taklit edebilir, bu da şık bir hediye olabilir. Bununla birlikte, bu teknolojiyi kullanmanın oldukça zararsız birçok yolu olsa da, uzmanlar daha önce yapay olarak üretilen sesin sakıncaları ve kötüye kullanım potansiyeli hakkındaki endişelerini dile getirmişlerdi.

popsici


En son Thoth tarafından 16 Ara 2023, 12:13 tarihinde darbelendi.
İnsanın anayurdu çocukluğudur
Jorge Amado
Cevapla

“Teknoloji” sayfasına dön