OpenAI’nin AI modeli konuşmayı otomatik olarak tanır ve İngilizce’ye çevirir


Mavi bir arka plan üzerinde pembe bir dalga formu, şiirsel bir şekilde sesi düşündürür.

Benj Edwards / Ars Technica

Çarşamba günü, OpenAI adlı yeni bir açık kaynaklı AI modeli yayınladı. Fısıltı sesi insan tanıma yeteneğine yaklaşan bir düzeyde tanıyan ve çeviren. Röportajları, podcast’leri, konuşmaları ve daha fazlasını kopyalayabilir.

OpenAI eğitimli Fısıltı 680.000 saatlik ses verisi ve web’den toplanan 98 dilde eşleşen transkript üzerinde. OpenAI’ye göre, bu açık toplama yaklaşımı “aksanlara, arka plan gürültüsüne ve teknik dile karşı geliştirilmiş sağlamlık” sağladı. Ayrıca konuşulan dili algılayabilir ve İngilizce’ye çevirebilir.

OpenAI, Whisper’ı şu şekilde tanımlar: kodlayıcı-kod çözücü transformatörü, daha sonra modelin çıktısına çevrilebilecek ilişkileri öğrenmek için girdi verilerinden toplanan bağlamı kullanabilen bir tür sinir ağı. OpenAI, Whisper’ın işleyişine ilişkin bu genel bakışı sunar:

Giriş sesi 30 saniyelik parçalara bölünür, bir log-Mel spektrogramına dönüştürülür ve ardından bir kodlayıcıya iletilir. Bir kod çözücü, ilgili metin başlığını tahmin etmek için eğitilir ve tek modeli dil tanımlama, tümce düzeyinde zaman damgaları, çok dilli konuşma transkripsiyonu ve İngilizce’ye konuşma çevirisi gibi görevleri gerçekleştirmeye yönlendiren özel belirteçlerle karıştırılır.

OpenAI, Whisper’ı açık kaynak kullanarak, konuşma işleme ve erişilebilirlik araçlarını geliştirmek için gelecekte başkalarının üzerine inşa edebileceği yeni bir temel model sunmayı umuyor. OpenAI bu cephede önemli bir geçmişe sahiptir. Ocak 2021’de OpenAI yayınlandı KLİPSDALL-E 2 ve Kararlı Difüzyon gibi hızla ilerleyen görüntü sentezi teknolojisinin son dönemini ateşleyen tartışmasız bir açık kaynaklı bilgisayar görme modeli.

Ars Technica’da Whisper’ı koddan test ettik GitHub’da mevcutve bir podcast bölümü ve bir telefon görüşmesinden alınan özellikle anlaşılması zor bir ses bölümü de dahil olmak üzere birden fazla örnekle besledik. Standart bir Intel masaüstü CPU’yu çalıştırırken biraz zaman alsa da (teknoloji henüz gerçek zamanlı olarak çalışmıyor), Whisper, Python programı aracılığıyla sesi metne dönüştürme konusunda iyi bir iş çıkardı – bazı yapay zeka desteklilerden çok daha iyi Geçmişte denediğimiz sesli transkripsiyon hizmetleri.

OpenAI'nin Whisper tanıtım programından bir podcast'i kopyalarken örnek konsol çıktısı.
büyüt / OpenAI’nin Whisper tanıtım programından bir podcast’i kopyalarken örnek konsol çıktısı.

Benj Edwards / Ars Technica

Doğru kurulumla, Whisper röportajları, podcast’leri yazıya dökmek ve İngilizce olmayan dillerde üretilen podcast’leri makinenizde İngilizce’ye ücretsiz olarak çevirmek için kolayca kullanılabilir. Bu, sonunda transkripsiyon endüstrisini bozabilecek güçlü bir kombinasyon.

Bugünlerde neredeyse her yeni AI modelinde olduğu gibi, Whisper da olumlu avantajlar ve yanlış kullanım potansiyeli getiriyor. Fısıltıda model kartı (“Geniş Etkiler” bölümü altında), OpenAI, Whisper’ın gözetimi otomatikleştirmek veya bir konuşmadaki bireysel konuşmacıları tanımlamak için kullanılabileceğini uyarıyor, ancak şirket bunun “öncelikle yararlı amaçlar için” kullanılacağını umuyor.


Kaynak : https://arstechnica.com/?p=1883524

Yorum yapın