Deepfake sesin bir anlatımı var ve araştırmacılar bunu fark edebilir


Deepfake sesin bir anlatımı var ve araştırmacılar bunu fark edebilir

Aşağıdaki senaryoyu hayal edin. Bir telefon çalar. Bir ofis çalışanı cevap verir ve patronunun panik içinde, yeni müteahhide o gün için ayrılmadan önce para transfer etmeyi unuttuğunu ve bunu yapması gerektiğini söylediğini duyar. Ona havale bilgilerini verir ve aktarılan parayla kriz önlenir.

İşçi koltuğunda arkasına yaslanır, derin bir nefes alır ve patronunun kapıdan içeri girmesini izler. Aramanın diğer ucundaki ses patronu değildi. Aslında o bir insan bile değildi. Duyduğu ses, tıpkı patronu gibi ses çıkaracak şekilde tasarlanmış, makine tarafından oluşturulmuş bir ses örneği olan derin bir sese aitti.

Kayıtlı ses kullanan bu tür saldırılar zaten gerçekleştive konuşma sesli derin sahtekarlıkları çok uzakta olmayabilir.

Hem sesli hem de görüntülü Deepfakes, ancak son yıllarda gelişmiş makine öğrenme teknolojilerinin gelişmesiyle mümkün oldu. Deepfakes onlarla birlikte yeni bir seviye getirdi dijital medyadaki belirsizlik. Deepfakeleri tespit etmek için birçok araştırmacı, görsel yapaylıkları (küçük hatalar ve tutarsızlıklar) analiz etmeye yöneldi. video derin sahtekarlıkları.

Bu Morgan Freeman değil, ama size söylenmediyse, nereden bileceksiniz?

Sesli derin sahtekarlıklar potansiyel olarak daha büyük bir tehdit oluşturuyor, çünkü insanlar genellikle video olmadan sözlü olarak iletişim kuruyor – örneğin telefon görüşmeleri, radyo ve ses kayıtları aracılığıyla. Bu yalnızca sesli iletişim, saldırganların derin sahte kullanma olanaklarını büyük ölçüde genişletiyor.

Ses derin sahtekarlıklarını tespit etmek için, biz ve araştırma arkadaşlarımız Florida Üniversitesi’nde bir teknik geliştirdiler akustik ve akışkan dinamiği farklarını ölçer insan konuşmacılar tarafından organik olarak oluşturulan ses örnekleri ile bilgisayarlar tarafından sentetik olarak oluşturulanlar arasında.

Organik ve sentetik sesler

İnsanlar ses telleri, dil ve dudaklar dahil olmak üzere ses yolunun çeşitli yapıları üzerine havayı zorlayarak ses çıkarırlar. Bu yapıları yeniden düzenleyerek, ses yolunuzun akustik özelliklerini değiştirerek 200’den fazla farklı ses veya fonem oluşturmanıza olanak tanırsınız. Bununla birlikte, insan anatomisi, bu farklı fonemlerin akustik davranışını temel olarak sınırlar ve her biri için nispeten küçük bir doğru ses aralığı ile sonuçlanır.

Ses organlarınız nasıl çalışır?

Buna karşılık, derin ses sahtekarlıkları, öncelikle bir bilgisayarın hedeflenen bir kurban konuşmacının ses kayıtlarını dinlemesine izin verilerek oluşturulur. Kullanılan tekniklere bağlı olarak, bilgisayar 10 ila 20 saniye kadar az ses dinlemeniz gerekebilir. Bu ses, kurbanın sesinin benzersiz yönleri hakkında önemli bilgileri çıkarmak için kullanılır.

Saldırgan, deepfake’in konuşması için bir cümle seçer ve ardından, değiştirilmiş bir metin-konuşma algoritması kullanarak, kurbanın seçilen cümleyi söylemesine benzeyen bir ses örneği oluşturur. Tek bir derin sahte ses örneği oluşturma işlemi, birkaç saniye içinde gerçekleştirilebilir ve potansiyel olarak saldırganların bir konuşmada derin sahte sesi kullanma esnekliğine izin verir.

Ses derin sahtelerini algılama

İnsanlar tarafından üretilen konuşmayı deepfakes tarafından üretilen konuşmadan ayırmanın ilk adımı, ses yolunun akustik olarak nasıl modelleneceğini anlamaktır. Neyse ki bilim adamlarının birinin -ya da bazılarının Dinozor— ses yolunun anatomik ölçümlerine dayalı gibi görünürdü.

Tersini yaptık. Aynı tekniklerin birçoğunu tersine çevirerek, bir konuşma bölümü sırasında bir konuşmacının ses yolunun bir yaklaşımını çıkarabildik. Bu, ses örneğini oluşturan konuşmacının anatomisine etkili bir şekilde bakmamızı sağladı.

Derin sahte ses, genellikle biyolojik ses yollarından ziyade içme kamışlarına benzeyen ses yolu rekonstrüksiyonları ile sonuçlanır.
büyüt / Derin sahte ses, genellikle biyolojik ses yollarından ziyade içme kamışlarına benzeyen ses yolu rekonstrüksiyonları ile sonuçlanır.

Buradan, derin sahte ses örneklerinin, insanların sahip olduğu aynı anatomik sınırlamalarla sınırlandırılamayacağını varsaydık. Başka bir deyişle, derin sahte ses örneklerinin analizi, insanlarda olmayan ses yolu şekillerini simüle etti.

Test sonuçlarımız yalnızca hipotezimizi doğrulamakla kalmadı, aynı zamanda ilginç bir şeyi de ortaya çıkardı. Derin sahte sesten ses yolu tahminlerini çıkarırken, tahminlerin genellikle komik bir şekilde yanlış olduğunu gördük. Örneğin, derin sahte sesin, çok daha geniş ve şekil olarak daha değişken olan insan ses yollarının aksine, bir pipetle aynı nispi çap ve tutarlılığa sahip ses yollarıyla sonuçlanması yaygındı.

Bu farkındalık, derin sahte sesin, insan dinleyiciler için ikna edici olsa bile, insan tarafından oluşturulan konuşmadan ayırt edilemez olmaktan uzak olduğunu göstermektedir. Gözlenen konuşmayı oluşturmaktan sorumlu anatomiyi tahmin ederek, sesin bir kişi tarafından mı yoksa bir bilgisayar tarafından mı üretildiğini belirlemek mümkündür.

Bu neden önemli

Günümüz dünyası, medya ve bilginin dijital alışverişi ile tanımlanmaktadır. Haberlerden eğlenceye ve sevdiklerinizle sohbetlere kadar her şey genellikle dijital borsalar aracılığıyla gerçekleşir. Daha emekleme döneminde bile, derin sahte video ve ses, insanların bu değiş tokuşlara olan güvenini sarsar ve yararlılıklarını etkili bir şekilde sınırlar.

Dijital dünya, insanların yaşamlarında bilgi için kritik bir kaynak olarak kalacaksa, bir ses örneğinin kaynağını belirlemek için etkili ve güvenli teknikler çok önemlidir.
Logan Mavi bilgisayar ve bilişim bilimi ve mühendisliği alanında doktora öğrencisidir. Florida üniversitesive Patrick Traynor bilgisayar ve bilgi bilimi ve mühendisliği profesörüdür. Florida üniversitesi.

Bu makale şuradan yeniden yayınlandı: Konuşma Creative Commons lisansı altında. Okumak orijinal makale.


Kaynak : https://arstechnica.com/?p=1882806

Yorum yapın