Yapay zekâ destekli ses üretme uygulamaları, hayatımızın birçok alanına dokunan önemli faydalar sağlıyor. Örneğin, konuşma engelli bireyler için kişisel ses modelleri oluşturulabiliyor. İşitme engelliler için YZ tabanlı metin okuma veya işaret dili destekleri entegre edilebiliyor. Amyotrofik lateral skleroz (ALS) hastalarının kendi seslerini kopyalayarak kullanmasına imkân veriyor. Pek çok sektörde yaratıcı süreçleri hızlandırırken aynı zamanda maliyetleri düşürerek geniş bir kullanıcı kitlesine hitap ediyor. İçerik üreticileri için profesyonel seslendirme hizmetlerine ihtiyaç duymadan metinden seslendirme kolaylığı sağlıyor. Karmaşık ses dosyalarını kısa sürede üretebiliyor. Metinleri saniyeler içinde doğal ve akıcı seslere dönüştürebiliyor. Erişilmesi zor olan profesyonel düzeyde ses çözümlerini geniş bir kullanıcı kitlesine sunuyor. Kullanıcıların ihtiyaçlarına göre ses tonları, aksanlar veya dillerde özelleştirme yapabiliyor. Hedef kitleye uygun, etkili ses içerikleri üretilebiliyor. Belirli bir kişinin sesini taklit ederek kişiye özel seslendirmeler yapabiliyor. Doğal insan seslerini taklit etmenin ötesine geçerek tamamen yeni ve yaratıcı sesler oluşturabiliyor ve sanatçılar ve yaratıcı projeler için ilham kaynak oluyor. Farklı dillerde seslendirme ile global erişimi de kolaylaştırıyor.

Yapay zekâ uygulamaları, birçok sektöre ve bireye önemli faydalar sunan güçlü bir araç olsa da kötüye kullanım riski nedeniyle önemli tehlikeleri de beraberinde getiriyor. Yapay zekanın sahte ses üretimi konusundaki gelişimi, faysa sağlayan kullanım alanlarının yanı sıra önemli tehlikeler doğuruyor.

Yapay zekâ araçları, sahte ses üretimi yoluyla manipülasyon, itibar zedeleme, tehdit, şantaj, dolandırıcılık, yanlış bilgi yayma, dezenformasyon, manipülasyon gibi amaçlarla kullanılabiliyor.

Örneğin;

  • Sahte sesler, sosyal mühendislik saldırılarında kurbanları kandırmak için kullanılabiliyor ve taklit edilen sesle hassas bilgiler talep edilebilir.
  • Yapay zeka uygulamaları ile ses taklidi yoluyla (yatırım / aracılık kuruluşlarının ya da hizmet alınan firmaların) müşteri hizmetlerinin kimlik doğrulama süreçleri veya yakınlarıyla güven ilişkileri hedef alınıp odaklı dolandırıcılık girişimlerinde bulunulabilir. Ses tabanlı biyometrik doğrulama sistemleri ile aile üyeleri ve arkadaşlar gibi yakınlar yapay seslerle kolayca yanıltılabilir. Kimlik avı saldırılarında sahte sesle çok faktörlü doğrulama atlanıp özel bilgi ve sistemlere erişim sağlanabilir.
  • Yapay zekâ uygulamaları ile hazırlanan sesler sosyal ağlarda dezenformasyon ile itibar zedeleme amaçlı kullanılabilir. Kamuya mâl olmuş kişilerin sesleri kullanılarak üretilen sahte açıklamalar veya ifadeler sosyal medya ve haber platformlarında hızla yayılabilir. Özellikle seçim süreçleri gibi kritik dönemlerde siyasaetçilerin seslerinin taklit edildiği sahte açıklamalarla seçmen tercihleri hedeflenebilir. Sosyal medya platformlarında yayılan sahte içerikler, kamuoyunun algısını değiştirebilir ve toplumsal huzursuzluğa neden olabilir.
  • Bireylerin izni olmadan seslerinin kullanılmasına olanak tanıyan ses klonlama teknolojisi ile bireylerin kişilik haklarını ihlâl edebilir. Ünlülerin sesleri yapay olarak üretilip reklamlarda, ticarî projelerde veya dolandırıcılık girişimlerinde şekilde kullanılabilir.

Yapay zekâ ile üretilen seslerin yol açabileceği bu ve diğer risklerle başa çıkmak için beynimiz, kulağımız ve dijital araçlar odaklı stratejiler izlenebilir.

Sosyal medya platformlarında manipülasyon amacıyla kullanılanlar başta olmak üzere yapay zekâ uygulamalarıyla hazırlanan seslerin tespit edilmesi için izlenebilecek yöntemleri ve ipuçlarını şöyle listeleyebiliriz:

 

Kaynak ve Bağlam Kontrolü

Sesin kaynağını, hangi aracıyla yayıldığını, kimden geldiğini ve hangi bağlamda üretildiğini sorgulamak, yapay sesleri tespit etmede faydalı olabilir. Muteber bir kaynağa dayanmayan, kökeni tespit edilemeyen ses kayıtlarının yapay olma ihtimâli daha yüksektir. Güvenilir bir kaynaktan yayılmayan, sıklıkla yanlış bilgi paylaşan, manipülatör sosyal medya kullanıcılarının paylaştığı ses kayıtlarının, doğrulanamadığı sürece şüpheyle karşılanması gerekir.

 

Doğal Sesle Uyumunun İncelenmesi

Sesin Zamansal ve Duygusal Tutarlılığı: Doğal insan sesleri, duygusal dalgalanmalar ve ritmik düzensizlikler içerir. Yapay zeka, bir insanın aktarmak istediği duyguyu ses tonuyla tam olarak yansıtamayabilir. Bu nedenle, konuşulan sözler ile bu sözlerle aktarılmak istenen duygu arasında (üzücü bir olay anlatılırken ses tonunun neşeli olması gibi) bir uyumsuzluk varsa, bu durum yapay bir sese işaret edebilir.

Ton ve Tempo Değişiklikleri: Gerçek bir insan konuşurken ses tonu ve temposu doğal bir şekilde inişler ve çıkışlar gösterir. Yapay zeka ile üretilen seslerde ise bu iniş ve çıkışlar daha düz ve monoton olabilir veya anî ve yapay değişiklikler gösterebilir. Kişinin daha önce duyulan konuşmalarıyla uyuşmayan bir ton, ani çıkış veya inişler varsa şüphelenmek gerekir.

Çıktı Süresi ve Tutarlılık Sorunları: Yapay zekâ genellikle, çok hızlı veya sabit bir hızda ses oluşturur. İnsan konuşması ise dinamik bir hız ve doğal gecikmeler içerir. Aşırı mükemmel veya monoton tonlama, doğrudan geçişlerde anormallikler, anlam bağlamında tutarsızlıklar, nefes ve mikrofon sesi gibi doğal yan unsurların eksikliği de sesin yapaylığı hakkında başlıca işaretlerdir.

Robotik Bozulma: En gelişmiş ses klonlama araçları bile zaman zaman seste (kısa süreli de olsa) robotik bir bozulmaya neden olabilir.

Dudak uyumu: Videolardaki ses ve dudak hareketleri arasında uyumsuzluk da sahtelik açısından önemli bir emaredir.

 

Ses Analiz Araçları Kullanmak

Hızla ilerleyen yapay zekâ ile oluşturulan sahte sesleri tespit etmek giderek zorlaşsa da, belirli yöntemler ve araçlarla mümkün. Manipülasyon içerdiğinden şüphelenilen video ve görsel içeriklere benzer şekilde, seslerin yapay zekâ uygulaması üretimi olup olmadığı konusunda fikir sunabilecek inceleme araçlarına başvurabilirsiniz.

Spektrogram Analizi: Doğal insan sesinin dalga şekli, frekans ve zamana bağlı olarak belirgin bir yapıya sahiptir. Yapay zeka tarafından üretilen seslerde bu yapı tutarsızlıklar içerebilir. Yapay sesler genellikle daha “pürüzsüz” veya tekrarlayan frekans desenlerine sahiptir. Bazı yapay sesler, düşük kaliteli veya aşırı düzenlenmiş bir yapı gösterebilir. Sesin bir spektrogramını incelemek, yapay zeka tarafından üretilen seslerdeki anormallikleri ortaya çıkarabilir (Spektrogram, sesin frekanslarını zamanla gösteren bir grafiktir). Kaydedilen ses sinyalinin zaman ve frekans boyutlarında detaylı bir şekilde incelenmesi farklılıkları tespite yarayabilir. Ses kayıtlarını analiz etmek ve görselleştirmek için Audacity, Sonic Visuliser, Praat, WaveSurfer, Oceanaudio, WawTool gibi uygulamalar ya da Librosa, Matplotlib, Scipy gibi Pyton tabanlı araçlar kullanılabilir.

Yapay Zeka / Makine Öğrenimi Tabanlı Tespit Araçları: Yapay zekâ ile üretilen seslerin tespitinde de yapay zekâya başvurulabilir. Yapay zeka ile üretilen içerikleri tespit etmek için geliştirilen bu araçlar, genellikle derin öğrenme algoritmaları kullanarak sesin yapay olup olmadığını analiz etmektedir. (Bazıları ücretli) Farklı AI modelleri şöyle listelenebilir:

Yapay zekâ destekli araçları derleyen AI Tools Explorer ve Airtable.com ile doğrulama yöntemlerini derleyen Howtoverify.info gibi internet siteleri de önemli bir kılavuz görevi görecektir.

Hem teknik bilgi hem de güçlü analiz araçları gerektiren yapay zekâ ile hazırlanan sahte seslerin tespitinde kullanılabilecek açık kaynak yapay zekâ tespit araçlarının yanı sıra InVID WeVerify ve Hiya Deepfake Voice Detector gibi eklentilere ya da Adobe ve Microsoft gibi şirketler tarafından yapay olarak değiştirilmiş seslerin tespiti için geliştirilen (Microsoft Video Authenticator) ses izleme yazılımlarına başvurulabilir.

Bu tip araçların, yapay zekâ üretimi sesleri yüksek doğrulukla tespit edebilmelerine rağmen, analiz sonuçlarının kesinlik arz etmediğini de vurgulamakta fayda var.

 

Yapay Zekâ Tarafından Eklenen İmza veya İzler

Hükûmetler ve teknoloji şirketleri, yapay zeka ile oluşturulan içeriklerin etik kullanımını sağlamak için çeşitli politikalar geliştiriyor. İçeriklerde yapay zeka teknolojisinin kullanılıp kullanılmadığının daha rahat anlaşılabilmesini sağlayacak zorunlu etiketleme de bu politikaların başında geliyor. Yapay zekâ sistemlerinin, yasal ve etik nedenlerle ürettikleri içeriklere kasıtlı olarak bırakacağı (insan kulağının duyamayacağı frekansta) “dijital imzalar” ilerleyen süreçte açık kaynak uygulamalarla analiz edilerek tespit edilebilir.

 

Dolaşıma Girme Zamanı

Yapay zekâ uygulamaları 2022 yılı son çeyreğinde popülerlik kazandı ve bu araçlarla üretilen içerikler bu süreçten sonra yayıldı. Bu tarihten önceye dayanan ses kayıtlarının yapay zekâ uygulaması ürünü olma olasılığı, sonrasında yayılanlara göre daha düşüktür. Ayrıca, “zamanlaması manidar” Özellikle seçim dönemleri gibi süreçlerde dolaşıma giren

 

Profesyonel Yardım

Bir kişinin sesinin biyometrik ve fiziksel özelliklerini analiz ederek oluşturduğu “ses imzası”, “ses biyometrisi” olarak nitelenmektedir. Güvenlik amaçlı kimlik doğrulama ve sahtecilik tespiti gibi alanlarda kullanılan bu teknolojiye, sosyal ağlarda yayılan seslerin gerçekliğini tespitte uzman incelemelerinde başvurulabilir.

 

Toplumsal Farkındalık

Yapay zekâ teknolojisinin insanlık için marjinal zararının, marjinal faydasından yüksek olduğu söylenebilir. Düşük medya okuryazarlığının, düşük eğitim seviyesinin, düşük zekânın, kutuplaşmanın, trollerin etkisiyle bu tip manipülatif içeriklerin sayısının ve etkisinin daha da artacağı aşikâr.

Vatandaşların sahte ses teknolojisi konusunda bilinçlendirilmesi, yapay zekâ araçlarının sunduğu tehlikler ve fırsatlar hakkında bilinçlendirilmesi, deepfake ya da yapay zekâ ile oluşturulan görüntülere ve seslere aşinalık kazanmaları ve şüpheyi geri bırakmamaları fayda sağlayacaktır.

 

Özetle, işitsel tabanlı içerikler klasik haber incelemesinden farklı sürece ve niteliklere sahip. Her şey şüpheden başlıyor. Benzer görsellere aşinalıkla birlikte ilk değerlendirme oluşuyor. Akabinde görüntünün kaynağı taranıyor. Muteber bir kaynağa sahip olmadığı anlaşıldığında incelemeye geçiliyor. Doğal olmadığını işaret eden unsurlar tespit edilip bir kanaate varılıyor.

Yapay zekâ ile üretilen sesleri tespit etmek için dikkatli bir dinleme, sesin içeriği ve sunumu arasındaki tutarlılığı değerlendirme ve teknik analiz yöntemlerinden yararlanmak önem arz ediyor. Yapay zeka teknolojileri ilerledikçe ses tabanlı manipülasyon taktiklerinin daha da sofistike hâle geldiği unutulmamalı. Sahte ses tespitine yönelik yapay zekâ tabanlı algoritmalar gibi araçların geliştirme çalışmaları yakından takip edilmeli.

 

Yapay zekâ ile hazırlanan seslere ilişkin incelemelerimizden bazı örnekler ise şöyle:

 

Atatürk’ün kendi sesinden türkü sanılan ses kaydının yapay zekâ destekli uygulama ile hazırlandığı anlaşılıyor.

 

Atatürk’ün Kendi Sesinden Türkü Sanılan Kayıt

 

Hazine ve Maliye Bakanı Mehmet Şimşek’in “Güneş vergisi”, “Güneşlenme vergisi” ya da “denize girme vergisi” gibi bir ilave vergi getirileceğini duyurduğu sanılan görüntüdeki ses yapay zekâ uygulaması ile ironi amaçla hazırlanmış.

 

Mehmet Şimşek’in “Güneşlenme Vergisi” Getireceğini Duyurduğu Sanılan İRONİ Video

 

Cübbeli Ahmet Hoca olarak tanınan Ahmet Mahmut Ünlü’nün HAYDER Kültür Merkezi’nde 31 Ekim 2024 günü verdiği vaazdan aşk acısı çekenlere nasihat ettiği kısım yapay zekâ uygulaması ile İngilizceye çevrilerek Mauro Icardi’ye atıfla paylaşılmış.

 


Paris 2024 Olimpiyatları’ndaki atışıyla dünyada gündem olan millî atıcı Yusuf Dikeç’in AA’ya yaptığı Türkçe açıklamanın yapay zekâ uygulaması ile İngilizceye çevrilen versiyonu bazı sosyal medya kullanıcıları tarafından gerçek sanılmıştı.

 

 

 

Baykar Yönetim Kurulu Başkanı Selçuk Bayraktar’ın yüzünün ve sesinin yapay zekâ uygulaması ile değiştirildiği sahte “yatırım fırsatı” temalı reklamlar farklı sosyal medya platformlarında yayımlandı.


Eski uygarlıkların konuşmasını yansıttığı vurgusuyla paylaşılan kayıt, (ilgili dönemden kalan eserler üzerinden) yapılan seslendirmeleri yansıtıyor.

 

Eski Uygarlıkların Konuşmasını Yansıttığı İddiasıyla Paylaşılan Ses Kayıtları

 

Bazen de gerçek ses kayıtlarının yapay zekâ uygulaması ürünü olduğu iddia edilebiliyor.

 

Atatürk’ün Celal Bayar hakkındaki konuşmasına ait ses kaydının yapay zekâ uygulaması ile üretildiği ileri sürülmüştü. Sanılanın aksine söz konusu kayıt, yapay zekâ uygulamalarının yaygınlaşmasının öncesinde dolaşımdaydı.

 

Atatürk’ün Celal Bayar İçin Yaptığı Konuşmanın Plak Kaydı

 

 

ABD’li Emekli Albay Douglas MacGregor’ın “Türkiye’ye saldırması için PKK’yı hazırlıyoruz” sözlerinin, Yemen’deki gelişmelerden bahsettiği görüntünün deepfake yöntemiyle değiştirilmiş versiyonu olduğu ileri sürülmüştü.

 

ABD’li Emekli Albayın “Türkiye’ye Saldırması İçin PKK’yı Hazırlıyoruz” Dediği İddiası

 

 

Videoların makaslanması yahut yapay zekâ uygulaması ya da bir program yoluyla değiştirilmesi yerine farklı ses ya da alt yazılarla servis edildiği örneklere de değinmiştik.

 

İlgilenenler “Yapay Zekâ Destekli Uygulamalarla Oluşturulan Görseller Nasıl Tespit Edilebilir?” ve “Video Manipülasyonları: Deepfake & Cheapfake & Shallowfake” başlıklı yazılarımızı da inceleyebilir.

 

* Kapak görseli: Freepik

Yorumunuzu yazınız...