Şimdi elektronik bilgim yok denecek kadar az. Fakat dijital olarak bir şeyler düşünebiliyorum bu iş için. Sen bunları elektroniğe çevirebilirsin belki. Burada - Indicates human/other olayının bir limiti olmalı. Yani insan sesi diğer seslerden farklı bir ses değildir, mesela insan bir -aaaaaaaaaaa veya -ooooooooo diye çığırdığı zaman iki harfte de formantlar(baskın frekanslar) farklı olsalar bile, spektral olarak bunların içeriğine bakmak bize o sesin insan sesi olduğunun garantisini vermez, benzer formantlı sesler enstrumanlardan da çıkabilir. Ve böyle bir yaklaşımı pratiğe öyle veya böyle pratiğe dökebilmek için, vumetre yapma becerisinin yaklaşık bin katına falan ihtiyaç vardır diye düşünüyorum, bu durumda ödev dengesiz bir ödev olur, böyle bir şey olduğunu sanmıyorum.
Human/other kavramını "insan konuşma sesi" ve "başka sesler" olarak limitlersek, işler çok değişir ve kolaylaşır. Ve ödevin görülür doğasına daha uygun bir hal alabilir. Çünkü insan konuşması hakikaten doğadaki diğer seslerin büyük bir çoğundan ayrılır özelliklere sahiptir, ve bunları algılamak çok çok daha kolay.
Ben dijital olarak böyle bir şey uygulayacak olsam iki özelliğe bakardım.
1- Konuşma sesinin genliği kısa zamanda büyük değişiklikler gösterir. Yani vumetre, konuşma esnasında sürekli bir yukarı bir aşağı oynayacaktır ve tepe noktası ile taban noktası arasındaki fark yüksek olacaktır. Çünkü kelimeler arasında sessizlik, özellikle p, ç, t gibi harfleri söylerken de yüksek genlikli sesler çıkacaktır. Eğer vumetredeki değişimin frekansını bir şekilde takip edebilirseniz, değişim frekansı ve genliği yüksek ise, en azından bir ödev uygulaması için "bu bir insan sesidir" demek için yeterli sayılabilecek delil elde etmiş oluruz.
2- Bu öncekinden daha belirgin bir etki: Konuşma sesi armonik ve inarmonik-gürültülü sesler arasında çok sık ve hızlı değişimler içerir. ş, s, ç, h, f, j, belki biraz k(atağı) ve z harflerinin geçtiği yerler daha çok "noise" içerir ve insan sesinin normalde çıkamayacağı frekanslarda(2-3kHz ve üzeri) gürültüler meydana getirirler. Bunu kendi kendine aaaaaaaa ve sssssssss diyerek de deneyebilirsin. Ve işin güzel yanı, konuşma esnasında armonik ve inarmonik sesler arasındaki geçişler çok çok hızlı olur. Yani sen "ahmet mete ışıkara" derken h, t, t, ş, k harflerinde yüksek frekanslı gürültüler, diğer harflerde de düşük frekanslı armonik sesler çıkarıyorsun. Beyin bu karmaşayı decode etmekte çok iyi bir iş yapıyor.
Her neye, bu armonik ses - gürültü arasındaki değişimin hızını da bir şekilde ölçebilirsen, ve bunu da 1. madde ile beraber dikkate alırsan, insan konuşma sesini algılama konusunda bence büyük bir isabet elde edebilirsin. 2. maddede söylediğim şeyi ölçmek için basit bir "zerocrossing" ölçümü yapman yeterli. Yani aldığı nses sinyalinin, dalganın, 0 noktasından geçmesinin frekansını ölçmelisin. Gürültülü harflerde zerocrossing filtresi yüksek dereğler verecek, armonik harflerde ise düşük değerler verecektir, fakat bu değerler büyük bir alan içinde hızlıca hareket edeceklerdir. Bu hız ve genlik belli bir değerden büyük ise, bir insan konuşması dinliyoruz demektir. İkisini de dijital olarak uygulamak çok basit, analog olarak da o kadar zorluk çıkaracaklarını sanmıyorum. zaten birincisini vumetre yaparken yapacaksın. ikincisi için ise basit bir zerocrossing filtresi ekleyip onun çıkışındaki dalgalanmanın genliğini ve değişimin hızını ölçeceksin. analog olarak nasıl yapılır çok fikrim yok ama kolaydır diye umuyorum.
umarım işinize yarar, kolay gelsin.
0