- Tubelator AI
- >
- Videos
- >
- People & Blogs
- >
- Deep Learning for Audio Classification with DSP Background - Part 1
Deep Learning for Audio Classification with DSP Background - Part 1
Welcome to the first video on deep learning for audio classification in Python. This tutorial series is designed for beginners looking to delve into machine learning with audio data. Learn how to preprocess audio data, build machine learning models, and classify 10 different musical instruments. Prior knowledge of Python and machine learning is recommended. No code will be written in this introductory video. Stay tuned for insights on convolutional neural networks and recurrent neural networks.
Instantly generate YouTube summary, transcript and subtitles!
Install Tubelator On ChromeVideo Summary & Chapters
No chapters for this video generated yet.
Video Transcript
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
Bu video tutorial serisi öncelikle yapmaya başlamak isteyen herkes için tasarlanmıştır
Ses verileriyle ilgili makine öğrenme.
Bu konuda gideceğim yol size bir örnek ses verileri ile erkekler sunacağım
ayarlayın ve mümkün olacak bazı makine öğrenme modellerini oluşturmaya çalışacağız
Bu 10 farklı müzik aletini verilerimizde sınıflandırmak için.
Böylece sahip olmak için iyi bir ön koşul bilgisi vardır,
Umarım daha önce Python'da bir makine öğrenme yapmışsınız.
Ama özellikle, konvolüsiyonel nöronal ağlarla çalışacağız.
tekrarlayan nöronal ağlar.
Ama bu ilk video neredeyse tüm teorileri aşacak,
Bu ilk videoda yazılan herhangi bir kod olmayacak.
Ve bazı dijital sinyal işleme tekniklerini geçireceğiz
Ses verilerimizi önceden işlemeye çalışmak için kullanmak.
Çünkü sesimizi önceden işleyerek iyi bir iş yaparsak ortaya çıkar,
Makine öğrenme farkı anlatmak için çok kolay hale getiriyor
Farklı araçlarımız arasında.
Öncelikle bilmemiz gereken ilk şey, verilerimizin nasıl görünüyor?
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
Ve bizim mikrofon durumumuzda, bu mikrofon biraz derinlik 16'dir.
Bu nedenle, zaman alanında sinyali baktığımızda,
İki ila 16 farklı bütün değerleri alabilir.
Ama başka bir şey, sadece bir zaman alanında bir sinyal bakıyoruz,
Bu ne olduğunu söylemek çok zordur.
Gerçekten saksofon olup olmadığını bilmiyorduk.
Böylece verileri başka bir biçimde ifade etmenin bir yolu
Fourier Transform olarak adlandırılan bir şey yapıyor.
Ve aslında nasıl bu dönüşüm yapıyoruz
Hızlı Fourier Transform olarak adlandırılan bir şeyi kullanıyoruz.
Ve bu, bir periodogram olarak adlandırılan bu komplo üzerinde inşa edecektir.
Ve burada gördüğünüz şey Fourier dönüşümünün gerçek değerini alıyoruz.
Ve bu yüksek frekansın tam olarak 22 civarındadır.
Kilohertz ve neden 22 kilohertz? Evet, ses genellikle 44.1 kilohertz hızında kaydedilir.
Ve bu bizi tam olarak yarısı olan bir Nyquist frekansı olarak adlandırılan bir şeyle bırakacaktır.
bu örnekleme frekansı, bu burada göreceğiniz şey. Yani Nyquist frekansı
çevremizden temsil edebileceğimiz en yüksek frekansdır.
Biz 44,1 kilohertz ses örnekleme ve bir tür 30 kilohertz vardır
Çevrede meydana gelen ses, mikrofonumuz onu alamayacak
Çünkü yalnızca üst ucunda doğru bir sinyali temsil edebilir,
temsil edebileceği en yüksek frekans 22 kilohertz, tamam?
Gördüğünüz şey, bu periodografiye baktığınızda, içeriğin çoğu,
büyüklüğü. Yani bu aslında ne, herkes için bir güç spektral yoğunluk tahminidir
bu farklı frekans bantları. ve genellikle konuşma ve çoğu ses ile,
çoğu değişiklik düşük frekanslarda gerçekleşir. bu yüzden yapabileceğimiz bir önceden işleme adım biz
sesimizi aşağı sample edebilir. Bu yüzden aşağı sample için çok yaygındır, bu durumda ben downsampling olacağım
16 kilohertz ve bu bize yaklaşık 8,000'in bir Nyquist frekansı verecektir.
Yani bu oldukça yararlıdır çünkü verilerin önemsiz hale gelmeye başladığı doğru yer budur.
Bu noktadan sonra.
Yani bu sadece Fourier Transform'in temelleri gibidir.
Umarım arkadaşlar bunu zaten biliyorsunuz, ama her şey için sırt kemik olacak
Video Summary & Chapters
No chapters for this video generated yet.
Video Transcript
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
Bu video tutorial serisi öncelikle ses verileri üzerinde bazı makine öğrenme yapmaya başlamak isteyen herkes için tasarlanmıştır.
Bu konuda gideceğimiz yol, size erkeklerle sunacağım
Örneğin audio data.
veri setleri ve bazı makine öğrenme modellerini oluşturmaya çalışacağız
Bu 10 farklı müzik aletleri bizim içimizde sınıflandırmak mümkün olacak.
veritabanı. bu yüzden sahip olmak için iyi bazı ön koşul bilgisi umarım siz
Daha önce Python'da bir makine öğrenme yapmışsınız.
Bu nedenle özellikle konvolüsiyonel nörol ağları ve tekrarlayan nörol ağları ile çalışacağız.
Ama bu ilk video neredeyse tüm teoriyi aşacak,
Bu ilk videoda yazılan herhangi bir kod olmayacak,
ve bazı dijital sinyal işleme tekniklerini geçireceğiz
ses verilerimizi önceden işlemeye çalışmak için kullanın çünkü iyi bir iş yaptığımızda ortaya çıkar
sesimizi önceden işleme makine öğrenmesi için çok kolay hale getirir
Farklı araçlar arasındaki fark. bu yüzden ilk şey biz
Bilgilerimizin nasıl görünüyor?
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
Ve bizim mikrofon durumumuzda, bu mikrofonın biraz derinlik 16 vardır.
Bu nedenle, zaman alanında sinyali baktığımızda...
2 ila 16 farklı bütün değerleri alabilir.
Ama başka bir şey şu ki, biz sadece
Bir zaman alanında bir sinyal bakın,
Bu ne olduğunu söylemek çok zordur.
Gerçekten saksofon olup olmadığını bilmiyorduk.
Böylece verileri başka bir biçimde ifade etmenin bir yolu
Bir şeyler yapıyor.
Fourier Transform olarak adlandırılır.
Aslında bu dönüşümü nasıl yapacağız,
Hızlı Fourier Transform olarak adlandırılan bir şeyi kullanıyoruz.
Ve bu, buraya bu bölgeyi inşa edecektir,
Bu da bir periodogram olarak adlandırılır.
Ve gerçek değerini alıyoruz.
Video Summary & Chapters
No chapters for this video generated yet.
Video Transcript
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
Bu video tutorial serisi öncelikle yapmaya başlamak isteyen herkes için tasarlanmıştır
Ses verileriyle ilgili makine öğrenme.
Bu konuda gideceğim yol size bir örnek ses verileri ile erkekler sunacağım
ayarlayın ve mümkün olacak bazı makine öğrenme modellerini oluşturmaya çalışacağız
Bu 10 farklı müzik aletini verilerimizde sınıflandırmak için.
Böylece sahip olmak için iyi bir ön koşul bilgisi vardır,
Umarım daha önce Python'da bir makine öğrenme yapmışsınız.
Ama özellikle, konvolüsiyonel nöronal ağlarla çalışacağız.
tekrarlayan nöronal ağlar.
Ama bu ilk video neredeyse tüm teorileri aşacak,
Bu ilk videoda yazılan herhangi bir kod olmayacak.
Ve bazı dijital sinyal işleme tekniklerini geçireceğiz
Ses verilerimizi önceden işlemeye çalışmak için kullanmak.
Çünkü sesimizi önceden işleyerek iyi bir iş yaparsak ortaya çıkar,
Makine öğrenme farkı anlatmak için çok kolay hale getiriyor
Farklı araçlarımız arasında.
Öncelikle bilmemiz gereken ilk şey, verilerimizin nasıl görünüyor?
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
Ve bizim mikrofon durumumuzda, bu mikrofon biraz derinlik 16'dir.
Bu nedenle, zaman alanında sinyali baktığımızda,
2 ila 16 farklı bütün değerleri alabilir.
Her şey yolunda.
Ama başka bir şey, sadece bir sinyali izlemektir.
Zaman alanında, bunun ne olduğunu söylemek çok zordur.
Gerçekten saksofon olup olmadığını bilmiyorduk.
Böylece verileri başka bir biçimde ifade etmenin bir yolu
Fourier Transform olarak adlandırılan bir şey yapıyor.
Ve aslında nasıl bu dönüşüm yapıyoruz
kullanıldı, biz sadece hızlı Fourier dönüştürücü olarak adlandırılan bir şey
Ve bu, buraya bu bölgeyi inşa edecektir,
Bu da bir periodogram olarak adlandırılır.
Ve Fourier dönüşümünün gerçek değerini alıyoruz,
Burada gördüğünüz gibi,
Ve bu yüksek frekansın tüm yolunu gider
Yaklaşık 22 kilohertz civarındadır.
Neden 22 kilohertz?
Ses genellikle 44.1 kilohertz hızında kaydedilir.
Ve bu bize bir şey denilen bir şey bırakılacaktır.
Nyquist frekansı, burada gördüğünüz şeyin tam olarak o örnekleme frekansının yarısıdır.
Yani Nyquist frekansı, referans edebileceğimiz en yüksek frekansdır.
temsilcilik
Çevremizden. Yani, tamam diyelim, ses 44.1 kilohertz,
ve ortamda meydana gelen 30 kilohertz ses türü vardır. mikrofonumuz onu almak mümkün olmayacak çünkü
Yalnızca yapabilir
yüksek ucunda, temsil edebileceği en yüksek frekans bir sinyali tam olarak temsil eder.
22 kilohertz, tamam? İyi çünkü, ve ne fark edeceğiniz, bu periodogramı baktığınızda,
İçeriğin çoğu, büyüklüğünün, bu yüzden aslında ne olduğunu, bir güç spektral olarak adlandırılır
Tüm bu farklı frekans bantları için yoğunluk tahminleri.
Ve genellikle konuşma ve çoğu ses ile, çoğu değişiklik gerçekleşir