fbpx
  1. Tubelator AI
  2. >
  3. Videos
  4. >
  5. People & Blogs
  6. >
  7. Deep Learning for Audio Classification with DSP Background - Part 1

Deep Learning for Audio Classification with DSP Background - Part 1

Available In Following Subtitles
Turkish
Variant 1 Variant 2 Variant 3
Posted on:
Video by: Seth Adams
Welcome to the first video on deep learning for audio classification in Python. This tutorial series is designed for beginners looking to delve into machine learning with audio data. Learn how to preprocess audio data, build machine learning models, and classify 10 different musical instruments. Prior knowledge of Python and machine learning is recommended. No code will be written in this introductory video. Stay tuned for insights on convolutional neural networks and recurrent neural networks.
tubelator logo

Instantly generate YouTube summary, transcript and subtitles!

chrome-icon Install Tubelator On Chrome

Video Summary & Chapters

No chapters for this video generated yet.

Video Transcript

0:00
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
0:05
Bu video tutorial serisi öncelikle yapmaya başlamak isteyen herkes için tasarlanmıştır
0:10
Ses verileriyle ilgili makine öğrenme.
0:13
Bu konuda gideceğim yol size bir örnek ses verileri ile erkekler sunacağım
0:18
ayarlayın ve mümkün olacak bazı makine öğrenme modellerini oluşturmaya çalışacağız
0:22
Bu 10 farklı müzik aletini verilerimizde sınıflandırmak için.
0:27
Böylece sahip olmak için iyi bir ön koşul bilgisi vardır,
0:31
Umarım daha önce Python'da bir makine öğrenme yapmışsınız.
0:34
Ama özellikle, konvolüsiyonel nöronal ağlarla çalışacağız.
0:39
tekrarlayan nöronal ağlar.
0:41
Ama bu ilk video neredeyse tüm teorileri aşacak,
0:45
Bu ilk videoda yazılan herhangi bir kod olmayacak.
0:47
Ve bazı dijital sinyal işleme tekniklerini geçireceğiz
0:51
Ses verilerimizi önceden işlemeye çalışmak için kullanmak.
0:54
Çünkü sesimizi önceden işleyerek iyi bir iş yaparsak ortaya çıkar,
0:57
Makine öğrenme farkı anlatmak için çok kolay hale getiriyor
1:00
Farklı araçlarımız arasında.
1:05
Öncelikle bilmemiz gereken ilk şey, verilerimizin nasıl görünüyor?
1:09
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
1:16
Ve bizim mikrofon durumumuzda, bu mikrofon biraz derinlik 16'dir.
1:20
Bu nedenle, zaman alanında sinyali baktığımızda,
1:25
İki ila 16 farklı bütün değerleri alabilir.
1:30
Ama başka bir şey, sadece bir zaman alanında bir sinyal bakıyoruz,
1:35
Bu ne olduğunu söylemek çok zordur.
1:37
Gerçekten saksofon olup olmadığını bilmiyorduk.
1:39
Böylece verileri başka bir biçimde ifade etmenin bir yolu
1:42
Fourier Transform olarak adlandırılan bir şey yapıyor.
1:46
Ve aslında nasıl bu dönüşüm yapıyoruz
1:49
Hızlı Fourier Transform olarak adlandırılan bir şeyi kullanıyoruz.
1:52
Ve bu, bir periodogram olarak adlandırılan bu komplo üzerinde inşa edecektir.
1:58
Ve burada gördüğünüz şey Fourier dönüşümünün gerçek değerini alıyoruz.
2:03
Ve bu yüksek frekansın tam olarak 22 civarındadır.
2:09
Kilohertz ve neden 22 kilohertz? Evet, ses genellikle 44.1 kilohertz hızında kaydedilir.
2:18
Ve bu bizi tam olarak yarısı olan bir Nyquist frekansı olarak adlandırılan bir şeyle bırakacaktır.
2:22
bu örnekleme frekansı, bu burada göreceğiniz şey. Yani Nyquist frekansı
2:27
çevremizden temsil edebileceğimiz en yüksek frekansdır.
2:34
Biz 44,1 kilohertz ses örnekleme ve bir tür 30 kilohertz vardır
2:38
Çevrede meydana gelen ses, mikrofonumuz onu alamayacak
2:42
Çünkü yalnızca üst ucunda doğru bir sinyali temsil edebilir,
2:49
temsil edebileceği en yüksek frekans 22 kilohertz, tamam?
2:54
Gördüğünüz şey, bu periodografiye baktığınızda, içeriğin çoğu,
2:59
büyüklüğü. Yani bu aslında ne, herkes için bir güç spektral yoğunluk tahminidir
3:06
bu farklı frekans bantları. ve genellikle konuşma ve çoğu ses ile,
3:14
çoğu değişiklik düşük frekanslarda gerçekleşir. bu yüzden yapabileceğimiz bir önceden işleme adım biz
3:19
sesimizi aşağı sample edebilir. Bu yüzden aşağı sample için çok yaygındır, bu durumda ben downsampling olacağım
3:25
16 kilohertz ve bu bize yaklaşık 8,000'in bir Nyquist frekansı verecektir.
3:30
Yani bu oldukça yararlıdır çünkü verilerin önemsiz hale gelmeye başladığı doğru yer budur.
3:35
Bu noktadan sonra.
3:37
Yani bu sadece Fourier Transform'in temelleri gibidir.
3:40
Umarım arkadaşlar bunu zaten biliyorsunuz, ama her şey için sırt kemik olacak

Video Summary & Chapters

No chapters for this video generated yet.

Video Transcript

0:00
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
0:05
Bu video tutorial serisi öncelikle ses verileri üzerinde bazı makine öğrenme yapmaya başlamak isteyen herkes için tasarlanmıştır.
0:13
Bu konuda gideceğimiz yol, size erkeklerle sunacağım
0:16
Örneğin audio data.
0:17
veri setleri ve bazı makine öğrenme modellerini oluşturmaya çalışacağız
0:21
Bu 10 farklı müzik aletleri bizim içimizde sınıflandırmak mümkün olacak.
0:26
veritabanı. bu yüzden sahip olmak için iyi bazı ön koşul bilgisi umarım siz
0:31
Daha önce Python'da bir makine öğrenme yapmışsınız.
0:34
Bu nedenle özellikle konvolüsiyonel nörol ağları ve tekrarlayan nörol ağları ile çalışacağız.
0:41
Ama bu ilk video neredeyse tüm teoriyi aşacak,
0:45
Bu ilk videoda yazılan herhangi bir kod olmayacak,
0:47
ve bazı dijital sinyal işleme tekniklerini geçireceğiz
0:51
ses verilerimizi önceden işlemeye çalışmak için kullanın çünkü iyi bir iş yaptığımızda ortaya çıkar
0:56
sesimizi önceden işleme makine öğrenmesi için çok kolay hale getirir
0:59
Farklı araçlar arasındaki fark. bu yüzden ilk şey biz
1:06
Bilgilerimizin nasıl görünüyor?
1:09
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
1:16
Ve bizim mikrofon durumumuzda, bu mikrofonın biraz derinlik 16 vardır.
1:20
Bu nedenle, zaman alanında sinyali baktığımızda...
1:26
2 ila 16 farklı bütün değerleri alabilir.
1:30
Ama başka bir şey şu ki, biz sadece
1:33
Bir zaman alanında bir sinyal bakın,
1:35
Bu ne olduğunu söylemek çok zordur.
1:37
Gerçekten saksofon olup olmadığını bilmiyorduk.
1:39
Böylece verileri başka bir biçimde ifade etmenin bir yolu
1:42
Bir şeyler yapıyor.
1:43
Fourier Transform olarak adlandırılır.
1:46
Aslında bu dönüşümü nasıl yapacağız,
1:50
Hızlı Fourier Transform olarak adlandırılan bir şeyi kullanıyoruz.
1:52
Ve bu, buraya bu bölgeyi inşa edecektir,
1:55
Bu da bir periodogram olarak adlandırılır.
1:58
Ve gerçek değerini alıyoruz.

Video Summary & Chapters

No chapters for this video generated yet.

Video Transcript

0:00
Python'da ses sınıflandırılması için derin öğrenme ilk video hoş geldiniz.
0:05
Bu video tutorial serisi öncelikle yapmaya başlamak isteyen herkes için tasarlanmıştır
0:10
Ses verileriyle ilgili makine öğrenme.
0:13
Bu konuda gideceğim yol size bir örnek ses verileri ile erkekler sunacağım
0:18
ayarlayın ve mümkün olacak bazı makine öğrenme modellerini oluşturmaya çalışacağız
0:22
Bu 10 farklı müzik aletini verilerimizde sınıflandırmak için.
0:27
Böylece sahip olmak için iyi bir ön koşul bilgisi vardır,
0:31
Umarım daha önce Python'da bir makine öğrenme yapmışsınız.
0:34
Ama özellikle, konvolüsiyonel nöronal ağlarla çalışacağız.
0:39
tekrarlayan nöronal ağlar.
0:41
Ama bu ilk video neredeyse tüm teorileri aşacak,
0:45
Bu ilk videoda yazılan herhangi bir kod olmayacak.
0:47
Ve bazı dijital sinyal işleme tekniklerini geçireceğiz
0:51
Ses verilerimizi önceden işlemeye çalışmak için kullanmak.
0:54
Çünkü sesimizi önceden işleyerek iyi bir iş yaparsak ortaya çıkar,
0:57
Makine öğrenme farkı anlatmak için çok kolay hale getiriyor
1:00
Farklı araçlarımız arasında.
1:05
Öncelikle bilmemiz gereken ilk şey, verilerimizin nasıl görünüyor?
1:09
Yani bir sensörden verileri kaydettiğinizde, her sensör biraz derinlik denilen bir şeye sahiptir.
1:16
Ve bizim mikrofon durumumuzda, bu mikrofon biraz derinlik 16'dir.
1:20
Bu nedenle, zaman alanında sinyali baktığımızda,
1:25
2 ila 16 farklı bütün değerleri alabilir.
1:30
Her şey yolunda.
1:30
Ama başka bir şey, sadece bir sinyali izlemektir.
1:34
Zaman alanında, bunun ne olduğunu söylemek çok zordur.
1:37
Gerçekten saksofon olup olmadığını bilmiyorduk.
1:39
Böylece verileri başka bir biçimde ifade etmenin bir yolu
1:42
Fourier Transform olarak adlandırılan bir şey yapıyor.
1:46
Ve aslında nasıl bu dönüşüm yapıyoruz
1:49
kullanıldı, biz sadece hızlı Fourier dönüştürücü olarak adlandırılan bir şey
1:52
Ve bu, buraya bu bölgeyi inşa edecektir,
1:55
Bu da bir periodogram olarak adlandırılır.
1:58
Ve Fourier dönüşümünün gerçek değerini alıyoruz,
2:01
Burada gördüğünüz gibi,
2:03
Ve bu yüksek frekansın tüm yolunu gider
2:06
Yaklaşık 22 kilohertz civarındadır.
2:10
Neden 22 kilohertz?
2:12
Ses genellikle 44.1 kilohertz hızında kaydedilir.
2:18
Ve bu bize bir şey denilen bir şey bırakılacaktır.
2:20
Nyquist frekansı, burada gördüğünüz şeyin tam olarak o örnekleme frekansının yarısıdır.
2:26
Yani Nyquist frekansı, referans edebileceğimiz en yüksek frekansdır.
2:29
temsilcilik
2:31
Çevremizden. Yani, tamam diyelim, ses 44.1 kilohertz,
2:36
ve ortamda meydana gelen 30 kilohertz ses türü vardır. mikrofonumuz onu almak mümkün olmayacak çünkü
2:43
Yalnızca yapabilir
2:45
yüksek ucunda, temsil edebileceği en yüksek frekans bir sinyali tam olarak temsil eder.
2:51
22 kilohertz, tamam? İyi çünkü, ve ne fark edeceğiniz, bu periodogramı baktığınızda,
2:57
İçeriğin çoğu, büyüklüğünün, bu yüzden aslında ne olduğunu, bir güç spektral olarak adlandırılır
3:04
Tüm bu farklı frekans bantları için yoğunluk tahminleri.
3:09
Ve genellikle konuşma ve çoğu ses ile, çoğu değişiklik gerçekleşir
shape-icon

Download extension to view full transcript.

chrome-icon Install Tubelator On Chrome