とあるエンジニアが自立できるようになるまでの記録

エンジニアとして自立するための記録だったり、趣味のネタを書いていこうと思ってます

音声処理をやってみた

Python AI 音声処理

背景

機械学習の勉強をしているが、画像関係、自然言語関係の情報が多いが、音声処理関係の情報は少ない。時系列データの解析、音声処理自体に興味があったので、独学でどこまで出来るのかを調べてみた。

目的

pythonを使った音声処理はどのようなものがあるのかを調べる
データはインターネットから得られる情報から集める
音声のクラスタリングや個人音声識別ができればやりたい

手順

youtube上のデータから音声を取り出す方法を調べる

【Python】youtube-dlを使ってYoutubeの動画をダウンロード（mp4, mp3）（Pytube不使用） - とある科学の備忘録

音声データの分析。以下のサイトを参考

信号処理 | WATLAB -Python, 信号処理, AI-

Webスクレイピングっぽくデータを検索してダウンロードする
データの前処理
機械学習によるクラスタリング　（未実施）

結果

音声データの前処理で、声道スペクトルを算出したが、同じ人物の音声データでも見た目上は異なり識別は難しいのではないかと思って止まってしまった。