とあるエンジニアが自立できるようになるまでの記録

エンジニアとして自立するための記録だったり、趣味のネタを書いていこうと思ってます

音声処理をやってみた

背景

機械学習の勉強をしているが、画像関係、自然言語関係の情報が多いが、音声処理関係の情報は少ない。 時系列データの解析、音声処理自体に興味があったので、独学でどこまで出来るのかを調べてみた。

目的

  • pythonを使った音声処理はどのようなものがあるのかを調べる
  • データはインターネットから得られる情報から集める
  • 音声のクラスタリングや個人音声識別ができればやりたい

手順

  • youtube上のデータから音声を取り出す方法を調べる

【Python】youtube-dlを使ってYoutubeの動画をダウンロード(mp4, mp3)(Pytube不使用) - とある科学の備忘録

  • 音声データの分析。以下のサイトを参考

信号処理 | WATLAB -Python, 信号処理, AI-

結果

  • 音声データの前処理で、声道スペクトルを算出したが、同じ人物の音声データでも見た目上は異なり識別は難しいのではないかと思って止まってしまった。