Nicotto Town


毎日えんやこらせっせ


え~?! こういう話ですよ?!

 日記を書くとコインが貰えるし、いっぱい書いたので、コメント返しではなくて
新たに日記にしました。昨日の日記の続きです。




 昨日の日記だけみても、判んないかもですが。前の日記に書いてるみたいに UTAU の
周波数表作成プログラムを作っています。つまり

   声の基本周波数(f0)を見つけるプログラム

です。

 まあ、中央値については、この程度の知識があるのは前提として

    http://www.nochuri.co.jp/report/financial/737.html

 さて、百聞は一見に如かずで最初に出てくる全f0データの散布図を、
縦軸が周波数[Hz]で、横軸が時間[msec]。

    http://kie.nu/n2m

 これを、こんな感じにもっともらしい一意の値にどうやってするのか?
が問題なのですね。赤の波打ってる線が最終的に計算されたf0です。

    http://kie.nu/n2o


 散布図で言うと水色になってる割とまっすぐな所(200Hz近辺)は、人間がパッと見て
こことしか思えない訳ですが、上にも下にも高調波やら何やらで
間違って取れてるデータがいっぱいあります。
これを計算で200Hz近辺が一番正しいところと判断するのが、なかなかに難しく。
苦労してたんだよー。

 ましてや、最終的にダレ下がってる両端部は人間が見ても、似たようなデータが
山のように有って。どれが正しいのかパッとは判らない。




 細かいこと言うと、f0推定システム上の制限(癖)で両端部が下がり易い。
両端部が下がってしまうのは、ある種必然だったりもするので本当なら、
補正してやらないといけないとも思うのですが。補正方法とか見当もつかん。
トホホ

アバター
2012/09/03 23:34
あんがと。
アバター
2012/09/01 23:59
正規分布や密度関数は統計の範囲くらいですがわかります。
UTAUの楽曲を以前アップされてましたよね。僕にはパフォーマンスよく見えます。
機械っぽい音が混ざっていて、人の音声に近い200Hz(ですかね・・)だけを、抽出してるような気がします。



Copyright © 2025 SMILE-LAB Co., Ltd. All Rights Reserved.