Nicotto Town


毎日えんやこらせっせ


ローソンソング with ボーカロイド!!

 リアルにローソンで流れたりしてるらしい。ww
善い曲だ、すばらしい。

●【あきこロイドちゃん 神威がくぽ】エンジョイクルー!【LAWSON】
   http://www.youtube.com/watch?v=Gw2EhMcaCYs


しかし、HANASUといきなりミク声になる!? ww やっぱり歌と会話はだいぶ違うんやな~。

アバター
2011/09/27 19:37
あの曲はそんなにマイナーでもないですし、リン・レンの出たころの曲だったようなw

YAMAHAは良くも悪くも楽器屋さんなので…。
Vocaloidのデータフォーマットも独自拡張したSMFですし、当分は歌い続ける感じの気はします。
音声合成でも「色々懲りない」会社でもありますがw

ただ、TTSとは現時点では相容れないんですよね。東芝っていうとStudio ToSpeakでしたっけ。
確かにちょっと声の特性はVocaloidっぽかったかもしれませんね。
TTSは人間的な音声によって「文章をきちんと伝達すること」に特化されていますから、むしろ「自然だが無機的」でアナウンスという表現に規則性があることがその精度の肝だったりします。
裏を返せば、歌うことと同じように「その規則性を崩すことで、個性をだし、表現する」という「演技」だと苦手なので目指す場所はちょっと逆の気がします。

歌うことも、演技をすることも本来は自己表現で、一定の枠の中で「崩す」ことが表現に変わっているので、ベクトルとしては逆で「補助ツール」ではありえても、勝手に表現することは難しいですし、「一定のアルゴリズムで自発的に表現を始めたとき」は「楽器」から世間のイメージどおり、「キャラクター」になるときなんじゃないかと。

ぼかりすを引いたのは要は「明確なイメージをするのが難しい」のでその雛形を「本物の音声に求める」ってことなんですよね。お手本があるなら、
http://www.youtube.com/watch?v=6Q3m80T70Oo
Vocaloidもこうですしねぇ…。これはぼかりすじゃないですけど、少し音質落として何もいわなければ合成音とはばれないレベルだと思います。
オリジナル曲の多くが相変わらずロボ声なのは、「スクラッチから歌唱イメージを手打ちでデータ化する」ことが難しいからというのと、世間のイメージに擦り寄った結果だと思うのですが。少なくとも「聞かせる歌声」がイメージできなければデータ化するイメージも存在しないので、そりゃ聴かせる歌声は打ち込めませんな。

世間も騒ぐ割にはCSMによる音声再生とVocaloidの区別が付かないくらいですし。
ロボロボしてて、意匠が定義されてれば、きっと新作ボーカロイドでーすって言えば納得されちゃいそうなくらい適当です。
アバター
2011/09/26 22:31
 なんか、聞き慣れた声なのに、まったく聞いたこと無いソフトで、「あれ~~?」と思いましたよ。最近ジャストシステムとはトンとご無沙汰なので、まったく知らんかった。一瞬独自開発かと思ったけど、ミサキさんだったか。ペンタックスのVoicetextをOEMしてんですね。もっとも、セマンティックな部分で一太郎の辞書データを使わせたりの提携をしてんのかもですが。

 いずれは、TTSと歌唱ソフトは合体してくと思うんですけどね~。ヤマハのボカロも永遠に歌唱専用に特化して行くか判んないし。両方面倒みてるって意味では、東芝が一番進んでそうなんだけど。パンピーに弄れるソフトないからな。

 しかし、Vambraceさん音声合成関係強いな! 耳学問レベルではないな。w  この曲を替え歌だと気付くとか、どんだけボカロ聞いてんねん。ww 実際に自分でもなんかの作品作ってんじゃないですか?  僕はブログには書いてないけど、UTAUで作品を作ってるので、ボカロ関係の記事が多かったりするのだな。うう、カミングアウトしてしまった。orz 

 UTAUに比べるとHANASUはとても難しいですよ、本当に。ボカリスの音程抽出ルーチンがドンだけ優秀か知らんけど、話し言葉の音程変化の急激さには、まだまだついていけるとは思えん。
アバター
2011/09/26 21:26
聞き覚えがあるとおもったら、あの曲か。
詞とアレンジも変わってるのかな?

ミク声っていうか、基本的なアルゴリズムおなじで、フォルマントの違いだけですから、シーケンスデータにブレイクスルーがなければ「しゃべれば更にポンコツ」なのは変わらないです。
元のデータベースが歌ってる音声なので不向きなのもあるんですが、あとはぼかりすみたいに普通のしゃべりから音程、音量を抽出してしまうほうが楽なんでしょうけど…
http://www.youtube.com/watch?v=UCl8Dns7NAQ&feature=related
読み上げる処理には規則性があるのできちんと処理してやれば、「与えるのがテキストデータ」でもこの品質です。
当然意味合いによって読み方は変わりますのであるいみ「解って読んでる」のだから恐るべしというところ。
専用のソフトウェアは凄いです。

Vocaloidが「しゃべらない」のはその音素の接続以外にも、「人間のしゃべり」を「音程、音量、強さ、速度」など音符として変換しないとならず、音程としての動きは五線譜のそれよりも微妙にもかかわらず「明確にイメージし、データ化しないといけないから」なのですよね。

ただ、中間処理を多く担うようになれば、それだけユーザの打ち込みによる個性は出にくくなり、ポンコツでもなくなる反面自由度も低下するので、今の「それっぽくはなくなり」ます。
Vocaloid3ではVocaloidの特徴点だった音素のつながりの明らかに不自然だった部分のいくつかは解消されていますので、良くも悪くも特徴的な部分は進化するごとに消えていくのですが…稚拙なところが牽引している要素でもあるってのはなかなか痛し痒しって感じではありますな。
完璧になったときにそれでもかわいいって笑ってられるほど人間に余裕があるといいのですがねw
「頑張って歌うかわいらしさ、けなげさ」のイメージを担ってるのは「あの稚拙な歌声」でもあるので。
といいつつ、解っててきっとこの記事になってるんだよなw



Copyright © 2025 SMILE-LAB Co., Ltd. All Rights Reserved.