推進委員会の「実験の成果と今後について」

何人かの方からもリクエストをいただいていましたが、今回の実験の目的と成果、今後の音声合成の改善について
お話しておきたいと思います。多少、長文かつ技術的な話になりますが、そこはご容赦ください。

実験の目的
さて音声合成という技術ですが、今までは電話の自動応答だったり、ニュース文の読み上げだったり、比較的「かたい」文章に適用されていました。すなわち、主語や述語が明確な「ですます調」の文章を読むために作られていたと言えます。

それに対してアリスプロジェクトですが、音声合成が本格的にアニメキャラクターに適用されたのはこれが初めてではないでしょうか。当然、ですます調だけで喋るわけではなく、もっと「くだけた」文章を読まなければいけません。

これまでかたい文章だけを喋らせてきましたので、
　　「どういう文章が読めればいいの？」
　　「ユーザの人たちはどんな文章をどのように読ませたいの？」
　　「何をどこまで作ればできるの？」
という非常に基本的な部分がまったくわかっていなかった、というのが正直なところです。

とは言え、部屋にこもって考えていてもよくわかりません。とにかくできるところまでは自分達で作ってみて、わからないところは実際のユーザの皆さんに聞いてみよう、助けてもらおう、ということになりました。具体的な実験の目的は以下のようなところです。

1くだけた文章・セリフを数多く収集する。(今後の技術開発のための貴重なデータになります)
2くだけた文章でうまく読めないところを見つける。(日本語解析がおかしいところ、音質がよくないところ、両方です)
32の結果を元に、実際にエンジンを改善していく。
4そうやってできた合成音声の品質を、多くの方々に評価してもらう。(発声は自然か、真紅に聞こえるか、などなど)
5将来のビジネス化の可能性を探る。(いちおう営利企業ですので、いつまでも無料だと怒られちゃいますｗ)

かくして、西暦2007年12月17日のサイトオープンを迎えたのでした。

実験の結果、成果
あっという間に3ヶ月間が過ぎ、その結果です。

目的の1245については成功、3は完全に失敗とは言えないですが、どちらかと言えば失敗でしょうか。

1は本当にたくさんのセリフを入れていただいて大成功です。2も音声修正ツールで数多く修正していただいたことにより、修正すべき箇所を効率よく見つけることができました。投稿音声の80%ぐらいは何らかの形で修正されたものでした。
45は、現在もアンケートで回答をいただいてますし、「ご意見・ご要望」などでもいろいろ教えてもらっていますので、目的は達成したと言っていいでしょう。

3については、予想以上にたいへんでした。12によって改善すべき箇所が数多く見つかったこと、また、その中には簡単に直せないものもあったことから、全てをやりきる前に実験終了の時期をむかえてしまいました。

しかしながら、全体を通して考えれば十分な成功をおさめたと考えています。皆さんのおかげです。ありがとうございます。

音声合成エンジンの今後の改善
さてさて、今後です。
やり残したことをやっていくのですが、改善ポイントは主に「読み・アクセント」「ピッチ」「音質」の3つになると思います。

読み・アクセント
読みとアクセントについては、確実に改善できると考えています。

単語として辞書に登録されていなかったものは、読みやアクセントの位置を辞書登録をしていきますし、文脈によって読み方が違うものも、全ては難しいですが、ある程度は修正することが可能です。実は地道で時間がかかる作業なのですが、粘り強くやって行けば必ず良くなっていくはずです。

ピッチ
次にピッチについてですが、これは難しいところです。

音の高低が明らかにおかしい部分は修正しなければいけません。ですが、感情表現を変えるためにピッチが変更されるケースもあります。そもそも何を正解とするのか、その定義するのが困難だったりします。
これはポーズやテンポについても同じことで、感情表現にかかわる部分は、従来の音声合成の枠を超えて研究しなければいけないところです。(研究所の人に頑張ってもらいますｗ)

余談ですが、声優さんが凄いのはこの辺ですよね (当然ですけど)。中間検定や卒業検定の真紅のメッセージや、着ボイスを沢城みゆきさんに収録していただいたのですが、演技力と言いますか、感情を人に伝える力と言いますか、その迫力は素人の我々でも十分に実感できるものでした。

音質
音質に関しては、まだまだ改善の余地があります。試行錯誤をしながらになると思いますが、徐々に改善できると考えています。

ピッチを変えたり、アクセント区切りを追加・削除したり、皆さんがどんなに修正しても、結局音質が良くならなかった場合があったと思います。ロボット声になったり、アクセント区切りのところでつながりが不自然だったり…。これを解決するための一つの方法は、音響工学と言いますか音声工学的に音をまろやかにしたり、音のつながりを滑らかにしたりすることで、これはもちろんやっていきます。

ただ、それだけではダメで、もう一つ重要ことは話者収録の内容を見直すことです。

一般的に音声合成では、特定の話者の方(今回の場合、沢城さんですね)の音声を収録し、そこで採取した音素を利用して、合成音声を作り上げます。修正しても合成音声の音質が良くならなかった部分というのは、結局、必要な音素を収録できていなかった部分だと言えます。皆さんの音声修正の履歴から、うまく修正できなかった部分や、うまく修正できてもとても苦労した部分などを抽出し、収録内容を改善していくことにより、音質を向上させていくことは可能だと考えています。

もちろん、話者の方に無限に喋っていただければ、理論上は元の話者の声をほとんど再現できることになります。しかし、それは不可能ですし、現実的な時間内の収録で、高品質な音声を作り出せなければいけません。皆さんが投稿してくれたセリフや、音声修正の内容は、収録内容を見直すためには非常に有用なものになるはずです。

最後に
以上、言うのは簡単ですが、やるのは結構難しかったりします。時間がどれくらいかかるのかわかりませんが、少しずつでも前に進んで、より良いものを作って行きたいと思います。あたたかく見守っていただけると幸いです。

えーと、それから、商品化の話も書いた方がいいですよね…

実際に「次のサービス(製品)はどうするの？」とよく聞かれますが、現時点では白紙です(本当)。
もちろん音声合成を使った何かをやりたいとは思っています。皆さんからもヒントをたくさんもらってますし。
なのですけど、いつ、何をやるか、まだ決まっていません。
多くの方々に喜んでいただけるものを考え付いて、実現できますように… ＞自分たち

西暦2008年3月吉日
アリスプロジェクト推進委員会

うみゅ｡｡｡　今後の課題は大体は思ったとおりだったので割愛するお。
感情表現について一言書いておくお。

感情が激昂するときは、ピッチの振れ幅を大きくすれば感じが出る。←重要
（音声を作る時も、感情が高ぶったときの方が粗が隠せて実は作りやすかった）

ただ、速さや高さについては…
怒ると甲高く早口になる真紅や、
逆にドスをきかせて遅く言う水銀燈などがいるから何とも言えない。
（だからもっと遅く、もっと早く喋らせてみたかった。
　遅くする時は短い母音を足していく感じで伸ばせないんだろうか？）
まあこの辺はキャラの個性になると思う。*1
銀様のうねったような言い回しを表現するのは難しそうだ。
普通に早口で怒る時もあるからねぇ。*2

製品化の話なんだけど…しゃべるフィギュアとか、ぶっちゃけ、いらんｗ
普通にアリスプロジェクトのクオリティあげた奴が欲しい。
修正プログラムの改善された奴、新しい音（音素？）を入れた奴、NGワードあってもいいから欲しいDEATH＞＜*3

アンケにも書いたけど、chararinaを作ってみたいんだわにゃ〜
んで、公の場のアリスプロジェクトでは作れなかったこっぱずかしい台詞(スウィート系)なども言わせてみたいです。
ま、もちろん、沢城みゆきさんの声の権利の侵害はできませんので、個人的に楽しむのみになりますが。
…いやあ、他の奴になんかきかせてやらんにょろ♪

ん〜、妄想広がる無限の彼方へ！*4

*1:あとはもう感情の分析とか。これはもう絶対難しいと思う。素人の想像だけど。

*2:図星指されると早口、余裕があるとドス、だよな。たぶん。

*3:まあ、それが売れるかっつーと…ん〜

*4:あ、オチがない

アドリーナは海の底で。

なんでもあり　と　なんにもいらない　は　よく似てる

推進委員会の「実験の成果と今後について」