AIは無声化できない、は違う？

皆さまこんばんは。今日は布団の中からブログを書いています。

実は、今日昨日である種の義務感にかられている宮島です。笑笑

最近では、事務所のワークショップやオーディションの指導などでも、鼻濁音についての指摘は指導者の方によってマチマチになってきている印象です。

ですが、無声化だけは、むしろ細かい指摘をする事務所さんが割と多いです。

これ何でなん？と色々考えていたのですが、母音の無声化が出来ないと、色んな問題を孕む事に気付きました。例えば、

▪️無声化できない事によって、滑舌が悪く聞こえる。

▪️前後の言葉とのバランスが悪くなり、カタツキが生じやすくなる。

▪️そもそも日本語が美しくない。

と、主にこの3点なのですが、言葉のバランスだけでなく、声に対しても発声に与える影響は少なくない印象でした。

さらに深掘りして考えて行ったときに、私がAIのナレーションを聞いたときに感じる違和感て何なんだろう？と感じたわけです。

最近では、夫がその種の動画をよく見るせいか、いわゆる(読み上げアプリ)的な音声に関して、当初感じた胸のざわつき感が無くなってきたのです。

速い話が、違和感なく聴けてしまう自分がいます。

けれど、それは(そういうもの)として聞いているからそうなだけであって、そこから

人間の感情を、人間の感情として、演技として読み取ろうとは思っていない。

のだと改めて気づくわけです。

読み上げアプリの音声は、私的には単語の羅列だと思っていますが、しかしJR東日本の構内で流れているAIナレーションはもっとクオリティが高いです。まるで人が読んでいるかのよう。

もはや単語の羅列レベルでは無いわけです。

以前の私のブログでも、美空ひばりの歌声とAI美空ひばりの音声を音声分析ソフトにかけた事がありますが、

見事なまでに、同じような波形が描かれて居ました。

それを見た時に、ここまで再現性のある声の分析の素晴らしさを感じました。

ただ、ふと思うのは

ただスキャンするだけで、どこまでコピー出来るの？と言うところです。

ただスキャンするだけでそっくりそのままコピーロボットが出来るまでにはまだ至らないのではないか？

あるいは、微調整をしなくてはならない部分は人の手によるのではないか？

とも。

先程ネットで、

(AIは無声化が出来ない)

と調べて見ました。そうしましたら、

(基本的に、文字を読み込み再現した状態である程度の無声化ルールは自動的に再現は可能だが、万能ではないため、手動で無声化の設定が出来る)

とありました。

これが今後どこまで自動化されるかわかりませんが、下手をしたら日本人よりも正しい日本語をAIが、話してしまう可能性があると言う事です。

それじゃあもう人間のナレーションはいらなくなってしまいます。

だからこそ、少しでも正しく、美しい日本語が話せるように、我々ボイストレーナーには指名があるわけです。

人間だから良いよね。と、人の声で再現する良さを重視する世の中になるか、その逆か。

真剣に考える必要を感じます。