Appleは、マシンラーニングの技術PRのために開設した「Apple Machine Learning Journal」の公式ページにおいて記事を3本追加しました。
「Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis」ではSiriの音声合成についての説明です。iOS 11では、Siriの声の自然さ、個性、表現力を向上させることを目的として、新しい女性音声才能を採用しています。最高のものを選ぶ前に何百人もの候補者をピックアップし、その後、20時間以上のスピーチを録音し、新しい深層学習ベースのTTS技術を使用して新しいTTS音声を作成しました。その結果、新しいUS English Siriの声はこれまで以上によく聞こえるようになっています。
「Inverse Text Normalization as a Labeling Problem」では、Siriは、日付、時刻、住所、通貨などのエンティティをきれいにフォーマットされた方法で表示します。これは、コア音声認識コンポーネントの出力に逆テキスト正規化(ITN)と呼ばれるプロセスを適用した結果だとのことです。これによって日付、住所などの表現の順序に誤りがなくなります。
「Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization」では、ユーザーは、言語、デバイス、音響環境、または通信チャネルの帯域幅に関係なく、Siri音声認識がうまく機能することを期待しています。それに応えるために音響モデルのデータを活用する伝達学習手法について説明します。この表現は、言語間だけでなく、オーディオチャネルの帯域幅にも関係しています。
(via 9 to 5 Mac)
Last Updated on 2017年8月24日 by Editor
※このサイトの記事には「噂」や「疑惑」など、不確定な情報が含まれています。ご了承ください。(管理人)