Apple、「Apple Machine Learning Journal」の記事を3本追加！

Appleは、マシンラーニングの技術PRのために開設した「Apple Machine Learning Journal」の公式ページにおいて記事を3本追加しました。

「Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis」ではSiriの音声合成についての説明です。iOS 11では、Siriの声の自然さ、個性、表現力を向上させることを目的として、新しい女性音声才能を採用しています。最高のものを選ぶ前に何百人もの候補者をピックアップし、その後、20時間以上のスピーチを録音し、新しい深層学習ベースのTTS技術を使用して新しいTTS音声を作成しました。その結果、新しいUS English Siriの声はこれまで以上によく聞こえるようになっています。

「Inverse Text Normalization as a Labeling Problem」では、Siriは、日付、時刻、住所、通貨などのエンティティをきれいにフォーマットされた方法で表示します。これは、コア音声認識コンポーネントの出力に逆テキスト正規化（ITN）と呼ばれるプロセスを適用した結果だとのことです。これによって日付、住所などの表現の順序に誤りがなくなります。

📖 あわせて読みたい記事

Appleが、iOS 11.1 beta 1をパブリックベータ・プログラム登録者に公開！

Apple、iOS 11.4 beta 1を開発者に公開！AirPlay 2が復活

「Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization」では、ユーザーは、言語、デバイス、音響環境、または通信チャネルの帯域幅に関係なく、Siri音声認識がうまく機能することを期待しています。それに応えるために音響モデルのデータを活用する伝達学習手法について説明します。この表現は、言語間だけでなく、オーディオチャネルの帯域幅にも関係しています。

（via 9 to 5 Mac）