マイクロソフトはあなたの声とアクセントを保つ英語から中国語のユニバーサル翻訳者をデモします

スタートレックのユニバーサルトランスレータ

中国のイベントで、マイクロソフトのリサーチチーフであるリックラシッドは、英語からマンダリンへのリアルタイムの音声翻訳エンジンを実演しました。翻訳は非常に正確であるだけでなく、ソフトウェアはユーザーのアクセントとイントネーションも保持します。ここでは、デジタル化されたロボット翻訳について話しているだけではありません。これは、 ドクター・フー または スタートレック 普遍的な翻訳。

このテクノロジーを評価する最良の方法は、以下のビデオをご覧になることです。最初の6分ほどでRick Rashidがコンピューター翻訳の根本的な難しさを説明し、最後の数分で実際にソフトウェアの英語からマンダリンの音声から音声への翻訳エンジンのデモを行います。悲しいことに、私は中国語を話せないので、翻訳の正確さを証明することはできませんが、聴衆(2,000人ほどの中国人学生)はむしろ感銘を受けたようです。英語/中国語のプロの通訳も、コンピューター翻訳は驚くほど優れていると私に言いました。人間による翻訳のレベルにはほど遠いですが、近づいています。





もちろん、 多くの技術的な魔法 舞台裏で発生します。まず、ソフトウェアをトレーニングする必要があります。両方とも、数時間のネイティブの中国語が話され、1時間はRick Rashidの英語が話されます。これにより、ソフトウェアは基本的にあなたのスピーチを最小のコンポーネント(音素)に分解し、それらを中国語の同等のものと組み合わせて、英語から標準中国語のサウンドの大きなマップを作成します。次に、実際のステージ上でのプレゼンテーション中に、ソフトウェアは彼のスピーチをテキスト(左画面に表示されるように)に変換し、そのテキストをマンダリンテキスト(右画面)に変換し、トレーニング中に作成されたラシッド/中国語マッシュアップを変換しますプロセスは、そのテキストを話し言葉に変えるために使用されます。

最終結果には、デジタル化されたロボット化されたMicrosoft Samの強いヒントがありますが、Rashidのアクセント、音色、およびイントネーションがどれだけ保持されているかは驚くべきことです。



マイクロソフトは、正確さの観点から、システム全体のエラー率はおよそ8分の1であり、以前の最高の5分の1を30%改善していると述べています。このような劇的な改善は、 ディープニューラルネットワーク、トロント大学のGeoffrey Hintonが考案した機械学習手法。ディープニューラルネットワークは、基本的には人工ニューラルネットワーク(相互に接続された何千もの「ニューロン」をモデル化するソフトウェア)ですが、人間の脳の動作をより厳密に模倣するように微調整されています。

今後の大きな問題は、Microsoft Researchの音声合成ソフトウェアが実際に市場に出回る時期です。そして疑問に思っていたかもしれませんが、このソフトウェアは英語と中国語だけに限定されているわけではありません。 Microsoft Speech Platformでサポートされている26の言語すべてを使用できます。最も明白な使用例は、Windows Phone 8(または9?)スマートフォン、またはSkypeです。中国、ドイツ、またはブラジルの会社に電話をかけ、通常は英語で話し、彼らの現地の言語であなたの声を聞くことができます。 。旅行中にスマートフォンを普遍的な翻訳者として使用することもできます。以下に示すように、Microsoftは2010年にずっと電話から電話へのリアルタイム翻訳をいじっていました。

おそらくMicrosoftはそのようなアプリケーションに取り組んでいますが、音声から音声への翻訳を行うために必要な処理能力や、トレーニング/学習プロセスのための使いやすいインターフェイスの提供など、実際的な考慮事項によって妨げられている可能性があります。トレーニングプロセス自体も、ホームユーザーが提供できるよりも多くの処理能力を必要とする場合があります。ただし、クラウドは常に存在します。

Copyright © 全著作権所有 | 2007es.com