− 騒がしい環境の中で音声のみをクリアに聞きたいというニーズは以前から根強くありますが、これまであまり効果的な抑止技術は出てきませんでしたね。
|
戸上: 過去にもエアコンやプロジェクターのファンの音など、一定の音量で常に鳴っている音を除去する技術はありましたが、せきばらいや机を叩く音といった突発的な雑音や、音量が変化する人間の声などは除去できませんでした。また、複数のマイクを使って特定方向の音を除去する技術もありましたが、雑音の方向を知るために数秒間のサンプリングが必要なので、一瞬の雑音には対処できません。さらに言うなら、複数の音源位置が近接している場合も、それらを聞き分けるのはほとんど不可能だったのです。そこでわれわれは、これらの課題をすべてクリアする音声処理技術を開発しようと考えました。
|
− 新技術の概要を教えてください。
|
戸上: 簡単に言えば、複数のマイクを並べて収録した音声の中から、目的とする音声のみを抽出するアルゴリズムを開発したわけですが、マイクを並べる間隔を工夫し、各マイクで音をとらえた時間差から、方向を一瞬で絞り込むのが大きな特長です。
|
大淵: 従来から、2本のマイクの間隔を長くすればするほど音源方向の推定精度が高まることはわかっていました。しかし一定値以上に長くすると、逆に方向が定まらなくなる「虚像」という現象が生じていたのです。これに対し新技術では、例えばマイク3本を利用したシステムの場合、AーBマイクのペア、BーCマイクのペア、AーCマイクのペアといったように、間隔の異なるマイクペアで測定されたデータを組み合わせ、それを段階的に補正することで、どんどんマイク間隔を長くできる手法を開発しました。マイク間隔の制限をなくすことで、性能限界を突破したわけです。さらに、音声を周波数ごとに区分する従来型の方法ではなく、一括分析することで短時間に測定できる技術も開発しました。これにより、雑音と目的音の方向が近接していても、それぞれの方向を一瞬で特定できるようになったのです(図1)。
|

図1 一瞬で目的音声を抽出
|

図2 本技術適用前後の波形
|
− 特定できれば、必要のない音を抑えるアクションにつなげられますね。
|
戸上: そうです。雑音方向を一瞬で特定した後、その方向に雑音成分だけを除去するフィルタを生成し、目的音のみを聞き取りやすい音声として分離します。処理した後の音声波形(図2)を見ていただければ、いかに雑音成分が取り除かれているかが、おわかりいただけると思います。また、これらの処理時間はほぼリアルタイムで行われますので、カーナビの音声認識システムなどでは運転席方向からの音声を、テレビ会議などでは、あらかじめ出席者別にマイク角度をインプットしておけば、それぞれ雑音に邪魔されることのないクリアな音声をリアルタイムに抽出することができます。
|
− 実際にデモをお聞きすると、目的音がかなりクリアに抽出されています。ただ、雑音すべてが完璧に消されているわけではありませんね。
|
戸上: 最終的にはすべて消せるレベルを目標としていますが、現状ではまだ完璧に除去するのは難しいのです。雑音の抑圧率と目的音のゆがみはトレードオフの関係にあり、雑音抑圧を非常に強くしますと音声のゆがみも大きくなる。そこで、音声認識なら目的音が少しゆがんでもいいから雑音をできる限り抑える方向、逆に通話なら雑音はある程度あっても音声のゆがみは最小にするといったように、アプリケーション別にセッティングを切り替えられるようにしています。
|
− どのような応用システムが考えられますか。
|
戸上: 音声通話や録音関係ですと、雑音の多い場所で使われるハンズフリー通話システムやテレビ会議システム、ICレコーダーなどでかなりの効果が期待できると思います。またカーナビや券売機、テレビなどの音声操作、さらには、画像ではなく特定の音声で怪しい人物をキャッチして監視する音声監視システム、工場などで設備の異常音を検知して警告する装置など、セキュリティ系への適用も考えられます。
|
大淵: 実はこの技術、もともとは日立が「愛・地球博(2005年日本国際博覧会)」に出展したヒューマノイドロボット「EMIEW(エミュー)※」で開発された音声認識エンジンが原点になっています。そこに日立の幅広い音声認識・処理技術、戸上が独自に考えたアイデアなどを組み合わせ、ここまで高めてきた経緯がありますので、人とコミュニケーションを図る接客ロボット、あるいは街角に設置する集客端末など、エンターテインメント系への適用も期待できると思います。
|
− 今後の展開は。
|
戸上: 研究段階ではPC上で音声処理を行っていましたが、実システムでは非常に小さな組み込み型CPUでも動かせなければなりません。また、装置サイズやマイク性能に合わせた細かなチューニングも必要です。そのためプログラムやアルゴリズムを、さまざまな用途別に最適化していく作業を現在進めているところです。雑音を抑制しつつ音声のゆがみも最小化する基本性能の改良や、処理スピードのさらなる向上にも取り組んでいきます。
|
大淵: 録音された音声というのはほとんどの場合、雑音が多くて使い物になりません。でも今回のような技術を使えば、まずはマイクで音を拾い、そこから必要なものだけ取り出したり、使い道を後で考えたりといった発想も可能になってきます。その意味では、今までなら不可能だった音声の利用拡大に、幅広い場面で貢献できる技術になるのではないでしょうか。
|
− より便利なシステムやソリューションへの適用を期待しています。本日はありがとうございました。
|
※「EMIEW」は、独立行政法人新エネルギー・産業技術総合開発機構(理事長:牧野力)の委託事業「次世代ロボット実用化プロジェクトプロトタイプ開発支援事業」の一環として開発されたものです。
|
|
|