ヘッダをスキップ   IT(情報・通信)総合サイト Japan Site

ナビパラ.コム日立トップページへ


ここからグローバル・ナビゲーション |  ホーム  |  ソリューション  |  イベント・セミナー  |  IT情報  |  経営情報  |  ナビパラ通信  |   コラム  |グローバル・ナビゲーションここまで

    会員登録登録内容確認/変更退会    サイトマップ    お問い合わせ
検索 by Google

 > 詳細な検索


コラム

ここからブレッド・クラム ホーム > コラム > 開発者に聞く > バックナンバーブレッド・クラムここまで

ページタイトル

開発者に聞く



ここから本文
 
このコーナーでは、日立製作所の研究所等で研究・開発を行っている技術テーマを中心としたコラムをお届けします。 研究員にインタビューを行い、技術テーマ解説・開発過程におけるエピソードなどを交えてわかり易くご案内いたします。
隣り合う人が同時に話す音声を聞き分けられる音声処理技術
■ 間隔の異なるマイクペアで音源方向を絞り込む

− 騒がしい環境の中で音声のみをクリアに聞きたいというニーズは以前から根強くありますが、これまであまり効果的な抑止技術は出てきませんでしたね。
戸上: 過去にもエアコンやプロジェクターのファンの音など、一定の音量で常に鳴っている音を除去する技術はありましたが、せきばらいや机を叩く音といった突発的な雑音や、音量が変化する人間の声などは除去できませんでした。また、複数のマイクを使って特定方向の音を除去する技術もありましたが、雑音の方向を知るために数秒間のサンプリングが必要なので、一瞬の雑音には対処できません。さらに言うなら、複数の音源位置が近接している場合も、それらを聞き分けるのはほとんど不可能だったのです。そこでわれわれは、これらの課題をすべてクリアする音声処理技術を開発しようと考えました。
− 新技術の概要を教えてください。
戸上: 簡単に言えば、複数のマイクを並べて収録した音声の中から、目的とする音声のみを抽出するアルゴリズムを開発したわけですが、マイクを並べる間隔を工夫し、各マイクで音をとらえた時間差から、方向を一瞬で絞り込むのが大きな特長です。
大淵: 従来から、2本のマイクの間隔を長くすればするほど音源方向の推定精度が高まることはわかっていました。しかし一定値以上に長くすると、逆に方向が定まらなくなる「虚像」という現象が生じていたのです。これに対し新技術では、例えばマイク3本を利用したシステムの場合、AーBマイクのペア、BーCマイクのペア、AーCマイクのペアといったように、間隔の異なるマイクペアで測定されたデータを組み合わせ、それを段階的に補正することで、どんどんマイク間隔を長くできる手法を開発しました。マイク間隔の制限をなくすことで、性能限界を突破したわけです。さらに、音声を周波数ごとに区分する従来型の方法ではなく、一括分析することで短時間に測定できる技術も開発しました。これにより、雑音と目的音の方向が近接していても、それぞれの方向を一瞬で特定できるようになったのです(図1)。
図1 一瞬で目的音声を抽出
図1 一瞬で目的音声を抽出
図2 本技術適用前後の波形
図2 本技術適用前後の波形
− 特定できれば、必要のない音を抑えるアクションにつなげられますね。
戸上: そうです。雑音方向を一瞬で特定した後、その方向に雑音成分だけを除去するフィルタを生成し、目的音のみを聞き取りやすい音声として分離します。処理した後の音声波形(図2)を見ていただければ、いかに雑音成分が取り除かれているかが、おわかりいただけると思います。また、これらの処理時間はほぼリアルタイムで行われますので、カーナビの音声認識システムなどでは運転席方向からの音声を、テレビ会議などでは、あらかじめ出席者別にマイク角度をインプットしておけば、それぞれ雑音に邪魔されることのないクリアな音声をリアルタイムに抽出することができます。

■ 必要とする音声を後から抽出することも可能

大淵: 同様に、複数の人が同時に話を始めても、それぞれの音声を方向別に分離できるので、後から個別に聞きやすく抽出することも可能です。
− 複数の人の会話を分離して記録できるわけですか。
戸上: 目的とする方向の音のみを収集する「指向性マイク」というものがありますよね。あのマイクは最初からほかの音は拾いませんが、この技術は雑音も含めて周囲のすべての音を収録し、後からデジタル的に目的音を取り出す仕組みになっています。つまり目的とする対象を後から自在に変更することができるのです。例えばこの技術を適用したICレコーダーで録音した音声なら、2人が並んで同時にしゃべっていても、後から各人の発言を聞きやすい形で取り出せます(図3)。
図3 近接した音源の方向推定性能
図3 近接した音源の方向推定性能
大淵: 実験では、一般的なオフィスを想定した環境で、音源がマイクから1〜2メートル程度の場所にある場合、水平・垂直方向とも10度間隔の音源を識別できることが確認できました。また、水平方向では20度の間隔で2人が同時に発言した場合も、各人の発言内容だけをクリアに抽出することができました。
− 騒がしい場所で取材することの多いマスコミ関係者にとっては、非常に助かる技術になりそうですね。

■ 人間型ロボットの音声認識技術が原点

− 実際にデモをお聞きすると、目的音がかなりクリアに抽出されています。ただ、雑音すべてが完璧に消されているわけではありませんね。
戸上: 最終的にはすべて消せるレベルを目標としていますが、現状ではまだ完璧に除去するのは難しいのです。雑音の抑圧率と目的音のゆがみはトレードオフの関係にあり、雑音抑圧を非常に強くしますと音声のゆがみも大きくなる。そこで、音声認識なら目的音が少しゆがんでもいいから雑音をできる限り抑える方向、逆に通話なら雑音はある程度あっても音声のゆがみは最小にするといったように、アプリケーション別にセッティングを切り替えられるようにしています。
− どのような応用システムが考えられますか。
戸上: 音声通話や録音関係ですと、雑音の多い場所で使われるハンズフリー通話システムやテレビ会議システム、ICレコーダーなどでかなりの効果が期待できると思います。またカーナビや券売機、テレビなどの音声操作、さらには、画像ではなく特定の音声で怪しい人物をキャッチして監視する音声監視システム、工場などで設備の異常音を検知して警告する装置など、セキュリティ系への適用も考えられます。
大淵: 実はこの技術、もともとは日立が「愛・地球博(2005年日本国際博覧会)」に出展したヒューマノイドロボット「EMIEW(エミュー)」で開発された音声認識エンジンが原点になっています。そこに日立の幅広い音声認識・処理技術、戸上が独自に考えたアイデアなどを組み合わせ、ここまで高めてきた経緯がありますので、人とコミュニケーションを図る接客ロボット、あるいは街角に設置する集客端末など、エンターテインメント系への適用も期待できると思います。
− 今後の展開は。
戸上: 研究段階ではPC上で音声処理を行っていましたが、実システムでは非常に小さな組み込み型CPUでも動かせなければなりません。また、装置サイズやマイク性能に合わせた細かなチューニングも必要です。そのためプログラムやアルゴリズムを、さまざまな用途別に最適化していく作業を現在進めているところです。雑音を抑制しつつ音声のゆがみも最小化する基本性能の改良や、処理スピードのさらなる向上にも取り組んでいきます。
大淵: 録音された音声というのはほとんどの場合、雑音が多くて使い物になりません。でも今回のような技術を使えば、まずはマイクで音を拾い、そこから必要なものだけ取り出したり、使い道を後で考えたりといった発想も可能になってきます。その意味では、今までなら不可能だった音声の利用拡大に、幅広い場面で貢献できる技術になるのではないでしょうか。
− より便利なシステムやソリューションへの適用を期待しています。本日はありがとうございました。
※「EMIEW」は、独立行政法人新エネルギー・産業技術総合開発機構(理事長:牧野力)の委託事業「次世代ロボット実用化プロジェクトプロトタイプ開発支援事業」の一環として開発されたものです。
[ Back ] 2 / 3 [ Next ]
本文ここまで


ここからローカル・ナビゲーション
開発者に聞く
ここから1つ下の階層
バックナンバー

ITウオッチング

モノがたり
ローカル・ナビゲーションここまで



イベント・セミナー

助成金・補助金

税金Q&A




ページトップへ

 
ここからフッタ  | サイトの利用条件 | 個人情報保護に関して | 商品名称について | 推奨環境 | 当サイトへのリンクについて |フッタここまで

© Hitachi, Ltd. 2001, 2008. All rights reserved.