ヘッダをスキップ   IT(情報・通信)総合サイト Japan Site

ナビパラ.コム日立トップページへ


ここからグローバル・ナビゲーション |  ホーム  |  ソリューション  |  イベント・セミナー  |  IT情報  |  経営情報  |  ナビパラ通信  |   コラム  |グローバル・ナビゲーションここまで

    会員登録登録内容確認/変更退会    サイトマップ    お問い合わせ
検索 by Google

 > 詳細な検索


コラム

ここからブレッド・クラム ホーム > コラム > 開発者に聞く > バックナンバーブレッド・クラムここまで

ページタイトル

開発者に聞く



ここから本文
 
このコーナーでは、日立製作所の研究所等で研究・開発を行っている技術テーマを中心としたコラムをお届けします。 研究員にインタビューを行い、技術テーマ解説・開発過程におけるエピソードなどを交えてわかり易くご案内いたします。
肉声に近い自然なアナウンスを実現する知的音声合成技術
■ 高い肉声感と、言葉の正確な読み分けを実現

− いまサンプル音声を聞かせていただきましたが、確かにこれまでの合成音声とは違い、人が自然に話しているような印象を受けます。
北原: 合成音声は、「素片」とよばれる音声の単位を組み合わせて生成され、どの素片を組み合わせるかが音質を大きく左右します。このようなところで各社しのぎを削っています。例えば「ひたち」という言葉は「ひ」「た」「ち」という3つの素片で構成されますが、最初の「ひ」に「光(ひかり)」の「ひ」か、「額(ひたい)」の「ひ」か、どちらを持ってきた方が自然に聞こえるかといいますと、推察されますように「ひ」の次に来る言葉が「た」である「額」の「ひ」の方が適切なわけです。そういった膨大な素片のデータベースから接続性が最適な素片を動的に切り出す技術とノウハウ、さらに選ばれた素片を滑らかに接続するスムージング処理、これらの連携によって、肉声感が一段と高く、滑らかな合成音声を実現しました。
− テキストを音声として正確に表現するには、これまで漢字の読みの変化が大きなハードルとなっていましたね。そのあたりの技術はどう進化したのでしょう。
額賀: 新たに、漢字かな混じり文を正確に読み分ける知的日本語処理技術を開発しました。さまざまな単語間の関連性をデータベース化し、前後の文脈からその読みを正確に判断する技術です。ソフトウェアのウインドウに文章を漢字かな混じりでテキスト入力しますとボタンを押すだけでスピーディに合成音声へと変換します。ちょっとやってみましょう。例えば「新宿に行った」と入れてボタンを押すと「新宿に“いった”」と読み上げます。次に「新宿に」の部分を「会議を」と打ち直してボタンを押します。「会議を“おこなった”」と読み上げましたね。さらに「会議を」を「この道を」に変えてみましょう。今度は「この道を“いった”」と読み上げました。つまり助詞が「に」か「へ」なら「いった」、「を」なら「おこなった」と単純に振り分けているのではなく、単語の内容が“通過できる、行けるもの”なら「いった」、そうでないものは“おこなった”と読むように、あらかじめデータベースから作った詳細なルールにのっとって判断しているのです。
− アクセントも非常に正確に聞こえます。
額賀: 例えば「花が開いた」と「鼻が開いた」の「はな」の部分のアクセントの違い、これもシステムでは正確に判断します。また「〜です」という言い方のときに、プロのアナウンサーは「D・E・S・U」とは言わずに「D・E・S」と喋る。つまり最後の「U」が欠落する「無声化」によって言葉がきれいに聞こえる現象があります。さらに語中に出てくる“がぎぐげご”が鼻にかかって“か゜き゜く゜け゜こ゜”*と発音される「鼻濁音化」、これら音声言語特有の処理にも対応しているのも技術の大きな特長です。
 *鼻にかかったガ行の音

北原: もちろん、アクセントや単語の読み方などには、お客さまそれぞれで微妙に違ったものをお望みの場合があるはずです。そこで合成音声の編集作業をGUIで直感的に行える「合成音声オーサリングツール」を提供します。これにより、さまざまなアクセントや読み方などをきめ細く指定できるほか、声の高さや速さなどのパラメータを調整した結果もパソコンの画面上で簡単に確認できるようになりました。


図1 漢字かな混じり文を入力するだけで正確な読み分けを実現

※クリックして拡大図をご覧下さい



図2 使いやすい音声合成オーサリングツール

※クリックして拡大図をご覧下さい
− 開発では、どのあたりにいちばん苦労されたのでしょう。
北原: 先ほど詳細なルールづくりと申しましたが、今回のような音声合成は別名「規則合成方式」とも呼ばれるように、言語的にも音声的にも膨大なルールがあります。そのあたりでは現在担当の額賀をはじめ、日立の音声合成グループが長い間、苦労に苦労を重ねて作り上げてきたノウハウが蓄積されています。
額賀: 言葉には日々新しい表現が生まれてきます。例えば最近、ラジオでホームページのURLを紹介する場面が多くなりましたが、以前は“co.jp”を“シー・オー・ドット・ジェイピー”などという読み方はしなかったわけです。それを音声合成エンジンできちんと読むようルール化するなど、常に新しい表現にアンテナを張り巡らせて生活するようになりました。テレビを見ていてもアクセントが気になって番組に集中できないんですよ(笑)。

■ 突発的なアナウンスにも即対応

− どのような活用シーンを想定されていますか。
北原: テキストさえあれば、すぐに正確な合成音声に変換できるため、頻繁に内容が変わるインターネット上のニュースや天気予報のリアルタイムな読み上げ、電子書籍の読み上げ、あるいは交通機関などで突発的な事故などが起こった際の案内放送などに最適ではないかと考えています。
 実際に駅の構内放送などは、現状では録音再生なんですね。つまり駅名や列車名をあらかじめアナウンサーの声で録音し、それに助詞などを加えて編集・再生しているのです。そのため音声全体に均一感がないですし、突発的な事故が起こった際には対処できない。そういった場合でもこのシステムは、例えば「先ほど、○○駅で架線事故があり、現在全面的に運転を見合わせております。お急ぎのところご迷惑をおかけいたしますが、今しばらくお待ちくださいませ」といったテキストを打ち込むと、即座に肉声的なアナウンスを流せるわけです。
 また、携帯電話で電車の乗り換え案内のようなサービスを使われている方は多いと思いますが、それを音声で読み上げれば、高齢者や視覚障害者の方にも便利に使えますし、声が出せなくなった人たちの意思伝達装置などにも適用できると思います。
 さらに、絶対に間違ってはならない株価の読み上げや、延々と続くデータの読み上げなど、人間のアナウンサーなら疲れやプレッシャーで敬遠したくなる作業でも、このシステムなら決して文句を言わずにこなしてくれます(笑)。
− 今後の展開は
北原: 研究所内の構内放送でも実際にこのシステムを使っているのですが、やはりまだ“声はきれいだけど、気持ちがこもっていない”という指摘を受けることがあります。そこで現在は、声を弾ませたり、落ち込ませたりしてリアリティを高める「表情付与」の研究を進めています。また、より幅広いシーンでの利用を目指すため、声の種類を増やしたり、使い勝手を向上させながら、皆さんがオフィスや生活のなかですぐに使えるような製品化を目指していきたいと思っています。
− 本日は、どうもありがとうございました。
インターネット上で、実際の音声サンプルをお聞きください。
[ Back ] 2 / 3 [ Next ]

本文ここまで


ここからローカル・ナビゲーション
開発者に聞く
ここから1つ下の階層
バックナンバー

ITウオッチング

モノがたり
ローカル・ナビゲーションここまで






ページトップへ

 
ここからフッタ  | サイトの利用条件 | 個人情報保護に関して | 商品名称について | 推奨環境 | 当サイトへのリンクについて |フッタここまで

© Hitachi, Ltd. 2001, 2008. All rights reserved.