ヘッダをスキップ   IT(情報・通信)総合サイト Japan Site

ナビパラ.コム日立トップページへ


ここからグローバル・ナビゲーション |  ホーム  |  ソリューション  |  イベント・セミナー  |  IT情報  |  経営情報  |  ナビパラ通信  |   コラム  |グローバル・ナビゲーションここまで

    会員登録登録内容確認/変更退会    サイトマップ    お問い合わせ
検索 by Google

 > 詳細な検索


コラム

ここからブレッド・クラム ホーム > コラム > 開発者に聞く > バックナンバーブレッド・クラムここまで

ページタイトル

開発者に聞く



ここから本文
 
このコーナーでは、日立製作所の研究所等で研究・開発を行っている技術テーマを中心としたコラムをお届けします。 研究員にインタビューを行い、技術テーマ解説・開発過程におけるエピソードなどを交えてわかり易くご案内いたします。
携帯電話で漢字の読み取りを実現
■ ケータイで初めて漢字の単語認識を実現

− 携帯電話のカメラを使って、印刷されたURLや電話番号を読み取る技術はすでに実現されています。しかし日本語の認識は、あまり聞いたことがありません。
古賀: アルファベットや数字などはだいたい100字程度ですが、日本語の場合は漢字と仮名を合わせて約4000字もあり、単純に考えれば処理時間もメモリーも40倍必要な計算になります。ですからこれまで、限られたメモリー容量しかない携帯電話の中で日本語の文字認識を行うのは非常に困難だったのです。そこで私たちは、より高速で省メモリーの日本語文字認識エンジンを開発し、この課題をクリアしようと考えたのです。
− どのようにして小さなメモリーサイズに納めることができたのでしょう。
嶺: Discriminative Feature Extraction法という従来からある統計的学習理論に基づいて、文字の特徴抽出と判別関数、双方のパラメータを同時に、認識の誤りが最少となるように最適化する方法を考案しました。この手法を漢字認識に適用したのは日立が初めてだと思います。これにより、従来の方法なら数MBから数十MBほど必要とされていたメモリーを700kBという、携帯電話に搭載できる業界最小サイズに納めることに成功しました。携帯電話向けの標準プラットフォームで動作するため、幅広く使っていただくことができます。
− 漢字認識に成功したのも今回が初めてなのですか。
古賀:  これまでも携帯電話上で漢字を“読む”技術はありました。ただそれは、単に漢字を「文字」として読むだけで、「単語」としては認識できない。つまり『新しい研究所を作る』という言葉をカメラで読み取っても、そこから「新しい」「研究所」「作る」といった単語は抽出できず、国語辞典などで意味を調べるには、読み取られた文字の前後を手動で消していく作業が必要でした。
 ところが今回は、カメラで撮った文字列から漢字や仮名の単語を自動的に抽出して、認識できます。文字認識本体のメモリーが小さくなった分を利用し、単語辞書を載せることで、こうしたことが実現できました。また、縦書き・横書きも自動判定が可能であり、使い勝手がよくなるよう、工夫しています。
 日立には、帳票処理や郵便区分機などで文字認識に早くから取り組んできた歴史があります。また、カメラで文字認識するための研究も1998年頃からスタートしていました。こうした長年の技術やノウハウの蓄積が、今回の技術に大きく生かされているのです。

■ 文面を撮って関連情報にすばやくアクセス

嶺: そういった日本語認識技術をベースに新たに考案したのが、紙の世界とデジタルの世界をリンクする「単語位置関係解析技術」です。これは、本や雑誌などに印刷されている単語を携帯電話で読み取り、その配置を解析し、サーバに送信することで、その画像がどの出版物のどの個所を撮影したのかを特定します。そしてインターネット上のさまざまな関連コンテンツとリンクさせることで、幅広い情報を提供できるという仕組みです。
 実際に試してみますので、ご覧ください。ここに中央研究所の歴史をつづった本があります。この本の文面を撮影し、サーバに送信してみます。ほら、すぐにこれは8ページ目の4行目の9列目を撮影したものだという答えが返ってきます。そして文章に該当する研究所の写真が表示されました(図1)。


図1 携帯電話向け文字認識技術の概要
− なるほど、非常にすばやく反応が返ってきますね。
嶺: スピード自体は携帯電話のCPUや通信速度に左右されます。画像そのものではなく、単語の配置情報だけを送るので、反応が早くなっています。事前にリンク情報をサーバに登録しておく必要があります。今回は、登録の際に形態素解析という技術を用い、文書の原稿から単語の配置を自動的に抽出しています。これにより、リンクの登録作業が容易になっています。もちろんリンク先から提供するコンテンツは、テキストや画像、動画や音声でも、携帯電話で表示や再生できるものならなんでもOKです。
− どうやって文面を特定できるのですか。
古賀:先ほど説明しましたように、今回の文字認識システムは単語単位で文字を読み取ります。この機能を利用して、撮影した画像中の複数行の文字列から単語を取り出し、それらの位置関係を自動的に解析します。そして、「作る」の左上に「研究所」という文字があり、その右上には「茨城県」という文字があるといった配置情報をサーバに送ります。するとサーバの中で同じ単語と配置を持つ文面が特定されるという仕掛けです。
 テキスト検索の技術者ですと、例えば「茨城/研究所/就任」と抜き出し、それらの単語を含む文章を探し出すという発想になりますよね。しかし私はずっと郵便区分機などの文字認識を手がけていたためでしょうか、どうしても二次元の世界で考える。つまり“単語の上下関係を見よう”という発想です。文章レイアウトで「研究所」の右上に「茨城」があるというパターンはそうそう多くはありません。だからパッと特定できるわけですね。

■ 特殊な印刷は不要。過去の出版物もそのまま利用できる

− どんなサービス展開が考えられるでしょう。
嶺: 現在も雑誌に印刷されたQRコード(二次元コード)やURLを携帯のカメラで読み取り、登録されたホームページにアクセスするサービスがありますよね。しかしこうしたサービスを行うにはあらかじめQRコードを印刷しておかなければなりません。このため過去に発行された文書には対応できません。また、雑誌の原稿は発行直前まで手直しされるため、レイアウト変更にともなってQRコードも移動しなければならない。その結果、編集作業を煩雑にしたり、美しいレイアウトを犠牲にしてしまうことがあります。しかし私たちの技術なら、今までどおりに誌面を作っていただき、最終原稿のファイルをそのままサーバに送れば、すぐに専用ソフトが単語配置を解析しますので、リンク情報を簡単に登録することができるのです。当然、QRコードがなかった時代に印刷された文書も、スキャナで取り込みデータ化すれば、同様のサービスが提供できるというわけです。
古賀: ファッション誌やグッズ系の雑誌などでは、さまざまな商品が紹介されています。読者が興味のある記事をカシャッと撮れば、すぐに商品の詳細情報や通信販売のサイトに誘導することができる。これは広告として非常に有効だと思います。1つひとつの商品に対応するQRコードを印刷することで、レイアウトを圧迫するという心配もありません。また、機器のマニュアルと連携させて動画で操作方法を提供する、英語の教科書を撮ると、その意味や発音が出てくるなど、可能性はいろいろと広がってくると思います。
− 今後の展開は。
古賀:例えば街中の看板や標識、ポスターなどに書いてある文字、これらは斜めになっていたり、影があったり歪んでいても、人間の目ならちゃんと認識できます。それと同じことをカメラでも実現させていく─それが技術的にも大きなチャンレンジになっていくでしょう。将来的にそんな装置をメガネに仕込めるようになったら、どんなに難しい漢字や、外国語だらけの本でも苦もなく読める「知ったかぶりメガネ」なんかができてしまうわけです(笑)。そういった用途にも使っていけたら楽しいだろうと思います。
− 「早く商品化をお願いしたいです。本日はどうもありがとうございました。
※今回開発した日本語単語認識技術は、携帯電話向けの文字認識ソフトウェア「GAZOMAGIC®Mobile」の日本語認識追加モジュールとして、2005年4月より、日立オムロンターミナルソリューションズ株式会社が販売を開始しています。
[ Back ] 2 / 3 [ Next ]
本文ここまで


ここからローカル・ナビゲーション
開発者に聞く
ここから1つ下の階層
バックナンバー

ITウオッチング

モノがたり
ローカル・ナビゲーションここまで






ページトップへ

 
ここからフッタ  | サイトの利用条件 | 個人情報保護に関して | 商品名称について | 推奨環境 | 当サイトへのリンクについて |フッタここまで

© Hitachi, Ltd. 2001, 2008. All rights reserved.