| (1)質問文のタイプ分類技術 |
| 例えば「鉄腕アトムの誕生日はいつ?」と尋ねると、本システムでは質問で求められている情報のタイプが誕生日の"日付"であると理解します。
質問文のバリエーションには多様なパターンが存在するため、そのタイプ分類を適切に行うルールを人手で作成することは困難でした。しかし、本技術では質問文のログをテキストマイニング技術を用いて解析することにより、質問文の頻出パターンを抽出したり、単語の意味の分類(「誕生日」の意味属性は"日付")を大規模な日本語語彙の知識ベースである日本語語彙体系と照らし合わせ、「誕生日」と「生年月日」など表現が異なる語でも同じ意味として扱うことができ、自動学習のさらなる効率化を進め、入力された質問文の意味をより正しく理解することを可能としました。 |
| (2) Webページ再ランキング技術 |
| 「Web Answers」では、質問文が入力されると、まず質問文からキーワードを選び出し、「goo」でキーワード検索を行います。
この時点で検索結果はこれらのキーワードに適合するようにランキングされていますが、検索結果の上位にランクされたWebページに質問文の回答となるような情報が含まれていない場合もあります。
そこで、前述の質問文のタイプ分類技術によりユーザが求めている情報のタイプ(人名、地名、日付など)を判定し、そのタイプに合致する表現を検索結果に提示されている各Webページの概要文から抽出して、それらの表現が含まれているページには期待する回答が含まれている可能性が高いものとして、それらのページがより上位になるように検索結果の再ランキングを行います。
例えば「鉄腕アトムの誕生日は?」の場合には、"日付"に関する表現を含むページが上位にくるように、検索結果の再ランキングが行われます。 |
| (3) 高速固有表現抽出技術 |
| 「Web Answers」で用いられている人名、地名、日付などの質問文のタイプに分類される表現は固有表現と呼ばれています。
「Web Answers」では、NTT研究所が開発した高速固有表現抽出技術を用いて、検索結果の概要文から高速に固有表現を抽出し、検索結果の再ランキングに利用しています。
本技術では、固有表現を構成しうる単語のつながりパターンを自動学習し、コンパクトな形式で管理することによって、文章中から高速に固有表現を構成する単語列を抽出しています。 |
| (4) 評判検索技術・定義抽出技術 |
| 評判に関する質問や、用語の定義・人物のプロフィールに関する質問に対して、回答となりうる表現を抽出する技術です。
インターネット上の掲示板・ブログや、技術文書・用語集などのテキストデータを言語学的に分析して、事物に対する意見・評価を記述する評価表現や、用語の説明を記述する表現に関する言語知識データベースを構築し、このデータベースと評判らしさを判定する統計的な手法を組み合わせることにより、評判表現・定義表現抽出を実現しています。
|