goo

ラボ
次世代の検索機能を体感
NTT

gooラボ
ラボ > 日本語自然文検索実験 > 日本語自然文検索実験について
日本語自然文検索について

日本語自然文検索実験サービスについて

「日本語自然文検索実験サービス」(以下「本実験」)は、NTTレゾナントとNTTサイバーソリューション研究所(以下、NTT研究所)が共同で実施しているものです。
本共同実験の目的は、NTT研究所が開発した高度テキスト解析技術を適用した日本語自然文検索サービス「Web Answers」を、NTTレゾナントが運営するポータルサイト「goo」において実商用環境での検証を行うことです。 また、本実験は、NTTとNTTレゾナントが、NTT研究所で開発された新技術を活用し、先進的なサービスの可能性を社会に提示することを目的として開設した「gooラボ」の第二弾実験でもあります。
本実験の利用に際しては高度な知識は必要なく、通常のウェブブラウザを介してご利用いただけます。

日本語自然文検索の機能説明

本実験サービスでは、日本語の質問文に対してgooサーチエンジンの検索結果を用いて回答を提示します。 例えば「2008年のオリンピックの開催地はどこ?」という質問に対して「北京」と回答します。 また、回答を提示するだけでなく、回答が含まれていると思われるページが検索結果の上位にくるように検索結果を再ランキングして提示するので、回答が提示されない場合でもより回答を見つけやすくなります。

日本語自然文検索のキー技術は? − 高度テキスト解析技術 −

高度テキスト解析技術は、以下の3つの技術で構成されています。特に、高速固有表現技術は、インターネットを対象とした検索において、ユーザが求める情報を即座に提供するために不可欠なキー技術です。
(1)質問文のタイプ分類技術
例えば「鉄腕アトムの誕生日はいつ?」と尋ねると、本システムでは質問で求められている情報のタイプが誕生日の"日付"であると理解します。 質問文のバリエーションには多様なパターンが存在するため、そのタイプ分類を適切に行うルールを人手で作成することは困難でした。しかし、本技術では質問文のログをテキストマイニング技術を用いて解析することにより、質問文の頻出パターンを抽出したり、単語の意味の分類(「誕生日」の意味属性は"日付")を大規模な日本語語彙の知識ベースである日本語語彙体系と照らし合わせ、「誕生日」と「生年月日」など表現が異なる語でも同じ意味として扱うことができ、自動学習のさらなる効率化を進め、入力された質問文の意味をより正しく理解することを可能としました。
(2) Webページ再ランキング技術
「Web Answers」では、質問文が入力されると、まず質問文からキーワードを選び出し、「goo」でキーワード検索を行います。 この時点で検索結果はこれらのキーワードに適合するようにランキングされていますが、検索結果の上位にランクされたWebページに質問文の回答となるような情報が含まれていない場合もあります。 そこで、前述の質問文のタイプ分類技術によりユーザが求めている情報のタイプ(人名、地名、日付など)を判定し、そのタイプに合致する表現を検索結果に提示されている各Webページの概要文から抽出して、それらの表現が含まれているページには期待する回答が含まれている可能性が高いものとして、それらのページがより上位になるように検索結果の再ランキングを行います。 例えば「鉄腕アトムの誕生日は?」の場合には、"日付"に関する表現を含むページが上位にくるように、検索結果の再ランキングが行われます。
(3) 高速固有表現抽出技術
「Web Answers」で用いられている人名、地名、日付などの質問文のタイプに分類される表現は固有表現と呼ばれています。 「Web Answers」では、NTT研究所が開発した高速固有表現抽出技術を用いて、検索結果の概要文から高速に固有表現を抽出し、検索結果の再ランキングに利用しています。 本技術では、固有表現を構成しうる単語のつながりパターンを自動学習し、コンパクトな形式で管理することによって、文章中から高速に固有表現を構成する単語列を抽出しています。
(4) 評判検索技術・定義抽出技術
評判に関する質問や、用語の定義・人物のプロフィールに関する質問に対して、回答となりうる表現を抽出する技術です。 インターネット上の掲示板・ブログや、技術文書・用語集などのテキストデータを言語学的に分析して、事物に対する意見・評価を記述する評価表現や、用語の説明を記述する表現に関する言語知識データベースを構築し、このデータベースと評判らしさを判定する統計的な手法を組み合わせることにより、評判表現・定義表現抽出を実現しています。

どんな質問にも答えられますか?

「Web Answers」では、質問に対して回答を提示できない場合もありますし、回答が間違っている場合もあります。 しかし、回答を含むと思われるWebページのリストを表示しますので、それらの文書のタイトルや概要文から、質問に対する回答が含まれているかをユーザが判断することができます。
もし質問文のタイプ分類に失敗した場合には、回答種別を直接指定することにより、正しい回答を得られる可能性を高くすることができます。
例えば、「1985年のセ・リーグの優勝チームはどこ?」という質問に対して、システムは「場所」または「Webサイト」を尋ねられたと判断してしまう場合があります。 この場合、ユーザが回答の種類を「組織名」と指定すると、回答候補リストの中に阪神タイガースが含まれるようになります。 また、回答候補をクリックすると、入力された質問文を考慮して、その回答候補を検索キーワードとした検索を行いますので、より的確に回答の根拠がわかるWebページを検索することができます。

gooトップ gooサイトマップ gooヘルプ
NTT Copyright:(C) 2005 NTT All Rights Reserved.

goo Copyright:(C) 2005 NTT Resonant Inc. All Rights Reserved.