Named Entity Disambiguation in Streaming Data (ACL 2012)

2013-02-01

Alexandre Davis, Adriano Veloso, Algigran S. da Silva, Wagner Meira Jr., Alberto H. F. Laender proceeding: pdf 解いている問題名詞nを含む短いテキストが、あるエンティティeのことを指しているか、指していないかを当てる二値分類問題。課題 Twitterのようなmicro-blogのテキストは単語の数が少なく、暗号のように書かれていることもあるため、固有表現を認識することが難しいテキストの単語の数の少なさから、エンティティの周辺に共通して現れる文脈から特徴を学習することが難しいテキストが次々と流れてくるため、テキストを処理するために外部知識を参照していると処理が間に合わないテキストが次々とやってきて、テキストの傾向も変わるのでモデルがすぐにデータに合わなくなってしまう提案手法のモチベーション外部知識を参照している余裕がないなら、ストリーム中の（ラベルなしの）大量のテキストから得られる情報を使う。ラベルなしのテキストを負例として学習すると、負例の多さからモデルが過学習をおこし、大量のfalse-negativeが出てしまうおそれがある。 + 正例を作ることは比較的簡単だが、負例を作るのはコストがかかる。 + なので、EMアルゴリズムを使って二値分類器を反復的に洗練させるのがこの論文のアイディア。 + 具体的には、ラベルなしの事例が負例である確率を計算してラベル付きデータとして訓練データを増やす。 + このラベル付きの事例は各ステップでラベルを変更することができる。 + どの事例がどちらのラベルになるかは、最終的には収束して、観測データに最もフィットしたラベルに落ち着くことが期待される。曖昧性解消のアプローチ（良くない）シンプルな正例の作り方の例 Twitter中である会社と関連したアカウントあり、このアカウントのプロフィールに書かれたメッセージは、その会社名を含むメッセージである可能性がある。こんな感じで正例を集める方法が考えられるが、このやり方はfalse-positiveがないことを保証していない。 + つまり、本当はその会社のことを言及したメッセージではないのに、そのアカウントのメッセージなので正例とみなされていまう可能性がある。 + このようにして作成された訓練データを用いて学習したモデルの性能はそんなに上がることが期待できない。ラベルなしの事例の信頼性を上げて、訓練データとして扱うことでモデルの性能を上げるラベルなしの事例を扱うコストは、人手のアノテーションでラベル付きの事例を作成するコストより低い。具体的には、EMアルゴリズムを使う訓練データの初期状態としてありうる二つのパターン訓練データは真に正例の事例と、大量のラベルなしの事例からなる + ラベルなしのデータは最初、負例とみなされるのでfalse-negativeな事例を含む可能性がある + 訓練データはおそらく正例の事例と、大量のラベルなしの事例からなる + 正例は真に正例という保証はないので、false-positiveな事例を含む可能性がある + ラベルなしのデータは最初、負例とみなされるのでfalse-negativeな事例を含む可能性がある E-step

Named Entity Disambiguation in Streaming Data (ACL 2012)

Takuya Makino