Robust Disambiguation of Named Entities in Text (EMNLP 2011)
Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Furstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, Gerhard Weikum
proceeding: pdf
解いている問題
- Named entity disambiguationをする
- Collective disambiguationは、意味的に似た文脈に現れるentityを含むmentionがあるときにはうまくいく
- mentionが短かったり、あまり関連しないトピックについてのものだとうまくいかない
-
+ e.g. MadridでManchesterとBarcelonaの試合があった
+ Madridは本当はLOCATIONだけど、ORGANIZATIONと判定される
アプローチ
- priorとcontext similarityとcoherenceの3つの要素の線形結合からなる関数をもとに、重み付きエッジからなるグラフをつくる
-
+ priorは、mentionに含まれる表現が一般的にentity e_jである確率
+ context similarityはmentionとentityの文脈類似度
+ coherenceは他のmentionのentityとの意味的な近さ
-
+ Wikipediaの二つの記事にともにリンクを張っている記事の数をもとにした指標
-
+ サブグラフは、一つのmentionが一つのentityとエッジをもつ
+ サブグラフは、ノードに貼られたエッジの重みの総和(weigted degree)の最小値を最大化するようにつくる
+ サブグラフに含まれるエッジの重みの総和を最大化するシンプルな戦略は支配的なentityがあるとうまくいかない
-
+ Michael Jordanみたいな支配的なentityがあるとlong tailに位置するentity disambiguationがうまくいかない
-
こうすると準最適な解に陥ることがあるので前処理でmentionとの距離が遠いentityは削除
- prior, context similarity, coherenceの3つの要素をうまいこと使ってrobustなモデルになっているらしい