Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Furstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, Gerhard Weikum

proceeding: pdf

解いている問題

  • Named entity disambiguationをする
  • Collective disambiguationは、意味的に似た文脈に現れるentityを含むmentionがあるときにはうまくいく
  • mentionが短かったり、あまり関連しないトピックについてのものだとうまくいかない
    + e.g. MadridでManchesterとBarcelonaの試合があった + Madridは本当はLOCATIONだけど、ORGANIZATIONと判定される

アプローチ

  • priorとcontext similarityとcoherenceの3つの要素の線形結合からなる関数をもとに、重み付きエッジからなるグラフをつくる
    + priorは、mentionに含まれる表現が一般的にentity e_jである確率 + context similarityはmentionとentityの文脈類似度 + coherenceは他のmentionのentityとの意味的な近さ
      + Wikipediaの二つの記事にともにリンクを張っている記事の数をもとにした指標
+ グラフの中からサブグラフを選択
    + サブグラフは、一つのmentionが一つのentityとエッジをもつ + サブグラフは、ノードに貼られたエッジの重みの総和(weigted degree)の最小値を最大化するようにつくる + サブグラフに含まれるエッジの重みの総和を最大化するシンプルな戦略は支配的なentityがあるとうまくいかない
      + Michael Jordanみたいな支配的なentityがあるとlong tailに位置するentity disambiguationがうまくいかない
+ サブグラフの選択は、NP困難なので近似的なアルゴリズムをつかって問題を解く + アルゴリズムは反復的にweighted degreeが小さなentity nodeを削除する + ただし、必ずすべてのmentionがいずれかのentityとエッジを一つ持つようにする
    こうすると準最適な解に陥ることがあるので前処理でmentionとの距離が遠いentityは削除
  • prior, context similarity, coherenceの3つの要素をうまいこと使ってrobustなモデルになっているらしい

関連記事



最近の記事