Robust Disambiguation of Named Entities in Text (EMNLP 2011)

2013-02-16

Johannes Hoffart, Mohamed Amir Yosef, Ilaria Bordino, Hagen Furstenau, Manfred Pinkal, Marc Spaniol, Bilyana Taneva, Stefan Thater, Gerhard Weikum

proceeding: pdf

解いている問題

Named entity disambiguationをする
Collective disambiguationは、意味的に似た文脈に現れるentityを含むmentionがあるときにはうまくいく
mentionが短かったり、あまり関連しないトピックについてのものだとうまくいかない

+ e.g. MadridでManchesterとBarcelonaの試合があった + Madridは本当はLOCATIONだけど、ORGANIZATIONと判定される

アプローチ

priorとcontext similarityとcoherenceの3つの要素の線形結合からなる関数をもとに、重み付きエッジからなるグラフをつくる

+ Wikipediaの二つの記事にともにリンクを張っている記事の数をもとにした指標

+ グラフの中からサブグラフを選択

+ Michael Jordanみたいな支配的なentityがあるとlong tailに位置するentity disambiguationがうまくいかない

+ サブグラフの選択は、NP困難なので近似的なアルゴリズムをつかって問題を解く + アルゴリズムは反復的にweighted degreeが小さなentity nodeを削除する + ただし、必ずすべてのmentionがいずれかのentityとエッジを一つ持つようにする

こうすると準最適な解に陥ることがあるので前処理でmentionとの距離が遠いentityは削除

prior, context similarity, coherenceの3つの要素をうまいこと使ってrobustなモデルになっているらしい

関連記事

Joint Inference of Named Entity Recognition and Normalization for Tweets (ACL 2012)

2013-02-06

Named Entity Disambiguation in Streaming Data (ACL 2012)

2013-02-01

最近の記事

transformersのAutoModelで独自クラスを使う

2023-04-02 カテゴリー python, nlp, huggingface

【huggingface/datasets】複数のデータセットを組み合わせてサンプリングする

2023-01-30 カテゴリー python, nlp, huggingface

【Python】pre-commitを使ってコミット前にプログラムを自動検査する

2023-01-28 カテゴリー python, git, pre-commit

【自然言語処理】フリーで使える大規模な日本語テキストコーパス

2023-01-08 カテゴリー nlp

【Python】Poetryを使ったパッケージ管理

2022-12-31 カテゴリー python, poetry

Takuya Makino

自然言語処理の研究開発に従事しています。自然言語処理に関する研究から製品化に向けた開発に興味を持っています。本ブログでは自然言語処理、機械学習、プログラミング、日々の生活について扱います。詳細はプロフィールを御覧ください。

自然言語処理の研究開発に従事

Kanagawa, Japan