文書要約メモ(ACL2013)
acl anthologyよりロングペーパーとして 採択された論文の中からSummarizationをタイトルに含む論文を探して概要だけを読んだときのメモ。
Fast and Robust Compressive Summarization with Dual Decomposition and Multi-Task Learning (P13-1020.pdf)
概要
- 複数文書要約のための文選択、文圧縮を同時におこなうモデルを使った双対分解を提案。
- 先行研究のIneger Linear Programmingに基づいた手法と比べると
- 提案手法はソルバーを必要としない
- 提案手法は有意に速い
- 提案手法は簡潔さ・情報の豊富さ・文法のきれいさが優れている
- さらに既存の抽出型要約、文圧縮の要約データを活用したマルチタスク学習を提案する
- TAC2008のデータで実験をおこなって今までで一番高いROUGE値となった。
Using Supervised Bigram-based ILP for Extractive Summarization (P13-1099.pdf)
概要
- Integer Linear Programmingによる抽出型文書要約において、bigramの重みを教師有り学習により推定する
- regression modelによってbigramが参照要約の中でどれくらいの頻度で出現するかを推定。
- 学習では、参照要約中での真の頻度との距離が最小になるように学習をする
- 選択されるbigramの重みの総和が最大になるように文選択をおこなうような定式化をしている
- 提案手法は既存のILPな手法と比べてTACのデータにおいて良い性能であることと、TACのbestだったシステムとの比較結果を示す
Summarization Through Submodularity and Dispersion (P13-1100.pdf)
概要
- Linらのサブモジュラな手法を一般化することにより新たな最適化手法を提案する
- 提案手法では要約にとって欲しい情報はサブモジュラ関数と非サブモジュラ関数の総和で表される。この関数をdispersionと呼ぶ
- 非サブモジュラ関数は要約の冗長性を除くために文同士の様々な似ていなさの度合いを図るために使う
- 三つのdispersion関数を使って、全部の場合で貪欲法を使っても最適解が得られることを示す
- DUC 2004とニュース記事に対するユーザのコメントを使って実験
- サブモジュラ関数だけを使ったモデルよりも良い性能であることを示す
Subtree Extractive Summarization via Submodular Maximization (P13-1101.pdf)
概要
- @Pnnc205jさんの論文
Towards Robust Abstractive Multi-Document Summarization: A Caseframe Analysis of Centrality and Domain (P13-1121.pdf)
概要
- 文書要約において中心性とは元の文書の核となる部分を含むべきだということ
- 既存の手法は冗長性を除いたり文圧縮をおこなうことで中心性を得ようと試みている
- この論文では元文書のドメインを活用することで文書要約が、抽象型要約に向けてどれくらいこのようなパラダイムから前進できるかを調査する
- 実験ではcaseframeという意味的なレベルで人手の要約とシステムの要約の近さを図る
- 提案手法は
- より抽象的で、文のまとめあげをおこなう
- topicalなcaseframeを他のシステムほど含まない
- 元文書だけから再構築はできないけど、同じドメインの文書を加えればできる
- 実験結果は、本質的な改善は中心性を最適化するための式を作ることよりも、ドメイン知識が必要であることを示唆している
A Sentence Compression Based Framework to Query-Focused Multi-Document Summarization (P13-1136.pdf)
概要
- クエリ指向型複数文書要約のための文圧縮を使った手法を提案する
- 構文木に基づく文圧縮モデル
- ビームサーチのデコーダを提案。効率的、高圧縮。
- 圧縮するためのスコア関数にどうやって言語的な特徴やクエリとの関連性を組み込むのかを示す
- DUC 2006, DUC 2007のstate-of-the-artよりも有意によくなることを示す
Domain-Independent Abstract Generation for Focused Meeting Summarization (P13-1137.pdf)
概要
- ドメイン知識を使わずに会議の対話ログの抽象型要約をおこなう
- Multiple-Squence Alignmentという他のドメインにも使いまわせる抽象的な要約のテンプレートを使う
- Overgenerate-and-Rankというものを候補の生成、ランキングに使うらしい