It takes a long time to become young.

Sun Jul 7, 2013 in using tags paper

若くなるのには時間がかかる。これは画家パブロ・ピカソが言ったとされる格言で いきなり聞くと何を矛盾したことを言ってるのだろうと思うかもしれないけどこの論文を読むとなかなか 深い言葉であると思う。

Cristian et al., No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities, WWW 2013. (Best Paper Award)

proceeding(pdf), slide(pdf)

今回のすずかけ台でおこなっている読み会ではこの論文を紹介した。 すごくしゃれおつなスライドを公開しているのだけどスライドにしてはサイズが大きい(80MBある)ので読み込みに時間がかかる。 タイトルの通り、(BeerAdvocate、RateBeerなどの)オンラインコミュニティにおいて よく使われる流行りの単語などの変化と、ユーザがどれくらいそのコミュニティを活用するか の関係を調べている。

nocountryforoldmembers
※著者スライドより

コミュニティの言葉の変化とユーザの年齢ごとの反応をオンラインでない現実の話を例とすると、若いうちは周りの大人の言葉 を真似したり、流行りの言葉をよく使うため言葉の変化には柔軟だけど、いい年齢になってくると流行りの言葉をあまり使わなくなって 言葉の変化には適応しなくなるというもの。 実はこれはオンラインのコミュニティでも同じようなことが起きていて、オンラインコミュニティに 参加したばかりのころはユーザはそのコミュニティでよく使われている言い回しを真似て使うようになり、 流行っている言い回し、言葉を積極的に使う。 ところがある程度の時期が経つと、ユーザは新しく流行りだした言葉をあまり積極的に使わなくなってしまう (そして退会へ) 。 例えば、昔からいるユーザはビールのレビューで香りに関する批評を書くときにはAroma: spicy…などと書くのだけど 参加して日が浅いユーザはS: spicy…などと書く。コミュニティ全体としては年を追う毎にS:という表記で ビールの香りの批評を書く割合が高くなるのだが、古参ユーザは頑としてAroma:を使っているらしい。 つまり歳をとると新しい変化に適応しなくなってしまう (あるいはできなくなる?) 、という誰も避けられない悲しい性。 いくつになっても新しいものに柔軟な若い考え方であり続けたパブロ・ピカソのような人が天才と呼ばれるんですね、深い。

このような特徴を利用してユーザがオンラインコミュニティを退会するかどうかを予測する分類器を学習させて既存の 特徴量を使ったときよりも良い性能となることを示している。社会言語学的な洞察を利用した面白い論文だった。 論文のintroducitonにいきなりタイトルの格言が登場してきたりスライドといい、なんかおしゃれだと思った。

以下、スライドを見ながら取ったメモ。

取り組む課題

  • ユーザはどのようにコミュニティの一員になるのか
  • ユーザとコミュニティはどのように共に成長していくのか
  • ユーザがコミュニティを退会することを予測できるのか

アイディア

コミュニティで使われる言葉の変化、各々のユーザが使う言葉の変化を見ることによってコミュニティとユーザの関係を捉える。

アプローチ (取り組む課題と対応)

  • 言葉の変化を捉えるための統計的なフレームワークを提案する
  • 言葉の変化に対するユーザの反応を定量化する
  • ユーザがコミュニティを退会することを予測するために有効な素性を提案する

長期的なデータ

  • BeerAdvocate
  • RateBeer

言葉の変化の例: puzzle

香りの議論の導入で使われる二つの慣例 (Aroma & S) の例。2001 ~ 2003でAromaがピーク。2003からSmellが伸び始めて、Aromaよりも使われるようになる。この変化は新規ユーザに与える影響とは異なった形で古参ユーザに影響している。全体としては近年になるほどSが使われているのに、古参ユーザはAromaを使いたがり、Sを全然使わない。つまり、この慣例の変化は新規ユーザが起こしていることを示している。

コミュニティレベルでの変化、ユーザレベルでの変化

コミュニティレベルでの変化の例: TwitterにおけるRTの慣例、ヒップホップのフォーラムにおける俗語 ユーザレベルでの変化の例: ユーザはレビューの数をこなすほど一人称表現の使用が少なくなる。

二つの変化の関係

ユーザのコミュニティからの距離を、同じ時期におけるユーザの投稿とコミュニティの言語モデルのとして測る。具体的にはあまりコミュニティで使われていないバイグラムが多いほど距離が遠くなる。

Stage1:

ユーザはコミュニティの言葉に順応する

Stage2:

ユーザの言葉はコミュニティの言語モデルと遠ざかる

仮説

  1. ユーザは新しい言葉を使うようになって距離が遠くなる
  2. ユーザは適応することをやめ、変化するコミュニティに合わせなくなる

検証

ユーザの言葉を、そのユーザの過去の言葉と比べてみると、ユーザの活動期間が長くなったときはほとんど距離が変動しなくなる(古参ユーザが使う言葉はあまり変化しない)。つまり、ユーザは適応することをやめている。

lexical innovationへの適応

  • コミュニティでは毎月だいたい100のlexical innovation (新しくコミュニティで使われ始めた単語) がある
  • 新たな語彙の登場後、3ヶ月以内にその語彙を使っていたらユーザはlexical inovationに適応しているとする

puzzle answer

  • ユーザは若いほど適応する確率が高い。新規ユーザがAromaよりSを使うことと一致。
  • ユーザは古参なほど適応する確率が低い。古参ユーザがSよりAromaを使うことと一致。

User lifecycle (summary)

オンラインでの言語的なlifecycle

  • 0%: ユーザはコミュニティに参加
  • Stage 1: コミュニティでの慣例に適応
  • 30%: 最も変化に適応する時期
  • Stage 2: 使う言葉が単調になる
  • 100%: 退会

オフラインでの言語的なlifecyclce [Labov, 1966]

  • 誕生: リアルなコミュニティに属する
  • Stage 1: コミュニティとの言語的な同化(小さい子供が周りの大人の言葉を真似して使う感じ)
  • 17歳: コミュニティの慣例に最も適応する時期
  • Stage 2: 大人になって使う言葉が安定する

17歳というのは絶対的な時間であるのだけど、それは生理学的な影響によるものらしい。一方、30%というのは相対的な時間で、これはコミュニティにおける影響であると考えられる。

Elastic lifecycle

  • ilfecycleはユーザの最終的なlifespanに依存して伸縮する。すぐ退会するユーザでも長く活動するユーザでもlifecycleは同じような山の形をする。
  • Stage 1の終了はユーザの最終的なlifespanの関数である。これは60 reviewをしたらStage 1が終わる、あるいは1年活動したらStage 1が終わる、などの絶対期な時間ではないということ。
  • 適応する度合いはユーザの最終的なlifespanと関係している。これは長く活動するユーザほど適応する確率が高いことを言っている。

これらの特徴を利用してユーザの最終的なlifespanを予測する。

Predicting user lifespan

Task

最初の20の投稿が与えられた時に、ユーザがすぐに退会するかどうかを予測する。

Linguistic change features:

  • コミュニティの言語モデルとの距離
  • そのユーザの言葉の安定性
  • lexical inovationへの適応

Baselines:

  • 投稿の頻度
  • 月ごとの投稿の割合

Logistic regressionを使う。一つのコミュニティで訓練して、他のコミュニティでテストする。

結果

最大でBaselineよりも12ポイント高い

結論

  • 言語の変化を捉えるフレームワークの提案した
  • 相対的な二段階のlifecycleを示した
  • ユーザの退会予測に取り組んだ
  • ユーザとコミュニティの共同的な進化を分析した