N-best解の探索

2016-01-31 カテゴリー golang, nlp

系列ラベリングなどで最適なパスを探索する方法はビタビアルゴリズムで効率的に求められる。上位N個のパスを探索する方法はビタビアルゴリズムと、A*アルゴリズムで効率的に求められる。日本語入力を支える技術　～変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus) の説明が分かりやすい。理解するために実装してみた。

並列での学習アルゴリズムの追加

2015-08-31

拙作のgonlineに並列での学習もサポートするようにした。分散環境での学習は手間がかかりそうだったので並列での学習のみとしている。並列での学習にはIterative Parameter Mixture (pdf)を提供している。シングルコアで学習するよりは速いんだけど、モデルの平均を取る時のボトルネックが大きくて、学習データの量がそれほど多くない場合はあまり効果がなさそう (以下の実験では人工的に学習データを増やしている)。CPU数を増やすと、平均を計算するコストが大きくなるので単純に学習が速くなるわけではない。平均を取るときも、二分木にして並列化をしているが O(N)がO(log N)になるくらいなので、CPUの数が少なければ平均の計算がとても速くなるわけでもない。 CPUは、1.7 GHz Intel Core i5を利用して、4コア利用時の学習速度とシングルコア利用時の学習速度をと比較してみる。 $wc -l news20.scale 15935 news20.scale $touch news20.scale.big $for i in 1 2 3 4 5; do cat news20.scale >> news20.scale.big; done $wc -l news20.scale.big 79675 news20.scale.big $time ./gonline train -a arow -m model -i 10 -t ./news20.t.scale -withoutshuffle -p 4 -s ipm ./news20.scale.big ./gonline train -a arow -m model -i 10 -t ./news20.t.scale -withoutshuffle -p 272.

オンライン学習の実装いろいろ

2015-07-17

最近はNLPなデモをgolangで実装して人に見せることが多くなってきた。その時に、さっと使える機械学習ライブラリが欲しかったので、勉強がてら実装した。実装が簡単で学習が速いオンライン学習手法を実装した。 gonline パーセプトロンから、Confidence WeightedやAROWまでを提供している。各アルゴリズムは多値分類が可能なように拡張している。 news20 を使って評価はしたのだけどこちらの論文と比べると精度が低めになっているので、もしかしたら実装が怪しいかもしれない (パラメータチューニングをしていないだけの問題かもしれない)。 SCWはいつか実装する。 golangらしく？github releaseでバイナリの配布もしている (今回初めてやってみた)。これを使えば、とりあえず何も考えずに分類器を学習させて予測することができる。

二つの集合に重複して現れる要素の数を数える

2014-11-08 カテゴリー golang

go言語で書いた (gist)。集合の要素は前もってソートしておいて、比較回数を減らしている。

Goで日本語の文書を前処理して分類器を学習するところまでやってみる

2014-10-20

概要日本語の文書を単純な方法で分類器を学習するところまでの一連の処理をGoでやってみる。分類器は何でも良いのだけど、先日書いたAdaGrad+RDAを使う。ラベルが付いた日本語のデータがあるという前提で、以下の流れで進める。文書を文に分割する。今回は「。」で区切る。文を形態素解析して名詞や動詞(表層形)を取り出し、文書をある単語を含む、含まないの二値で表現した素性ベクトルに変換する。訓練データを使って分類器を学習して、できたモデルの中身を見てみる。データ下記URLから得られるテキストの一部を使って、ラベルをそれぞれ、「スポーツ」、「政治」、「Go言語」とラベルを付与し、第一カラムをラベル、第二カラムを文書としたCSVに保存しておく。本田圭佑:セリエＡ日本人４人目マルチ!惨敗ブラジル戦憂さ晴らし観劇収支ズレどう説明、公私混同疑いも…小渕氏古いプログラミング言語がなくならない理由 $cat data.csv スポーツ,ＡＣミランＦＷ本田圭佑（２８）が１９日のアウェー、ベローナ戦で... 政治,渕経済産業相が関連する政治団体の資金処理問題で、最も不透明と指摘されて... Go言語,編集者とこの本を5000部売れたらなという話をしたのをなんとなく覚えている。... …以降は省略している。ソースコード mecab.go (gist) text.go (gist) 動かしてみる $./text data.csv > data $cat data スポーツ２:1.000000 スルー:1.000000 本田:1.000000 セリエＡ:1.000000 アルゼンチン:1.000000... 政治円:1.000000 なる:1.000000 者:1.000000 向け:1.000000 会:1.000000 収支:1.000000... Go言語処理:1.000000 ため:1.000000 Go:1.000000 編集:1.000000 5000:1.000000... …以降は省略している。これで、dataファイルに素性ベクトルが書き込まれる。次に分類器を学習する。 $./adagrad -f data -m learn -w model できあがったモデルの中身を見てみる。 $cat model|grep "^スポーツ"|sort -k3 -nr|head スポーツカルロス・テベス 0.

AdaGrad+RDAをGoで書いた

2014-10-18

論文はこちら。 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization ソースコードはこちら。多値分類問題にも対応できるようにした。二値分類問題と比べてヒンジ損失が少し変わる(ので重みの更新も二値分類の場合とと少し違う)。データを次のように作成。 $perl -MList::Util=shuffle -e 'print shuffle(<>)' < ../data/news20.binary > news $head -15000 news > news.train $tail -4996 news > news.test 例えばこのデータは素性の値が0.04くらいなので、その平均を取ると0.01よりも小さくなるため、式(24)中の右辺の第三項が0になり、ほとんどすべての重みが0になってしまう。正則化項の重み(c)をもう少し小さくしてやると、次の結果になった(本当は論文のように交差検定をして決めてやったほうが良いけど、人手でチューニング)。 $./adagrad -f news.train -m learn -w model -l 1 -c 0.01 $./adagrad -f news.test -m test -w model -l 1 -c 0.01 Recall[-1]: 0.011142 (28/2513) Prec[-1]: 0.848485 (28/33) -- Recall[+1]: 0.997986 (2478/2483) Prec[+1]: 0.499295 (2478/4963) -- Acc: 0.

PA-IIをGoで書いた

2014-10-18

論文はこちら。 Online Passive-Aggressive Algorithms ソースコードはこちら。下の関数でおこなわれている重みの更新以外はほとんどパーセプトロンと一緒です。 func (p *PassiveAggressive) Update(X map[string]float64, y string, sign float64) Weight { loss := math.Max(0, 1-sign*Dot(X, p.weight[y])) // tau := loss / Norm(X) // PA tau := loss / (Norm(X) + 1 / (2 * p.C)) // PA-II if _, ok := p.weight[y]; ok == false { p.weight[y] = map[string]float64{} } for f, _ := range X { if _, ok := p.weight[y][f]; ok { p.

N-best解の探索

並列での学習アルゴリズムの追加

オンライン学習の実装いろいろ

二つの集合に重複して現れる要素の数を数える

Goで日本語の文書を前処理して分類器を学習するところまでやってみる

AdaGrad+RDAをGoで書いた

PA-IIをGoで書いた

Takuya Makino