【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法

2020-11-22 カテゴリー nlp, python, scikit-learn

scikit-learnのTfidfVectorizerではテキストを単語分割するためのtokenizerを与えることができます。日本語テキストを対象とする場合、日本語の形態素解析器であるMeCabのPythonラッパーが提供するTaggerを利用したオブジェクトをtokenizerと指定することがあるのではないでしょうか。 tokenizerにTaggerオブジェクトを指定したTfidfVectorizerをpickleで保存するとエラーが出てしまい、ファイルに書き出すことができません。本記事ではMeCabのTaggerオブジェクトを活用したtokenizerによってテキストを単語分割するTfidfVectorizerをpickle化するための方法を紹介します。本記事を読むことで独自に定義したクラスをpickleするための方法について理解できます。

【自然言語処理】scikit-learnでtfidfとそれ以外の特徴量を組み合わせる

2020-11-21 カテゴリー python, scikit-learn, nlp

本記事ではscikit-learnを用いて自然言語処理モデルを構築する際に、tfidfに加えてそれ以外の特徴量を利用する方法をサンプルコード付きで紹介します。 scikit-learnで自然言語処理モデルを構築する際は、scikit-learnで用意されているクラスを用いて簡単にテキストをtfidfベクトルに変換することができます。さらにscikit-learnでは種類の異なる特徴を容易に組み合わせるためのAPIも提供しています。このAPIを用いることでtfidfに加えて、独自で実装した特徴量を考慮できます。本記事を読むことで、独自の特徴を抽出するクラスを定義する方法に加えて、複数の特徴を組み合わせて利用するための方法を理解できます。

【自然言語処理】文書分類に特化したPythonライブラリを作り始めました【プログラムほぼ不要で使えます】

2020-10-31 カテゴリー python, nlp, pytorch, scikit-learn

本記事では文書分類に特化した自然言語処理ライブラリの開発について紹介します。文書分類器一つを作るにも、前処理、開発、評価といった一連のプログラム開発に加えて、ニューラルネットワークに基づくモデルとそれ以外の機械学習アルゴリズムのどちらが良いのかといった比較を検討する必要もあったりと、かかる手間は少なくありません。そこで、これらのプログラム開発をできるだけ簡易化するために開発した自然言語処理ライブラリを紹介します。本記事を読むことで簡単に文書分類器を構築するためのライブラリの利用方法を理解できます。

【機械学習】scikit-learnで学ぶstacking

2020-03-29 カテゴリー machine_learning, scikit-learn, python

stackingはアンサンブル学習と呼ばれる機械学習の一種で、他の機械学習に基づく複数の予測モデルの出力を入力の一部として扱い、予測モデルを構築します。単純なアルゴリズムであるのにもかかわらず、何かしらの分類器単体よりも高い予測精度を得やすく、予測精度を競うようなコンペにおいて良く用いられています。本記事ではscikit-learnのバージョン0.22で導入されたStackingClassifierの使い方について紹介するとともに、学習時の挙動を紹介します。本記事を読むことでscikit-learnでのstackingの学習の流れを理解できます。

scikit-learnのソースコードリーディング（ナイーブベイズ分類）

2013-11-10 カテゴリー python, machine_learning, scikit-learn

個人的にはプログラミングの勉強は写経が一番頭に入る気がする、ということで読んでいた。気になったところデータに正規分布を仮定したときのナイーブベイズ分類器について。平均を$\mu$、分散を$\sigma^2$としたときの正規分布は \[ p(x;\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \{\exp{-\frac{(x-\mu)^2}{2\sigma^2}}\} \] これのlogをとると、 $$ \begin{eqnarray} \log p(x;\mu, \sigma^2) &=& \log \{\frac{1}{\sqrt{2\pi \sigma^2}} \{\exp{-\frac{(x-\mu)^2}{2\sigma^2}}\}\} \\\ &=& -\frac{1}{2}\log (2\pi \sigma^2) - \frac{(x-\mu)^2}{2\sigma^2} \end{eqnarray} $$ ナイーブベイズ分類器の対数尤度関数は、データがK次元ベクトルで表現されていて、それがN個あるとすると、 $$ \begin{eqnarray} \log L(X, Y; \mu, \sigma) &=& \log(\prod_{n=1}^N p(\mathbf{x}_n, y_n))\\\ &=& \log(\prod_{n=1}^N p(y_n)p(\mathbf{x}_n|y_n))\\\ &=& \sum_{n=1}^N \log p(y_n) + \sum_{n=1}^N \log p(\mathbf{x}_n|y_n)\\\ &=& \sum_{n=1}^N \log p(y_n) + \sum_{n=1}^N \sum_{k=1}^K\log p(x_{nk}|y_n)\\\ &=& \sum_{n=1}^N \log p(y_n) + \sum_{n=1}^N \sum_{k=1}^K \{-\frac{1}{2}\log (2\pi \sigma_{y_nk}^2) - \frac{(x_{nk}-\mu_{y_nk})^2}{2\sigma_{y_nk}^2}\} \end{eqnarray} $$

【Python】MeCabのTaggerオブジェクトを持つ単語分割器をpickleで保存する方法

【自然言語処理】scikit-learnでtfidfとそれ以外の特徴量を組み合わせる

【自然言語処理】文書分類に特化したPythonライブラリを作り始めました【プログラムほぼ不要で使えます】

【機械学習】scikit-learnで学ぶstacking

scikit-learnのソースコードリーディング（ナイーブベイズ分類）

Takuya Makino