[PyTorch] Datasetの読み込みにかかるメモリ消費量を節約する

2020-03-08 カテゴリー pytorch, nlp, machine_learning

ニューラルネットワークを用いた自然言語処理では、大量のラベルなしテキストを利用した事前学習によって、目的のタスクの予測モデルの精度を改善することが報告されています。事前学習に用いるテキストの量が多いと、データを計算機上のメモリに一度に載りきらない場合があります。この記事ではPyTorchでニューラルネットワークの学習を記述する際に、テキストをファイルに分割して、ファイル単位でテキストを読み込むことで、計算機上で利用するメモリの使用量を節約する方法を紹介します。

[Python] scikit-learnで学ぶパーセプトロンによる文書分類入門

2020-03-03 カテゴリー machine_learning, python, nlp

この記事ではパーセプトロンを使って文書分類器を学習し、学習済みの分類器を使って文書を分類する流れをご紹介します。パーセプトロンはシンプルな分類アルゴリズムの一つである一方で、これを理解していると他の分類アルゴリズムを理解する助けになるため、初めて機械学習を学ぶ初学者の方にとってよい題材といえます。この記事に載せているプログラムはここにまとまっています。

[Python] Joblibのキャッシュを使って同じ計算を省略する

2019-10-06 カテゴリー joblib, python

本エントリではPythonのJoblibがもつキャッシュ機能によって同じ計算を省略し、処理を高速化するための方法を説明する。このエントリを読むことで、関数をキャッシュ可能にする方法、numpyのarrayをメモリーマップを使って読み込む方法、参照を使ってデータにアクセスする方法がわかる。

ニューラルネットの出力ベクトルを二値化して検索を高速化させる方法

2019-09-04 カテゴリー neural_network, acl2019, nlp, paper

自然言語処理において、ニューラルネットワークは文や単語を実数値の密ベクトル表現に変換し、得られた表現に基づいて目的のタスクを解くというアプローチが多い。自然言語処理のさまざまなタスクで高い精度を上げている一方で、テキスト検索などの高速な処理速度を要求されるような場面では密ベクトルを処理するのは速度が遅いなどの実用的な課題がある。自然言語処理に関する国際会議ACL 2019で発表された論文 ‘‘Learning Compressed Sentence Representations for On-Device Text Processing’’ (pdf) が、類似文検索タスクにおいて、検索精度をほぼ落とさずに、高速な検索がおこなえるように、文の表現を実数値ではなく、二値ベクトルで表現する方法を提案した。本記事ではこの論文でどういった技術が提案されているのかをまとめる。

Kaggle初参加記録

2017-07-29 カテゴリー kaggle, machine_learning

この一週間休暇を取っていて、多少の暇な時間があったので前から気になっていたKaggleに手を付けてみた。今回はチュートリアル的に公開されているtitanic号の生存予測タスクに参加した。他の参加者がブログで公開されている素性を参考に素性を設計した。予測モデルには以前C++で実装した平均化パーセプトロンを用いた。 Scoreが0.79426 (2017/7/29 16:00時点で1428位/7247位) となった。 Kaggleを続けると、機械学習に関するエンジニア能力が高まりそうで良い。

ゴールデンウィークの空き時間を使ってダブル配列を実装した

2017-05-06

このゴールデンウィークはまとまった休日を取ることができた。そこでこの休日 (の自分の自由時間) 中に自然言語処理界隈で有名な何かの実装に取り組んで、開発スキルの経験値をあげようと思いいたり、今まで何度も実装してみようと思って挫折してきたダブル配列を実装することを課題にしてみた。ダブル配列はTRIEを実装するためのデータ構造の一つとして有名であり、形態素解析器のMeCabなどで用いられている。入力がキーの集合に含まれるかどうかを調べる時間は、保存したキーの集合のサイズではなく、入力の長さに依存する。そのため、高速にキーを検索することができる。

SWIGを使ってPythonラッパーを生成する

2016-09-05 カテゴリー c++, swig

このエントリではSWIGを使ったPythonラッパーの生成をautomakeでおこなう方法を紹介する。

例えば自然言語処理でよく使われているMeCabやCRFsuiteなどのC++実装にはPythonラッパーが付属していることがある。C++実装を呼び出せるPythonラッパーがあれば、計算量が多くなりやすい機械学習部分だけC++で実装して、他の処理部分はPythonで手軽に書いて運用する、であるとかC++には不慣れであってもPythonなら使ったことがある、というユーザにも利用してもらう、といったことができるようになる。C++ではSWIGを用いて他の言語へのラッパーを生成することができ、MeCabやCRFsuiteなども、SWIGを使ってPythonラッパーを生成している。

またSWIGによるラッパーの生成の手続きは設定が面倒であったりするため、MeCabやCRFsuiteがおこなっているような、automakeで出来るだけ簡略化する作業も調べてまとめる。

[PyTorch] Datasetの読み込みにかかるメモリ消費量を節約する

[Python] scikit-learnで学ぶパーセプトロンによる文書分類入門

[Python] Joblibのキャッシュを使って同じ計算を省略する

ニューラルネットの出力ベクトルを二値化して検索を高速化させる方法

Kaggle初参加記録

ゴールデンウィークの空き時間を使ってダブル配列を実装した

SWIGを使ってPythonラッパーを生成する

Takuya Makino