【自然言語処理】文書分類に特化したPythonライブラリを作り始めました【プログラムほぼ不要で使えます】

2020-10-31 カテゴリー python, nlp, pytorch, scikit-learn

本記事では文書分類に特化した自然言語処理ライブラリの開発について紹介します。文書分類器一つを作るにも、前処理、開発、評価といった一連のプログラム開発に加えて、ニューラルネットワークに基づくモデルとそれ以外の機械学習アルゴリズムのどちらが良いのかといった比較を検討する必要もあったりと、かかる手間は少なくありません。そこで、これらのプログラム開発をできるだけ簡易化するために開発した自然言語処理ライブラリを紹介します。本記事を読むことで簡単に文書分類器を構築するためのライブラリの利用方法を理解できます。

【自然言語処理】LSTMに基づく文書分類 (PyTorchコード付き)

2020-09-06 カテゴリー nlp, python, pytorch, neural_network, machine_learning, google-colab

本記事では日本語を対象としたLSTMに基づく文書分類モデルをPyTorchコード付きで紹介します。以前、LSTMを用いた言語モデルについて紹介しました ( [自然言語処理] LSTMに基づく言語モデルの学習 (PyTorchコード付き) ) が、ニューラルネットワークを用いた自然言語処理の応用例として文書分類のほうがイメージしやすそうなので、こちらについても紹介したいと思います。実験にはライブドアコーパスから作成した、記事の見出しに対して9つのカテゴリのうち、どれか1つが付与されたデータを使います。本記事を読むことで日本語を対象に、ニューラルネットワークを活用した自然言語処理の概要を知ることができます。また、PyTorchで事前学習済みの単語分散表現を扱う方法も紹介しています。

【NVIDIA直伝】あなたのPyTorchプログラムを高速化するかもしれないTips

2020-08-29 カテゴリー pytorch, neural_network, machine_learning

本記事では画像認識系の国際会議 ECCV2020のチュートリアルでNVIDIAが発表した資料 PYTORCH PERFORMANCE TUNING GUIDE の内容をまとめるとともに、理解の助けになるような関連情報を参照します。 PyTorchは簡単にニューラルネットワークの実装のを容易さだけでなく、処理速度にも注意を払って開発が進められています。プログラムにほんの少し修正を加えるだけで高速化できる可能性があります。本記事を読み、実践することで、手元のPyTorchプログラム (特にGPUを使った学習処理) を高速化できる可能性があります。

【PyTorch】不要になった計算グラフを削除してメモリを節約

2020-08-22 カテゴリー pytorch, python

本記事ではPyTorchを使ったニューラルネットワークの学習において、不要な計算グラフを削除することでできるだけメモリを節約するための方法を紹介します。本記事を読むことで、少しでもGPUメモリの不足によるout of memoryエラーを減らしたり、よりバッチサイズを大きくしたりして学習を実施できるようになります。

【PyTorch】DataLoaderのミニバッチ化の仕組み

2020-05-02 カテゴリー python, pytorch

PyTorchではDataLoaderを使うことで読み込んだデータから自動でミニバッチを作成することができます。 DataLoaderを使いこなすことで、ニューラルネットワークの学習部分を簡単に書くことができます。本記事ではPyTorchのDataLoaderがミニバッチを作成する仕組みについて解説します。

【PyTorch】Version1.5でTPUを利用する方法

2020-04-26 カテゴリー python, pytorch, xla, tpu

PyTorchのVersion1.5.0がリリースされました。いくつかの変更がされていますが、その中の一つが、PyTorchでXLAの利用が可能となったというものです。 XLAを利用できると、PyTorch実装をTPU上で実行できるようになります。本記事ではPyTorch1.5.0を使ってGoogle ColabのTPUを利用できるようになるところまでの流れを説明します。

【PyTorch】限られたメモリにおける大きなバッチサイズでの学習

2020-04-05 カテゴリー pytorch, machine_learning, python

ニューラルネットワークの学習ではミニバッチ学習という複数の学習事例に対して得られる損失の総和を最小化するようにパラメータを更新します。バッチサイズは計算機のメモリ容量に応じて人が決める値ですが、 BERTはバッチサイズを大きくしたほうが学習が安定しやすいという報告があります。しかし、デバイスのメモリに載りきらないサイズでは学習中にメモリーエラーを起こしてしまいます。本記事ではPyTorchコードを使って、メモリ容量が限られた環境でも大きなバッチサイズでミニバッチ学習する方法を紹介します。

【自然言語処理】文書分類に特化したPythonライブラリを作り始めました【プログラムほぼ不要で使えます】

【自然言語処理】LSTMに基づく文書分類 (PyTorchコード付き)

【NVIDIA直伝】あなたのPyTorchプログラムを高速化するかもしれないTips

【PyTorch】不要になった計算グラフを削除してメモリを節約

【PyTorch】DataLoaderのミニバッチ化の仕組み

【PyTorch】Version1.5でTPUを利用する方法

【PyTorch】限られたメモリにおける大きなバッチサイズでの学習

Takuya Makino