【自然言語処理】公開されているデータセットを簡単に使うライブラリ (nlp) の紹介

2020-05-17 カテゴリー nlp, python

huggingfaceから自然言語処理でベンチマークによく用いられるデータセット (数は本記事公開時点で98) を容易に利用するためのライブラリ nlp が公開されました。本記事ではこのライブラリの特徴と利用方法をご紹介します。

【PyTorch】DataLoaderのミニバッチ化の仕組み

2020-05-02 カテゴリー python, pytorch

PyTorchではDataLoaderを使うことで読み込んだデータから自動でミニバッチを作成することができます。 DataLoaderを使いこなすことで、ニューラルネットワークの学習部分を簡単に書くことができます。本記事ではPyTorchのDataLoaderがミニバッチを作成する仕組みについて解説します。

【PyTorch】Version1.5でTPUを利用する方法

2020-04-26 カテゴリー python, pytorch, xla, tpu

PyTorchのVersion1.5.0がリリースされました。いくつかの変更がされていますが、その中の一つが、PyTorchでXLAの利用が可能となったというものです。 XLAを利用できると、PyTorch実装をTPU上で実行できるようになります。本記事ではPyTorch1.5.0を使ってGoogle ColabのTPUを利用できるようになるところまでの流れを説明します。

【Python】自作ライブラリのパッケージング方法

2020-04-19 カテゴリー python

自分で開発したPythonプログラムを再利用しやすいように、ライブラリとして整備したいことがあると思います。本記事ではPythonプログラムをライブラリ化するための手順を解説します。Pythonプログラムののモジュール化に加えて、コマンドラインを作成する方法についても触れます。

【Python】zip, zip_longestの違い、同じ長さの入力を前提としたzip_longestの使用

2020-04-07 カテゴリー python

本記事ではPythonにおいて複数の入力を列挙する関数であるzip、zip_longestおよびそれらの違いを紹介します。また、これらの関数は入力の長さが異なっていても動作するため、同じ長さを保証するように入力の要素を列挙する方法も紹介します。

【PyTorch】限られたメモリにおける大きなバッチサイズでの学習

2020-04-05 カテゴリー pytorch, machine_learning, python

ニューラルネットワークの学習ではミニバッチ学習という複数の学習事例に対して得られる損失の総和を最小化するようにパラメータを更新します。バッチサイズは計算機のメモリ容量に応じて人が決める値ですが、 BERTはバッチサイズを大きくしたほうが学習が安定しやすいという報告があります。しかし、デバイスのメモリに載りきらないサイズでは学習中にメモリーエラーを起こしてしまいます。本記事ではPyTorchコードを使って、メモリ容量が限られた環境でも大きなバッチサイズでミニバッチ学習する方法を紹介します。

【機械学習】scikit-learnで学ぶstacking

2020-03-29 カテゴリー machine_learning, scikit-learn, python

stackingはアンサンブル学習と呼ばれる機械学習の一種で、他の機械学習に基づく複数の予測モデルの出力を入力の一部として扱い、予測モデルを構築します。単純なアルゴリズムであるのにもかかわらず、何かしらの分類器単体よりも高い予測精度を得やすく、予測精度を競うようなコンペにおいて良く用いられています。本記事ではscikit-learnのバージョン0.22で導入されたStackingClassifierの使い方について紹介するとともに、学習時の挙動を紹介します。本記事を読むことでscikit-learnでのstackingの学習の流れを理解できます。

【自然言語処理】公開されているデータセットを簡単に使うライブラリ (nlp) の紹介

【PyTorch】DataLoaderのミニバッチ化の仕組み

【PyTorch】Version1.5でTPUを利用する方法

【Python】自作ライブラリのパッケージング方法

【Python】zip, zip_longestの違い、同じ長さの入力を前提としたzip_longestの使用

【PyTorch】限られたメモリにおける大きなバッチサイズでの学習

【機械学習】scikit-learnで学ぶstacking

Takuya Makino