【自然言語処理】Scheduled samplingによるニューラル言語モデルの学習

2020-07-19 カテゴリー nlp, neural_network, machine_learning

ニューラル言語モデルはこれまでのn-gram言語モデルと比較して流暢なテキストを生成することができます。ニューラル言語モデルの学習にはTeacher-forcingという方法がよく用いられます。この手法はニューラル言語モデルの学習がしやすい一方で、テキスト生成時の挙動と乖離があります。本記事では、Teacher-forcingを説明するとともに、この手法の課題を改善するための手法であるScheduled samplingを紹介します。

【自然言語処理】公開されているデータセットを簡単に使うライブラリ (nlp) の紹介

2020-05-17 カテゴリー nlp, python

huggingfaceから自然言語処理でベンチマークによく用いられるデータセット (数は本記事公開時点で98) を容易に利用するためのライブラリ nlp が公開されました。本記事ではこのライブラリの特徴と利用方法をご紹介します。

【自然言語処理】Kaggleコンペで利用されている文書分類のtips

2020-05-03 カテゴリー machine_learning, neural_network, kaggle, nlp

Kaggleの文書分類タスクにおける参加者のtipsがText Classification: All Tips and Tricks from 5 Kaggle Competitionsにまとまっていました。英語が前提になっているものの、参考になったので目を通し、概要をまとめました。また日本語を対象とした場合に参考になりそうな記事も挙げておきます。

【PyTorch】DataLoaderのミニバッチ化の仕組み

2020-05-02 カテゴリー python, pytorch

PyTorchではDataLoaderを使うことで読み込んだデータから自動でミニバッチを作成することができます。 DataLoaderを使いこなすことで、ニューラルネットワークの学習部分を簡単に書くことができます。本記事ではPyTorchのDataLoaderがミニバッチを作成する仕組みについて解説します。

【PyTorch】Version1.5でTPUを利用する方法

2020-04-26 カテゴリー python, pytorch, xla, tpu

PyTorchのVersion1.5.0がリリースされました。いくつかの変更がされていますが、その中の一つが、PyTorchでXLAの利用が可能となったというものです。 XLAを利用できると、PyTorch実装をTPU上で実行できるようになります。本記事ではPyTorch1.5.0を使ってGoogle ColabのTPUを利用できるようになるところまでの流れを説明します。

【Python】自作ライブラリのパッケージング方法

2020-04-19 カテゴリー python

自分で開発したPythonプログラムを再利用しやすいように、ライブラリとして整備したいことがあると思います。本記事ではPythonプログラムをライブラリ化するための手順を解説します。Pythonプログラムののモジュール化に加えて、コマンドラインを作成する方法についても触れます。

【Git】ブランチを作成して開発するときに使う便利な機能

2020-04-12 カテゴリー git

本記事ではGitHub Flowのように機能追加やバグ修正などの度にブランチを作成して開発を進める際によく利用する機能をユースケースに分けて紹介します。本記事のキーワードはstash、rebase、cherry-pickです。これらの機能を利用することで、複数のブランチで非同期的に開発が進んでも、簡単に差分を自分のワーキングディレクトリに取り組むことができるようになります。

【自然言語処理】Scheduled samplingによるニューラル言語モデルの学習

【自然言語処理】公開されているデータセットを簡単に使うライブラリ (nlp) の紹介

【自然言語処理】Kaggleコンペで利用されている文書分類のtips

【PyTorch】DataLoaderのミニバッチ化の仕組み

【PyTorch】Version1.5でTPUを利用する方法

【Python】自作ライブラリのパッケージング方法

【Git】ブランチを作成して開発するときに使う便利な機能

Takuya Makino