[自然言語処理] LSTMに基づく言語モデルの学習 (PyTorchコード付き)

2020-03-15 カテゴリー neural_network, nlp, pytorch, python, google-colab, machine_learning

単語の系列 (たとえば文や文書) に対して確率を割り当てるようなモデルは言語モデルと呼ばれています。古くはN-gram言語モデルが用いられました。最近ではより広い文脈を考慮したり、単語スパースネスの問題に対処できるニューラルネットワークに基づく言語モデル (ニューラル言語モデル) が良く用いられます。ニューラル言語モデルは文書分類、情報抽出、機械翻訳などの自然言語処理の様々なタスクで用いられます。本記事ではコード付きでLSTMに基づく言語モデルおよびその学習方法を説明します。本記事を読むことで、LSTMに基づく言語モデルの概要、学習の流れを理解できます。

[PyTorch][自然言語処理] より少ないパディングでミニバッチ学習する方法

2020-03-10 カテゴリー pytorch, nlp, machine_learning

ニューラルネットワークの学習には、複数の事例 (たとえば単語の系列) に対して並列に損失関数を計算し、得られた勾配に基づいてパラメータを更新するミニバッチ学習が用いられます。自然言語処理において、ミニバッチ学習時は単語の系列を同じ長さにそろえて処理します。これはニューラルネットワーク内での計算において、データが密行列として扱われることが多いためです。この長さをそろえる処理はパディングといわれています。当然ながら、ミニバッチ内で系列の長さが不ぞろいなほど、パディングによって追加される疑似的な単語が増えるため、本来不要な計算が増えます。また、ミニバッチを表す密行列が大きいほど、計算にかかる時間が大きくなります。本記事ではPyTorchにおける実装において、系列の長さが近い事例でミニバッチを作成することで、不要なパディングをできるだけ減らし、ミニバッチを表す密行列の大きさを小さくする方法を紹介します。

[PyTorch] Datasetの読み込みにかかるメモリ消費量を節約する

2020-03-08 カテゴリー pytorch, nlp, machine_learning

ニューラルネットワークを用いた自然言語処理では、大量のラベルなしテキストを利用した事前学習によって、目的のタスクの予測モデルの精度を改善することが報告されています。事前学習に用いるテキストの量が多いと、データを計算機上のメモリに一度に載りきらない場合があります。この記事ではPyTorchでニューラルネットワークの学習を記述する際に、テキストをファイルに分割して、ファイル単位でテキストを読み込むことで、計算機上で利用するメモリの使用量を節約する方法を紹介します。

[Python] scikit-learnで学ぶパーセプトロンによる文書分類入門

2020-03-03 カテゴリー machine_learning, python, nlp

この記事ではパーセプトロンを使って文書分類器を学習し、学習済みの分類器を使って文書を分類する流れをご紹介します。パーセプトロンはシンプルな分類アルゴリズムの一つである一方で、これを理解していると他の分類アルゴリズムを理解する助けになるため、初めて機械学習を学ぶ初学者の方にとってよい題材といえます。この記事に載せているプログラムはここにまとまっています。

ニューラルネットの出力ベクトルを二値化して検索を高速化させる方法

2019-09-04 カテゴリー neural_network, acl2019, nlp, paper

自然言語処理において、ニューラルネットワークは文や単語を実数値の密ベクトル表現に変換し、得られた表現に基づいて目的のタスクを解くというアプローチが多い。自然言語処理のさまざまなタスクで高い精度を上げている一方で、テキスト検索などの高速な処理速度を要求されるような場面では密ベクトルを処理するのは速度が遅いなどの実用的な課題がある。自然言語処理に関する国際会議ACL 2019で発表された論文 ‘‘Learning Compressed Sentence Representations for On-Device Text Processing’’ (pdf) が、類似文検索タスクにおいて、検索精度をほぼ落とさずに、高速な検索がおこなえるように、文の表現を実数値ではなく、二値ベクトルで表現する方法を提案した。本記事ではこの論文でどういった技術が提案されているのかをまとめる。

N-best解の探索

2016-01-31 カテゴリー golang, nlp

系列ラベリングなどで最適なパスを探索する方法はビタビアルゴリズムで効率的に求められる。上位N個のパスを探索する方法はビタビアルゴリズムと、A*アルゴリズムで効率的に求められる。日本語入力を支える技術　～変わり続けるコンピュータと言葉の世界 (WEB+DB PRESS plus) の説明が分かりやすい。理解するために実装してみた。

Question Answering Using Enhanced Lexical Semantic Models (ACL2013) を読んだ

2014-12-03 カテゴリー nlp, paper, acl2013

Question Answering Using Enhanced Lexical Semantic Models (pdf)

Wen-tau Yih, Ming-Wei Chang, Christopher Meek and Andrzej Pastusiak, Microsoft Research, ACL 2013

[自然言語処理] LSTMに基づく言語モデルの学習 (PyTorchコード付き)

[PyTorch][自然言語処理] より少ないパディングでミニバッチ学習する方法

[PyTorch] Datasetの読み込みにかかるメモリ消費量を節約する

[Python] scikit-learnで学ぶパーセプトロンによる文書分類入門

ニューラルネットの出力ベクトルを二値化して検索を高速化させる方法

N-best解の探索

Question Answering Using Enhanced Lexical Semantic Models (ACL2013) を読んだ

Takuya Makino