Skip to content

Instantly share code, notes, and snippets.

@xiupos
Last active June 18, 2024 11:35
Show Gist options
  • Save xiupos/1f5ec6153f93cc09da73ba0f6ca35da0 to your computer and use it in GitHub Desktop.
Save xiupos/1f5ec6153f93cc09da73ba0f6ca35da0 to your computer and use it in GitHub Desktop.
nlp-ml-2.ipynb
Display the source blob
Display the rendered blob
Raw
{
"nbformat": 4,
"nbformat_minor": 0,
"metadata": {
"colab": {
"provenance": [],
"authorship_tag": "ABX9TyP0uBH7xX29UysYHkjbHFb3",
"include_colab_link": true
},
"kernelspec": {
"name": "python3",
"display_name": "Python 3"
},
"language_info": {
"name": "python"
}
},
"cells": [
{
"cell_type": "markdown",
"metadata": {
"id": "view-in-github",
"colab_type": "text"
},
"source": [
"<a href=\"https://colab.research.google.com/gist/xiupos/1f5ec6153f93cc09da73ba0f6ca35da0/nlp-ml-2.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
]
},
{
"cell_type": "markdown",
"source": [
"# NLP/ML 勉強会 #2"
],
"metadata": {
"id": "h33YdTr0Cisa"
}
},
{
"cell_type": "markdown",
"source": [
"とにかく動く言語モデルを作ります。動けばいいので、精度は求めません。単純な構成を採用して「それっぽく」動くものをまずは作ってみましょう。\n",
"\n",
"[勉強会 #1](https://gist.githubusercontent.com/xiupos/bf8adde430538f1befc7a6f2b7f9add8/raw/7b931d8dad262c66da6dc24e7e2d2a5ad3dfcff9/Drawing_2023-05-02_22.46.29.excalidraw.png) を前提とした記述をしています。"
],
"metadata": {
"id": "UlPyWRiRcLhb"
}
},
{
"cell_type": "markdown",
"source": [
"## 準備"
],
"metadata": {
"id": "yPEcpnXUCrN6"
}
},
{
"cell_type": "markdown",
"source": [
"まずは使うライブラリを用意します。今回は [PyTorch](https://pytorch.org/) を中心に使います。"
],
"metadata": {
"id": "DyuV_PX95kXu"
}
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "UnKGkrykcKD7",
"outputId": "0ce2b5c8-05c5-4951-9c43-4a9debc1c6be"
},
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"<torch._C.Generator at 0x7d0dd8236270>"
]
},
"metadata": {},
"execution_count": 1
}
],
"source": [
"import torch\n",
"from torch import nn\n",
"from torch.nn import functional as F\n",
"import numpy as np\n",
"from matplotlib import pyplot as plt\n",
"import pandas as pd\n",
"# 乱数を固定\n",
"torch.manual_seed(1)"
]
},
{
"cell_type": "markdown",
"source": [
"次に教師データを用意します。教師データは何でもいいですが、ここでは「シャーロックホームズの冒険 (The Adventures of Sherlock Holmes)」の[原文](https://sherlock-holm.es/stories/plain-text/advs.txt)にしました。有名な教師データには [Tiny Shakespeare](https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt) などがあります。"
],
"metadata": {
"id": "lz9mjU5ljFGe"
}
},
{
"cell_type": "code",
"source": [
"# 教師データをダウンロード (https://sherlock-holm.es/stories/plain-text/advs.txt を基に作成)\n",
"!wget https://gist.githubusercontent.com/xiupos/b7914ea1e3ab35465c34de45146b15d8/raw/b7623310de06160876ffba6299994b0409c85c81/advs.txt\n",
"lines: str = open('./advs.txt', 'r').read().replace('\\n', ' ')"
],
"metadata": {
"id": "F85C-xgrgYgg",
"colab": {
"base_uri": "https://localhost:8080/"
},
"outputId": "cf7848da-9951-4b9b-9109-93065cb73669"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"--2024-06-17 05:52:18-- https://gist.githubusercontent.com/xiupos/b7914ea1e3ab35465c34de45146b15d8/raw/b7623310de06160876ffba6299994b0409c85c81/advs.txt\n",
"Resolving gist.githubusercontent.com (gist.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...\n",
"Connecting to gist.githubusercontent.com (gist.githubusercontent.com)|185.199.108.133|:443... connected.\n",
"HTTP request sent, awaiting response... 200 OK\n",
"Length: 562263 (549K) [text/plain]\n",
"Saving to: ‘advs.txt.4’\n",
"\n",
"advs.txt.4 100%[===================>] 549.08K --.-KB/s in 0.05s \n",
"\n",
"2024-06-17 05:52:19 (11.2 MB/s) - ‘advs.txt.4’ saved [562263/562263]\n",
"\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"教師データは文字列です。文字列を機械学習で直接扱うのは難しいので、まずは単語を整数と対応させます。ただし、英単語を単位に扱うのは高度なので、簡単のためここでは文字を単位に考えます。以降、「単語」は文字のことを指します。言語モデルの文脈では「トークン」と呼ぶのが正確です。\n",
"\n",
"単純に文字順の番号を文字と対応する整数として用います。たとえば、文字順で $μ$ 番目の文字には整数 $μ$ が対応します。以降、その文字のことを単語 $μ$ と呼びます。"
],
"metadata": {
"id": "a4_gSeCj36vC"
}
},
{
"cell_type": "code",
"source": [
"# 文字一覧\n",
"vocab: list[str] = sorted(list(set(lines)))\n",
"# {数(番号): 文字} の辞書\n",
"itos: dict[int, str] = {i:s for i,s in enumerate(vocab)}\n",
"# {文字: 数(番号)} の辞書\n",
"stoi: dict[str, int] = {s:i for i,s in enumerate(vocab)}\n",
"\n",
"len(vocab)"
],
"metadata": {
"id": "_Gl30hk9ghRk",
"colab": {
"base_uri": "https://localhost:8080/"
},
"outputId": "3880b09e-f4f0-43b0-ceab-e532d53ae710"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"83"
]
},
"metadata": {},
"execution_count": 3
}
]
},
{
"cell_type": "markdown",
"source": [
"次に上の対応を用いて、文字列を整数列に変換する関数を定義しましょう。また教師データを整数列に変換して教師データ `dataset` とします。"
],
"metadata": {
"id": "naUorL6u4Ayw"
}
},
{
"cell_type": "code",
"source": [
"# 文字列 -> 整数列 の関数\n",
"def encode(s: str) -> list[int]:\n",
" return [stoi[s] for s in s]\n",
"\n",
"# 整数列 -> 文字列 の関数\n",
"def decode(l: list[int]) -> str:\n",
" return ''.join([itos[i] for i in l])\n",
"\n",
"# 教師データを整数列に変換\n",
"dataset = encode(lines)\n",
"\n",
"encode(\"Do you know, Watson,\"), decode(encode(\"Do you know, Watson,\"))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "wvkJQt4jhCbY",
"outputId": "7afd4d65-e349-4194-b2cd-a14b41df0b5a"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"([27, 65, 0, 75, 65, 71, 0, 61, 64, 65, 73, 7, 0, 46, 51, 70, 69, 65, 64, 7],\n",
" 'Do you know, Watson,')"
]
},
"metadata": {},
"execution_count": 4
}
]
},
{
"cell_type": "markdown",
"source": [
"以降の便利のため、`dataset` から学習用のバッチを作成する関数を定義します。例えば \"Do you know, Watson,\" という文章に対し, バッチは以下の2つの文字列の組から構成されます。\n",
"\n",
"- x: `Do you know, Wat`\n",
"- y: `o you know, Wats`\n",
"\n",
"後述しますが、今回は「1単語から次の1単語を予測する」モデルを作ります。そのため、パッチは1文字ずらしたタプルになっています。"
],
"metadata": {
"id": "ixBGfeS87g69"
}
},
{
"cell_type": "code",
"source": [
"# バッチを作成する関数\n",
"# 幅 xnum で1文字ずれた列を生成する\n",
"# ex) ' so if you ar', 'so if you are'\n",
"# |<-----x----->| |<-----y----->|\n",
"def get_batches(xnum: int, data: list[int] = dataset, split=\"train\") -> tuple[list[int], list[int]]:\n",
" # 教師データを 8:2 で分割してバッチとする\n",
" if split == \"train\":\n",
" # 学習データ\n",
" batchdata = data[:int(len(data)*0.8)]\n",
" elif split == \"val\":\n",
" # 検証データ\n",
" batchdata = data[int(len(data)*0.8):]\n",
"\n",
" # パッチの開始位置をランダムに決める\n",
" idx = torch.randint(0, len(batchdata)-xnum-1, (1,))\n",
" # パッチを取り出す\n",
" x = batchdata[idx:idx+xnum]\n",
" y = batchdata[idx+1:idx+xnum+1]\n",
" return x, y\n",
"\n",
"[decode(l) for l in get_batches(16)]"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "uxSYnZjodkAy",
"outputId": "98b1c075-535a-4819-b44a-edc526cc7277"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"['rip has been upo', 'ip has been upon']"
]
},
"metadata": {},
"execution_count": 5
}
]
},
{
"cell_type": "markdown",
"source": [
"これで準備が整いました。"
],
"metadata": {
"id": "nhGrIeL-9K7S"
}
},
{
"cell_type": "markdown",
"source": [
"## はじめてのモデル"
],
"metadata": {
"id": "1mnExgl0Cvew"
}
},
{
"cell_type": "markdown",
"source": [
"さて、はじめてのモデルを作っていきます。ここでは「1単語から次の1単語を予測する」モデルを作ります。これを繰り返し行うことで文章を生成することができます。\n",
"\n",
"構成は大きく三段階になっています。\n",
"\n",
"1. 単語のベクトル化\n",
"2. ニューラルネットワーク\n",
"3. ベクトルを単語に直す\n",
"\n",
"まずは単語のベクトル化について考えます。最も簡単なベクトル化は「ワンホットベクトル」と呼ばれる方法です。ワンホットベクトルとは、対応する単語の要素は $1$ で、それ以外は $0$ である列ベクトルです。つまり、単語 $μ$ に対応するワンホットベクトル $\\vec{x} = (x_1,⋯,x_{\\mathtt{len(vocab)}})^{\\top}$ の $ν$ 行目の要素 $x_ν$ は\n",
"$$\n",
"x_ν = δ_{μν} ≡ \\begin{cases} 1, & μ=ν \\\\ 0 & μ≠ν \\end{cases}\n",
"$$\n",
"を満たし、ベクトル表記すれば\n",
"$$\n",
"\\vec{x} = \\left(\\begin{array}{c} ⋮ \\\\ x_{μ-1} \\\\ x_μ \\\\ x_{μ+1} \\\\ ⋮ \\end{array}\\right) = \\left(\\begin{array}{c} ⋮ \\\\ 0 \\\\ 1 \\\\ 0 \\\\ ⋮ \\end{array}\\right)\n",
"$$\n",
"となります。\n",
"\n",
"次に、単語ベクトルと確率分布を対応させます。これによって単語ベクトルを単語に戻すことができます。単語ベクトル $\\vec{y} = (y_1,⋯,y_{\\mathtt{len(vocab)}})^{\\top}$ に対し, $ν$ 番目の単語である確率 $p_ν$ を\n",
"$$\n",
"p_ν ≡ \\operatorname{softmax}(y_ν) ≡ \\frac{e^{y_ν}}{\\sum_{μ=1}^{\\mathtt{len(vocab)}} e^{y_μ}}\n",
"$$\n",
"と定義します。一般に、指数による上記のような正規化を softmax 関数といいます。以下、確率分布 $p = \\{p_1,…,p_{\\mathtt{len(vocab)}}\\}$ とベクトル\n",
"$$\n",
"p(\\vec{y})≡\\operatorname{softmax}(\\vec{y})≡(p(y_1),⋯,p(y_{\\mathtt{len(vocab)}}))^{\\top}\n",
"$$\n",
"を同一視して扱います。\n",
"\n",
"単語ベクトルの確率分布から単語を選択する方法は、「最も確率の高い単語を選べばよい」と思われるかもしれません。このような方法を「貪欲法」といいます。ですが、せっかく確率分布が得られるので、それに従って確率的に選択するようにしましょう。\n",
"\n",
"以上の議論に基づいて、ベクトル化の関数を定義しましょう。"
],
"metadata": {
"id": "XWbnir1y4HPl"
}
},
{
"cell_type": "code",
"source": [
"# 数リスト -> 単語ベクトル列 の関数\n",
"def ltov(l: list[int]) -> torch.Tensor:\n",
" # ワンホットベクトル列を生成\n",
" return torch.eye(len(vocab))[l]\n",
"\n",
"# 単語ベクトル列 -> 数リスト の関数 (貪欲法)\n",
"def vtol(v: torch.Tensor) -> list[int]:\n",
" # 値が最大(⇔確率が最大)の単語を選択\n",
" return torch.argmax(v, dim=-1).tolist()\n",
"\n",
"# 単語ベクトル列 -> 数リスト の関数 (確率分布に基づく)\n",
"def vtol_prob(v: torch.Tensor) -> list[int]:\n",
" # 確率分布を計算\n",
" p = F.softmax(v, dim=-1)\n",
" # 確率分布を基に\n",
" return torch.multinomial(p, num_samples=1).view(-1).tolist()\n",
"\n",
"xs, _ = get_batches(16)\n",
"decode(xs), decode(vtol(ltov(xs))), decode(vtol_prob(ltov(xs)))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "b8wyKO8K9qZG",
"outputId": "d7d24e47-eeb8-4b2f-cb13-dab02d09b5cd"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"('bited. The bedro', 'bited. The bedro', '½Qz,eKvHs0:6SdLQ')"
]
},
"metadata": {},
"execution_count": 6
}
]
},
{
"cell_type": "markdown",
"source": [
"次にモデルの中心となるニューラルネットワークを定義します。簡単のため ReLU を活性化関数に用いた中間層1層の順伝播型ニューラルネットワークとします: 式に書くと\n",
"$$\n",
"\\vec{y} = W_2 \\operatorname*{ReLU}(W_1 \\vec{x} + \\vec{b}_1) + \\vec{b}_2\n",
"$$\n",
"です。ここで、行列 $W_1$, $W_2$ とベクトル $\\vec{b}_1$, $\\vec{b}_2$ はモデルのパラメータです。成分表示すれば,\n",
"$$\n",
"\\begin{aligned}\n",
"y_μ\n",
" &= \\sum_ν \\left[ w_{2μν} \\operatorname*{ReLU}\\left(\\sum_λ w_{1νλ} x_λ + b_{1λ}\\right) + b_{2ν} \\right] \\\\\n",
" &= \\sum_ν \\left[ w_{2μν} \\max\\left(\\sum_λ w_{1νλ} x_λ + b_{1λ}, 0\\right) + b_{2ν} \\right]\n",
"\\end{aligned}\n",
"$$\n",
"となります。\n",
"PyTorch の `nn.Sequential` を使ってモデルを定義しましょう。 `nn.Linear` は $\\vec{x} ↦ W \\vec{x} + \\vec{b}$, `nn.ReLU` は $\\vec{x} ↦ \\operatorname*{ReLU}(\\vec{x})$ を意味しています。"
],
"metadata": {
"id": "KjrBDikMruW0"
}
},
{
"cell_type": "code",
"source": [
"# モデルの隠れ層の要素数\n",
"hidden_layer_dim = 128\n",
"# モデルの定義\n",
"model: nn.Module = nn.Sequential(\n",
" nn.Linear(len(vocab), hidden_layer_dim),\n",
" nn.ReLU(),\n",
" nn.Linear(hidden_layer_dim, len(vocab)),\n",
")\n",
"\n",
"model, [m.numel() for m in model.parameters()]"
],
"metadata": {
"id": "JUZIrlQsA7uD",
"colab": {
"base_uri": "https://localhost:8080/"
},
"outputId": "cb204fed-f73c-4a55-de0f-a3e0ae89a29d"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"(Sequential(\n",
" (0): Linear(in_features=83, out_features=128, bias=True)\n",
" (1): ReLU()\n",
" (2): Linear(in_features=128, out_features=83, bias=True)\n",
" ),\n",
" [10624, 128, 10624, 83])"
]
},
"metadata": {},
"execution_count": 7
}
]
},
{
"cell_type": "markdown",
"source": [
"ここで、隠れ層の要素数は `hidden_layer_dim` としました。さっそくモデルを使ってみましょう。適当にバッチを取得して次の単語を予想させてみます。"
],
"metadata": {
"id": "Jca-Fql-ncdu"
}
},
{
"cell_type": "code",
"source": [
"xs, ys = get_batches(16)\n",
"decode(xs), decode(vtol(model(ltov(xs)))), decode(vtol_prob(model(ltov(xs))))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "i3wJcrV34gf4",
"outputId": "a48312ac-4da0-404b-c673-fbaa857361ff"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"('ression upon me,', 'Vlgggg(gMgg(ggll', \"uTCf'G)zewtKLHr!\")"
]
},
"metadata": {},
"execution_count": 8
}
]
},
{
"cell_type": "markdown",
"source": [
"滅茶苦茶ですね。学習も何もしてないので当然の結果です。ついでに長い文章を生成する関数も定義します。"
],
"metadata": {
"id": "kZ4l65Y7niU8"
}
},
{
"cell_type": "code",
"source": [
"# 文章を生成する関数\n",
"def generate(model: nn.Module, xnum=100):\n",
" # 文章を格納する配列\n",
" out: list[int] = []\n",
" # 初期状態\n",
" x = torch.zeros(1, len(vocab))\n",
" # 文章の長さ\n",
" for i in range(xnum):\n",
" # モデルを適用\n",
" ys = vtol_prob(model(x))\n",
" # 結果に追加\n",
" out += [ys[-1]]\n",
" # 次の単語\n",
" x = ltov(ys)\n",
" return decode(out)\n",
"\n",
"print(generate(model))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "utMCQ2f0rFeq",
"outputId": "803ff351-a8ce-4022-e3f3-cfa546f1c98a"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"I6)TfOcQKfélo7h]è(0o?eNSRB7U1vh½m;\"l)£JHB9!h£s&Kgm7TfhDy58b:?2m5B'n\" fS£gW[-VeFPK3P9:léiVEVLQtC?V7Ge\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"見るからに出鱈目です。ですが、どのくらい出鱈目でしょうか?モデルを学習させるためにはこの「出鱈目さ」を計算する必要があります。"
],
"metadata": {
"id": "2srvCmyEUizZ"
}
},
{
"cell_type": "markdown",
"source": [
"## モデルの評価"
],
"metadata": {
"id": "qoQ6OdN7DPqs"
}
},
{
"cell_type": "markdown",
"source": [
"作ったモデルを定量的に評価することを考えます。機械学習においては「損失関数」と呼ばれる関数を用いて、教師データとモデルのずれを評価します。ここでは「交差エントロピー」という関数を使います。まずは必要な知識をまとめます。復習ですが、単語ベクトル $\\vec{y}$ に対する確率分布 $p = \\{p_ν\\}$ は\n",
"$$\n",
"p_ν ≡ \\operatorname{softmax}(y_ν) ≡ \\frac{e^{y_ν}}{\\sum_{μ=1}^{\\mathtt{len(vocab)}} e^{y_μ}}\n",
"$$\n",
"です。\n",
"\n",
"- **期待値**:\n",
" $\\vec{y}$ の各成分に対する関数\n",
" $$\n",
" f(\\vec{y}) = (f(y_1),⋯,f(y_{\\mathtt{len(vocab)}}))^{\\top}\n",
" $$\n",
" に対し、期待値は\n",
" $$\n",
" ⟨f(\\vec{y})⟩ ≡ \\sum_{ν=1}^{\\mathtt{len(vocab)}} f(y_ν) p_ν\n",
" $$\n",
" で定義されます。\n",
"\n",
"- **エントロピー**:\n",
" 単語 $ν$ の情報量\n",
" $$\n",
" \\log \\frac1{p_ν} \\quad (= - \\log p_ν)\n",
" $$\n",
" は単語 $v$ の確率が低いほど大きくなる量であり、情報の「不確かさ」を表す指標です。この情報量の期待値\n",
" $$\n",
" H[p] = ⟨- \\log p⟩ = -\\sum_ν p_ν \\log p_ν\n",
" $$\n",
" はエントロピーと呼ばれています。\n",
"\n",
"- **交差エントロピー**:\n",
" 教師データとなる単語ベクトルの組 $(\\vec{x},\\vec{y})$ に対し、モデルによって予測値 $y(\\vec{x})$ が得られたとし、この教師データ $\\vec{y}$ と予測値 $y(\\vec{x})$ を比較することを考えます。$\\vec{y}$, $y(\\vec{x})$ に対応する確率分布がそれぞれ $p=\\{p_ν\\}$, $q=\\{q_ν\\}$ であるとき, 単語 $ν$ の情報量はそれぞれ $- \\log p_ν$, $- \\log q_ν$ であり、この差\n",
" $$\n",
" [- \\log q_ν] - [- \\log p_ν] = \\log \\frac{p_ν}{q_ν}\n",
" $$\n",
" の期待値は\n",
" $$\n",
" \\begin{aligned}\n",
" D_{\\mathrm{KL}}(p\\|q)\n",
" &≡ \\left\\langle \\log \\frac{p}{q} \\right\\rangle \\\\\n",
" &= \\sum_ν p_ν \\log p_ν - \\sum_ν p_ν \\log q_ν \\\\\n",
" &= - H(p) + H(p,q)\n",
" \\end{aligned}\n",
" $$\n",
" で、これら $D_{\\mathrm{KL}}(p\\|q) ≡ \\left\\langle \\log \\frac{p}{q} \\right\\rangle$ と $H(p,q) ≡ ⟨- \\log q⟩$ はそれぞれ Kullback–Leibler 情報量と交差エントロピーと呼ばれます。もし教師データの確率分布 $p$ が既知であるとき、確率分布 $p$, $q$ が一致するならば Kullback–Leibler 情報量と交差エントロピーの値は最小になります。つまり、$q$ を $p$ に近づける問題は交差エントロピー $H(p,q)$ の最小化問題と等価です。\n",
"\n",
" PyTorch の `F.cross_entropy` や `nn.CrossEntropyLoss()` は確率分布の組 $(p,q)$ ではなく元のベクトル $(y(\\vec{x}),\\vec{y})$ を引数に取ることに注意しましょう。\n",
"\n",
"この交差エントロピーを損失関数として採用します。さっそく今回のモデルの損失関数を計算してみましょう。"
],
"metadata": {
"id": "Wv-EQh70nuTZ"
}
},
{
"cell_type": "code",
"source": [
"# 損失関数に交差エントロピーを採用する\n",
"loss_fn = nn.CrossEntropyLoss()\n",
"\n",
"xs, ys = get_batches(16)\n",
"loss = loss_fn(model(ltov(xs)), ltov(ys))\n",
"loss.item()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "OsGfl9doGV-d",
"outputId": "dc9fa87b-6dfc-4d5e-f5dc-05c253810518"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"4.411202907562256"
]
},
"metadata": {},
"execution_count": 10
}
]
},
{
"cell_type": "markdown",
"source": [
"この値はどう解釈すればいいのでしょうか? 今回の教師データ $\\vec{y}$ はワンホットベクトルで, ここでは $\\vec{y}$ が単語 $μ$ を表しているときの確率分布が $p = \\{p_ν\\} = \\{δ_{μν}\\}$ としてみましょう。(実際、`nn.CrossEntropyLoss()` ではこのような扱いになります。) このとき1単語のみの損失関数は\n",
"$$\n",
"\\begin{aligned}\n",
"\\mathtt{loss}\n",
" &= ⟨- \\log q⟩ \\\\\n",
" &= - \\sum_ν p_ν \\log q_ν \\\\\n",
" &= - \\sum_ν δ_{μν} \\log q_ν \\\\\n",
" &= - \\log q_μ \\\\\n",
"\\end{aligned}\n",
"$$\n",
"であるので、損失関数の値 `loss` から単語 $μ$ の生成確率がわかります:\n",
"$$\n",
"q_μ = e^{-\\mathtt{loss}}\n",
"$$\n",
"実際には損失関数は複数の単語についての平均値になるので、正しい単語の生成確率が\n",
"$$\n",
"q = e^{-\\mathtt{loss}}\n",
"$$\n",
"になるくらいの目安です。"
],
"metadata": {
"id": "NXygYyddKFyH"
}
},
{
"cell_type": "code",
"source": [
"# 単語の生成確率\n",
"q = torch.exp(-loss)\n",
"q.item()"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "jVAZ0LItUlph",
"outputId": "89c59c16-469e-4653-8598-da0c85d86805"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"0.012140565551817417"
]
},
"metadata": {},
"execution_count": 11
}
]
},
{
"cell_type": "markdown",
"source": [
"これでもまだよくわかりませんね。ところで、$N$ 個の単語から無作為に単語を選ぶとき、正しい単語が選ばれる確率は $\\displaystyle q = \\frac1N$ となります。つまり, $1/q\\ (=e^{\\mathtt{loss}})$ は無作為に単語を選び出したとするときの「母数」を表しています。これを計算してみましょう。"
],
"metadata": {
"id": "HrTgVnCeYNqa"
}
},
{
"cell_type": "code",
"source": [
"# 単語生成の\"母数\"\n",
"1/q.item(), len(vocab)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "mB2S_EfHcQWT",
"outputId": "35e581f5-21b9-4beb-e426-5b9ba1870a26"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"(82.36848569631108, 83)"
]
},
"metadata": {},
"execution_count": 12
}
]
},
{
"cell_type": "markdown",
"source": [
"つまり $1/q≃\\mathtt{len(vocab)}$ であることがわかりました。モデルはほとんど無作為に単語を選んでいるということです。学習も何もしていないので当然の結果ですね。それではこれを改善すべく、モデルを学習させていきましょう。"
],
"metadata": {
"id": "9gdbURiQc1xP"
}
},
{
"cell_type": "markdown",
"source": [
"## モデルの学習"
],
"metadata": {
"id": "T2qsjzR5fZgI"
}
},
{
"cell_type": "markdown",
"source": [
"モデルの学習をします。学習とは損失関数の値が小さくなるようパラメータの値を変えていく作業で、代表的な学習のアルゴリズムは以下の通りです。\n",
"\n",
"1. パラメータ関して損失関数の勾配を計算する。\n",
"2. 1 の値をパラメータから引いて新しいパラメータとする。\n",
"3. `epochs` の回数だけ 1~2 に戻る。\n",
"\n",
"具体的には、パラメータ $W_1$, $W_2$, $\\vec{b}_1$, $\\vec{b}_2$ の要素 $X$ に対し、適当なパッチに関する損失関数 `loss` の勾配は\n",
"$$\n",
"\\frac{∂\\ \\mathtt{loss}}{∂X}\n",
"$$\n",
"で与えられます。これを既存のパラメータ値 $X_{\\mathsf{old}}$ から引いて新しいパラメータ値 $X_{\\mathsf{new}}$ とします:\n",
"$$\n",
"X_{\\mathsf{old}} \\quad ⟼ \\quad X_{\\mathsf{new}} = X_{\\mathsf{old}} - η \\left.\\frac{∂\\ \\mathtt{loss}}{∂X}\\right|_{X=X_{\\mathsf{old}}}.\n",
"$$\n",
"ただし $η$ は学習率と呼ばれる定数です。この手法を確率的勾配降下法 (SGD) といい、この操作を繰り返せば原理的に `loss` の値が小さくなることがわかると思います。ここでは [Adam](https://arxiv.org/abs/1412.6980) という確率的勾配降下法の改良を利用して学習を実行します。"
],
"metadata": {
"id": "yzZ3fA-crwz2"
}
},
{
"cell_type": "code",
"source": [
"# 最適化手法に Adam を採用する\n",
"optimizer = torch.optim.Adam(model.parameters())\n",
"\n",
"# 学習\n",
"def train(model: nn.Module, epochs=100):\n",
" # 学習過程を記録\n",
" logs: dict[str, list[float]] = {\"train\": [], \"val\": []}\n",
"\n",
" # epochs の回数だけ学習を繰り返す\n",
" for epoch in range(epochs):\n",
" log_temp: dict[str, list[float]] = {\"train\": [], \"val\": []}\n",
"\n",
" # 学習と検証を10回ずつ行う\n",
" for _ in range(10):\n",
" for split in [\"train\", \"val\"]:\n",
" # バッチを取得\n",
" xs, ys = get_batches(16, split=split)\n",
" # 損失関数を計算\n",
" loss = loss_fn(model(ltov(xs)), ltov(ys))\n",
" # 「母数」の値を記録\n",
" log_temp[split] += [torch.exp(loss).item()]\n",
" # 学習を実行\n",
" if split == \"train\":\n",
" optimizer.zero_grad()\n",
" loss.backward()\n",
" optimizer.step()\n",
"\n",
" # 10回の学習・検証の値を平均して記録\n",
" for split in [\"train\", \"val\"]:\n",
" logs[split] += [np.mean(log_temp[split])]\n",
"\n",
" # 学習過程のグラフを返す\n",
" return pd.DataFrame(logs).plot()\n",
"\n",
"train(model)"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/",
"height": 448
},
"id": "uO7evbn_ffcS",
"outputId": "0d359a2f-d676-40b0-e3b5-c942aa9d38d7"
},
"execution_count": null,
"outputs": [
{
"output_type": "execute_result",
"data": {
"text/plain": [
"<Axes: >"
]
},
"metadata": {},
"execution_count": 13
},
{
"output_type": "display_data",
"data": {
"text/plain": [
"<Figure size 640x480 with 1 Axes>"
],
"image/png": "\n"
},
"metadata": {}
}
]
},
{
"cell_type": "markdown",
"source": [
"上記のグラフの縦軸は前述の「無作為に単語を選び出したとするときの『母数』」で、横軸は `epoch` 数です。学習が繰り返されるごとに「母数」は減っていき、最終的に15語程度になっていることがわかります。これはすごい進化です!もはや無作為な単語の羅列では無いはずです。さっそく文章を生成してみましょう。"
],
"metadata": {
"id": "utcBZIaR7-qA"
}
},
{
"cell_type": "code",
"source": [
"print(generate(model))"
],
"metadata": {
"colab": {
"base_uri": "https://localhost:8080/"
},
"id": "KEVrFHxJp_2d",
"outputId": "abc5fb17-f9fe-4162-f67e-13c52d80095b"
},
"execution_count": null,
"outputs": [
{
"output_type": "stream",
"name": "stdout",
"text": [
"k d, apine t ue. Pd my itie, Mrhent woncaad he as. an syurthase, thal ucoad, manel, or biche psthhi\n"
]
}
]
},
{
"cell_type": "markdown",
"source": [
"学習前は出鱈目な羅列だったのが、学習によって「薄目で見れば英語かもしれない」程度の文章を生成するようになりました。現実に存在する単語もいくつかあります。当初の目標だった、「それっぽく」動く言語モデルの完成です。"
],
"metadata": {
"id": "F8lHDleV9Mvy"
}
},
{
"cell_type": "markdown",
"source": [
"## まとめ"
],
"metadata": {
"id": "abS3tsMS-BHD"
}
},
{
"cell_type": "markdown",
"source": [
"今回作ったモデルの特徴は以下の通りです。\n",
"\n",
"- 「単語」の単位 \n",
" → 文字\n",
"- 単語のベクトル化 \n",
" → ワンホットベクトル\n",
"- モデル \n",
" → 順伝播型ニューラルネットワーク (中間層1層, ReLU)\n",
"\n",
"とにかく単純な構成を目指してこのような構成にしましたが、それでも「それっぽく」動くものになりました。次回の勉強会では「脱それっぽく」を目指してこれらの構成を改良していきます。"
],
"metadata": {
"id": "9fvbpYHH-FMW"
}
},
{
"cell_type": "markdown",
"source": [
"## 参考文献"
],
"metadata": {
"id": "_7VywL9-_sog"
}
},
{
"cell_type": "markdown",
"source": [
"理論は以下を参考にしました:\n",
"\n",
"- 岡﨑 直観, 荒瀬 由紀, 鈴木 潤, 鶴岡 慶雅, 宮尾 祐介.『IT Text 自然言語処理の基礎』(オーム社, 2022)\n",
"\n",
"実装は以下を参考にしました:\n",
"\n",
"- [Llama from scratch (or how to implement a paper without crying) | Brian Kitano](https://blog.briankitano.com/llama-from-scratch/)\n",
"- [CrossEntropyLoss — PyTorch 2.3 documentation](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html)"
],
"metadata": {
"id": "0CuwmNmo_uEV"
}
}
]
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment