PyTorch NLP From Scratch: 生成名称与字符级RNN

在自然语言处理（NLP）领域，使用字符级循环神经网络（char-RNN）生成文本是一种有趣且强大的技术。本教程将教你如何使用字符级 RNN 生成不同语言风格的姓名。通过学习本教程，你将掌握如何从字符级别构建和训练生成模型。

一、准备数据

我们使用包含来自 18 种不同语言的姓氏的数据集。这些数据存储在多个文本文件中，每个文件对应一种语言。我们需要将这些数据加载到内存中，并进行预处理。

from io import open
import glob
import os
import unicodedata
import string


all_letters = string.ascii_letters + " .,;'-"
n_letters = len(all_letters) + 1  # 加上结束标记


def findFiles(path):
    return glob.glob(path)


def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn' and c in all_letters
    )


def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]


category_lines = {}
all_categories = []


for filename in findFiles('data/names/*.txt'):
    category = os.path.splitext(os.path.basename(filename))[0]
    all_categories.append(category)
    lines = readLines(filename)
    category_lines[category] = lines


n_categories = len(all_categories)


print('# categories:', n_categories, all_categories)
print(unicodeToAscii("O'Néàl"))

二、构建网络

我们将构建一个字符级 RNN 模型，用于根据语言生成姓名。该模型将输入语言类别和当前字符，并输出下一个字符的概率分布。

import torch
import torch.nn as nn


class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()
        self.hidden_size = hidden_size


        self.i2h = nn.Linear(n_categories + input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(n_categories + input_size + hidden_size, output_size)
        self.o2o = nn.Linear(hidden_size + output_size, output_size)
        self.dropout = nn.Dropout(0.1)
        self.softmax = nn.LogSoftmax(dim=1)


    def forward(self, category, input, hidden):
        input_combined = torch.cat((category, input, hidden), 1)
        hidden = self.i2h(input_combined)
        output = self.i2o(input_combined)
        output_combined = torch.cat((hidden, output), 1)
        output = self.o2o(output_combined)
        output = self.dropout(output)
        output = self.softmax(output)
        return output, hidden


    def initHidden(self):
        return torch.zeros(1, self.hidden_size)


rnn = RNN(n_letters, 128, n_letters)

三、训练模型

1. 准备训练数据

import random


def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]


def randomTrainingPair():
    category = randomChoice(all_categories)
    line = randomChoice(category_lines[category])
    return category, line


def categoryTensor(category):
    li = all_categories.index(category)
    tensor = torch.zeros(1, n_categories)
    tensor[0][li] = 1
    return tensor


def inputTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for li in range(len(line)):
        letter = line[li]
        tensor[li][0][all_letters.find(letter)] = 1
    return tensor


def targetTensor(line):
    letter_indexes = [all_letters.find(line[li]) for li in range(1, len(line))]
    letter_indexes.append(n_letters - 1)  # EOS
    return torch.LongTensor(letter_indexes)


def randomTrainingExample():
    category, line = randomTrainingPair()
    category_tensor = categoryTensor(category)
    input_line_tensor = inputTensor(line)
    target_line_tensor = targetTensor(line)
    return category_tensor, input_line_tensor, target_line_tensor

2. 定义训练函数

criterion = nn.NLLLoss()
learning_rate = 0.0005


def train(category_tensor, input_line_tensor, target_line_tensor):
    target_line_tensor.unsqueeze_(-1)
    hidden = rnn.initHidden()


    rnn.zero_grad()


    loss = 0


    for i in range(input_line_tensor.size(0)):
        output, hidden = rnn(category_tensor, input_line_tensor[i], hidden)
        l = criterion(output, target_line_tensor[i])
        loss += l


    loss.backward()


    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)


    return output, loss.item() / input_line_tensor.size(0)

3. 进行训练

import time
import math


def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)


n_iters = 100000
print_every = 5000
plot_every = 500
all_losses = []
total_loss = 0


start = time.time()


for iter in range(1, n_iters + 1):
    output, loss = train(*randomTrainingExample())
    total_loss += loss


    if iter % print_every == 0:
        print('%s (%d %d%%) %.4f' % (timeSince(start), iter, iter / n_iters * 100, loss))


    if iter % plot_every == 0:
        all_losses.append(total_loss / plot_every)
        total_loss = 0

四、网络采样

1. 绘制训练损失曲线

import matplotlib.pyplot as plt


plt.figure()
plt.plot(all_losses)
plt.title("Training Loss Curve")
plt.xlabel("Iteration")
plt.ylabel("Loss")
plt.show()

2. 生成姓名

max_length = 20


def sample(category, start_letter='A'):
    with torch.no_grad():
        category_tensor = categoryTensor(category)
        input = inputTensor(start_letter)
        hidden = rnn.initHidden()


        output_name = start_letter


        for i in range(max_length):
            output, hidden = rnn(category_tensor, input[0], hidden)
            topv, topi = output.topk(1)
            topi = topi[0][0]
            if topi == n_letters - 1:
                break
            else:
                letter = all_letters[topi]
                output_name += letter
            input = inputTensor(letter)


        return output_name


def samples(category, start_letters='ABC'):
    for start_letter in start_letters:
        print(sample(category, start_letter))


samples('Russian', 'RUS')
samples('German', 'GER')
samples('Spanish', 'SPA')
samples('Chinese', 'CHI')

通过本教程，你学会了如何使用 PyTorch 构建和训练字符级 RNN 模型，用于生成不同语言风格的姓名。

w3cschool 编程狮，随时随地学编程

PyTorch NLP From Scratch: 生成名称与字符级RNN

一、准备数据

二、构建网络

三、训练模型

1. 准备训练数据

2. 定义训练函数

3. 进行训练

四、网络采样

1. 绘制训练损失曲线

2. 生成姓名

PyTorch 入门

PyTorch 入门教程：60 分钟掌握深度学习基础

PyTorch 图片

Pytorch 音频

Pytorch 文本

PyTorch 命名为 Tensor(实验性）

PyTorch 强化学习

PyTorch 在生产中部署 PyTorch 模型

PyTorch 并行和分布式训练

PyTorch 扩展

PyTorch 模型优化

PyTorch 用其他语言

PyTorch 基础知识

PyTorch 笔记

PyTorch 语言绑定

Python API

PyTorch torchvision参考

PyTorch 音频参考

PyTorch 社区