IT Text 自然言語処理の基礎

参加者

  1. 宇川 徹
  2. 中北 雄大
  3. 山本 悠統
  4. 伊藤 圭二郎
  5. 井上 大成
  6. 佐藤 健丈
  7. 前山 皓亮
  8. 川端 竜世
  9. 西上 貴雅
  10. 平賀 達也
  11. 吉田 紘陽

目次

第1章 自然言語処理の概要 [西上] 20ページ
 1.1 自然言語処理の応用
 1.2 コーパスと自然言語処理
  1. さまざまなコーパス
  2. 品詞の注釈付けの例
  3. コーパスに対する統計的な分析
 1.3 自然言語処理の難しさ
  1. 形態素解析
  2. 構文解析
  3. 意味解析
 演習問題

第2章 自然言語処理のための機械学習の基礎 [川端] 22ページ
 2.1 機械学習とは
 2.2 教師あり学習
 2.3 特徴量表現
 2.4 パーセプトロン
 2.5 ロジスティック回帰
  1. ロジスティック回帰モデル
  2. 最尤推定
  3. 確率的勾配降下法
 2.6 ソフトマックス回帰モデル
 2.7 機械学習モデルの評価 [吉田] 20ページ
 2.8 正則化
 2.9 ニューラルネットワーク
 2.10 計算グラフと自動微分
 2.11 ニューラルネットワークに関するその他の話題
 演習問題

第3章 単語ベクトル表現 [井上] 22ページ
 3.1 記号からベクトルへ
 3.2 素性関数による単語のベクトル表現
  1. 見出し語と語幹
  2. 語彙資源
 3.3 分布仮説と単語文脈行列
 3.4 特異値分解による次元削減
 3.5 Word2Vec:ニューラルネットワークによる学習
  1. CBoWモデル
  2. Skip-Gramモデル
  3. 負例サンプリング
  4. ハイパーパラメータの影響
 3.6 単語ベクトルの応用
 3.7 FastText:単語よりも小さな単位の利用
 3.8 単語ベクトル表現の課題と限界
 演習問題

第4章 系列に対するニューラルネットワーク [前山] 22ページ
 4.1 単語ベクトルの合成
 4.2 再帰型ニューラルネットワーク(RNN)
 4.3 勾配消失問題と勾配爆発問題
 4.4 長期短期記憶(LSTM)
 4.5 ゲート付き再帰ユニット(GRU)
 4.6 畳込みニューラルネットワーク(CNN)
 演習問題

第5章 言語モデル・系列変換モデル [山本] 34ページ
 5.1 言語モデル・系列変換モデルの導入
 5.2 言語モデルの定式化
 5.3 言語モデルの利用例
  1. 言語モデルでテキストの自然さを判定
  2. 言語モデルによるテキストの生成
 5.4 言語モデルの具体例1:nグラム言語モデル
 5.5 言語モデルの具体例2:ニューラル言語モデル
  1. 順伝播型ニューラル言語モデル
  2. 再帰型ニューラル言語モデル
 5.6 系列変換モデル
  1. エンコーダ(符号化器)
  2. デコーダ(復号化器)
  3. 注意機構
  4. 単語の生成処理
 5.7 言語モデルの評価:パープレキシティ
 5.8 未知語問題への対応
  1. 文字単位の処理
  2. 部分単語(サブワード)単位の処理
 演習問題

第6章 Transformer [中北] 24ページ
 6.1 Transformerの歴史的背景
 6.2 自己注意機構(セルフアテンション)
 6.3 Transformerの構成要素
  1. QKV注意機構
  2. マルチヘッド注意機構
  3. フィードフォワード層
  4. 位置符号
  5. 残差結合
  6. 層正規化
 6.4 学習時の工夫
  1. マスク処理
  2. 学習率のウォームアップ
  3. ラベルスムージング
  4. モデル平均化
 演習問題

第7章 事前学習済みモデルと転移学習 [佐藤] 26ページ
 7.1 事前学習済みモデルの背景
 7.2 デコーダの事前学習:GPT
  1. GPTの事前学習
  2. GPTを用いた転移学習
  3. 大規模言語モデルがもつ可能性
 7.3 エンコーダの事前学習:BERT
  1. BERTの事前学習
  2. BERTを用いた転移学習
  3. 単語や文の埋込み表現の抽出
 7.4 エンコーダ・デコーダの事前学習:BART
  1. BARTの事前学習
  2. BARTを用いたファインチューニング
 7.5 事前学習済みモデルと知識蒸留
  1. パラメータ削減によるモデルの小規模化
  2. 大規模モデルから小さなモデルの抽出
 7.6 事前学習済みモデル利用上の注意点
 演習問題

第8章 系列ラベリング [宇川] 20ページ
 8.1 系列ラベリングとは
 8.2 系列ラベリングの定式化
 8.3 点予測による系列ラベリング
 8.4 線形連鎖に基づく条件付き確率場
  1. 線形連鎖によるスコア付け
  2. ラベル列のラティス表現
  3. ビタビアルゴリズム
  4. 前向き・後ろ向きアルゴリズム
 演習問題

第9章 構文解析 [中北] 26ページ
 9.1 構文解析とは
 9.2 句構造解析
  1. 文脈自由文法
  2. 確率文脈自由文法とCKY法
  3. シフト還元法
  4. 文法・確率の学習
 9.3 依存構造解析
  1. CKY法
  2. シフト還元法
  3. 最大全域木法
 9.4 さまざまな構文解析手法
 演習問題

第10章 意味解析 [風間] 22ページ
 10.1 意味解析とは
 10.2 テキスト間含意関係認識
 10.3 ニューラルネットワークによる意味解析
 10.4 述語項構造解析
 10.5 論理表現
 10.6 セマンティnックパージング
 10.7 意味解析のその他の話題
  1. モダリティ
  2. 語義曖昧性解消,エンティティリンキング
  3. 談話解析,文脈解析
  4. 語用論
 演習問題

第11章 応用タスク・まとめ [平賀] 20ページ
 11.1 機械翻訳
 11.2 質問応答
  1. 知識ベースに基づく質問応答
  2. 情報検索に基づく質問応答
 11.3 対話
  1. タスク指向対話
  2. チャットボット
 11.4 自然言語処理の過去・現在
  1. 自然言語処理の黎明期
  2. 深層学習の導入
  3. 深層学習がもたらした変化

演習問題略解
参考文献

参考資料


風間 一洋