2016年度工学院大学 情報学部情報デザイン学科
音声認識と理解(Speech Recognition)[3L13]
2単位 中嶋 秀治 非常勤講師
- <授業のねらい>
- スマートフォンやパソコン上で利用可能になり始めた音声認識と理解の技術を,
音声や言語についての科学と情報学の観点から理解し, 音声認識と理解の技術を実際の問題解決に応用するための基礎力を習得する.
- <受講にあたっての前提条件>
- 特に前提はないが,
確率論,統計学,情報理論,ディジタル信号処理,音情報処理などを受講していると, 本科目をより詳しく理解できる.
- <具体的な到達目標>
- ・音声認識と理解の技術の概要の解説ができる
・パターン認識の中での音声認識の位置づけを解説できる. ・音声認識結果の多くの候補の中から最適な結果を選ぶ際に用いるスコアの計算ができる. ・音声認識技術を活用したアプリケーションの開発を開始するための基本を解説できる.
- <授業計画及び準備学習>
- <すべての回に共通する準備学習>
・予習 下記で指定する教科書の各回講義に該当する箇所を講義時間の前に読む. 講義のキーワードについて教科書などを活用して調べておく. 前回までの講義の内容を復習しておく. ・復習 講義で解説された,概念,方式,用語を自分の言葉で説明でき, 各種の計算を自分でできるように学習すること. 可能であれば,自分のパソコン,あるいは,計算機室の計算機上で, 実際に音声を扱ってみること(有用なソフトウエアの紹介は講義内で行う).
<授業計画> ・下記の計画で講義を行なう. ・計算方法や手順の理解が必要となる回では演習とその解説も行なう.
1.本講義の概要 本講義の到達目標と15回の講義の概要をシラバスを参照しながら解説する. 音声認識技術を構成する主要なモジュールである, 音声分析による特徴量抽出,音響モデル,言語モデル,発音辞書,探索, などの概要を解説する.各モジュールの詳しい解説は2回目以後の講義で行なう.
2〜3.パターン認識の中での音声認識 パターン認識の概念と,パターン認識の1つである音声認識の概説を行なう.
キーワード:ベイズ識別,パターンマッチング,DPマッチング, 生成モデル,識別モデル,音声認識 特徴量抽出,音響モデル,言語モデル,探索,発音辞書
4.音声からの特徴量抽出 音声認識技術を構成する1つのモジュールである音声分析, そこで抽出する特徴量について解説する.
キーワード:標本化,量子化,音声分析,スペクトラム,ケプストラム,MFCC,音素, Praat,Wavesurfer
5〜6.音響モデル 音のモデルである音響モデルと特徴量との関係について解説する.
キーワード:音響モデル,Gaussian Mixture Model, Hidden Markov Model(HMM), Forward-Backwardアルゴリズム,Viterbiアルゴリズム
7〜8.発音辞書と言語モデル 音と単語とを結びつける発音辞書, 単語間のつながりをモデル化した言語モデルについて解説する.
キーワード:発音辞書,木構造辞書,重み付き有限状態トランスデューサ, 統計的(確率的)言語モデル,N-gram,パープレキシティ
9.探索と近年の話題 認識結果の候補となる単語がたくさん上がってくる中で, 最適な結果を探す探索の技術を解説する. さらに,近年の音声認識技術についても触れる.
キーワード:音声認識の探索,ビームサーチ,ビタービ探索,Deep Neural Network,WFST
10〜11.音声理解 音声認識によって,音を文字列に変えることができる. 得られた文字列からその伝えたい内容を取り出す理解技術を解説する.
キーワード:意図,発話行為
12.応答手段としての音声合成 音声を理解をした結果を示すには,計算機から何らかの反応を返すことが必要となる. その一つとしての音声合成の技術を解説する. 音声を出力する側から考えることで,音声認識の技術への見方を広げることをねらいとする.
キーワード:アクセント,イントネーション
13. 総復習
14.期末定期試験(学習成果の確認)←今年度から!
15.試験の振り返り
- <成績評価方法>
- 100点を満点とする期末定期試験を実施し,その得点が60点以上の者を合格とする.
- <教科書>
- 荒木雅弘著,イラストで学ぶ音声認識,講談社(2015).
紙製の書籍のみ期末定期試験への持ち込みを許可する. (期末定期試験時は電子書籍と電話やPC等の通信機能を有する機器の持ち込みは許可しない.)
- <参考書>
- 指定参考書は無い.
必要に応じて講義時間内に紹介する.
- <オフィスアワー>
- 質問は講義時間中または講義終了後に受け付ける.
- <学生へのメッセージ>
- ・教科書を事前にしっかりと読んでから,出席してほしい.
・音声認識と理解についての技術基礎を講義する.将来,音声言語処理を専門にしたい学生には基礎となる. 別の分野を専門にしようとする学生は,時間変化するパターンの認識技術として, 将来の自分の専門にどう活かすかを考えるとよいだろう. ・実社会での活用事例も紹介するが,これは本講義の主目的ではないので, フリーソフトの音声認識器を活用しながら,あるいは,世の中のサービス事例を利用しながら, 自分で考えてほしい.
このページの著作権は学校法人工学院大学が有しています。
Copyright(c)2016 Kogakuin University. All Rights Reserved. |
|