2019年度工学院大学 情報学部情報デザイン学科

音声認識と理解(Speech Recognition)[4H24]

試験情報を見る] [授業を振り返ってのコメント(学内限定)

2単位
管村  昇 教授  [ 教員業績  JP  EN ]
最終更新日 : 2019/11/12

<学位授与の方針>
1. 基礎知識の習得
2. 専門分野知識の習得
3. 汎用的問題解決技能
4. 道徳的態度と社会性

<授業のねらい>
AIスピーカー、スマートフォンやパソコン上で利用可能になった“音声認識と理解”の技術を,音声や言語についての科学と情報学の観点から理解し,“音声認識と理解”の技術を実際の問題解決に応用するための基礎力を習得する.

<受講にあたっての前提条件>
確率論,統計学,情報理論,ディジタル信号処理,音情報処理などを受講済みであれば,本科目をより詳しくより深く理解できる.情報学実験で音声分析と音声合成を体験していると,音声の特徴についてのイメージを持った状態で本科目を受講できる.

<具体的な到達目標>
・音声認識と理解の技術の概要解説ができる
・パターン認識の中での音声認識の位置づけを解説できる.
・音声認識結果候補の中から最適な結果を選ぶ際に用いるスコアの計算や
 モデル評価のための計算ができる.
・音声認識技術を活用したアプリケーションの開発を開始するための基本を解説できる.

<授業計画及び準備学習>
<すべての回に共通する準備学習>
・予習
  下記で指定する教科書の各回講義に該当する箇所を講義時間の前に読む.
  講義のキーワードについて教科書などを活用して調べておく.
  前回までの講義の内容を復習しておく.
・復習
  講義で解説された,概念,方式,用語を自分の言葉で説明でき,
  各種の計算を自分でできるように学習すること.
  可能であれば,自分のパソコン,あるいは,計算機室の計算機上で,
  実際に音声を扱ってみること(有用なソフトウエアの紹介は講義内で行う).

<授業計画>
・下記の計画で講義を行なう.数字は何回目の講義であるかを意味する.
・計算方法や手順の理解が必要となる回では演習とその解説も行なう.

@ 本科目の概要
 本科目の到達目標と13回の講義の概要をシラバスを参照しながら解説する.
 音声認識技術を構成する主要なモジュールである,音声分析による特徴量抽出,音響モデル,言語モデル,発音辞書,探索,などの概要を解説する.各モジュールの詳しい解説は2回目以後の講義で行なう.
 教科書の各章がおよそ何回目の講義に該当するかを説明する.

AB パターン認識の中での音声認識
 パターン認識の概念と,パターン認識の1つである音声認識の概説を行なう.

 キーワード:ベイズ識別,パターンマッチング,DPマッチング,
       生成モデル,識別モデル,音声認識
       特徴量抽出,音響モデル,言語モデル,探索,発音辞書

C 音声からの特徴量抽出
 音声認識技術を構成する1つのモジュールである音声分析,そこで抽出する特徴量について解説する. 

 キーワード:標本化,量子化,音声分析,スペクトラム,ケプストラム,MFCC,音素,
       Praat,Wavesurfer

DE 音響モデル
 音のモデルである音響モデルと特徴量との関係について解説する.

 キーワード:音響モデル,Gaussian Mixture Model, Hidden Markov Model(HMM),
       EMアルゴリズム,Viterbiアルゴリズム

FG 発音辞書と言語モデル
 音と単語とを結びつける発音辞書,単語間のつながりをモデル化した言語モデルについて解説する.

 キーワード:発音辞書,木構造辞書,重み付き有限状態トランスデューサ,
       統計的(確率的)言語モデル,N-gram,パープレキシティ

H 探索と近年の話題
 認識結果の候補となる単語がたくさん上がってくる中で,最適な結果を探す探索の技術を解説する.
 さらに,近年の音声認識技術についても触れる.

 キーワード:音声認識の探索,ビームサーチ,ビタービ探索,Deep Neural Network,WFST

IJ 音声理解
 音声認識によって,音を文字列に変えることができる.得られた文字列からその伝えたい内容を取り出す理解技術を解説する.

 キーワード:意図,発話行為,意味解析,意味表現,

K 応答手段としての音声合成
 音声を理解をした結果を示すには,計算機から何らかの反応を返すことが必要となる.
 その一つとしての音声合成の技術を解説する.
 音声を出力する側から考えることで,音声認識の技術への見方を広げることをねらいとする.

 キーワード:アクセント,イントネーション,テキスト解析,狭義の音声合成,
       波形素辺接続合成,統計的パラメトリック合成

L 総復習

M 学習内容の振り返り
【実務経験のある教員による授業科目】
NTT研究所で音声認識の研究、応用、実用化に携わった経験を活かし、研究を進める上での問題解決法、実用化のための課題などを織り交ぜながら講義を進める。

<成績評価方法>
100点を満点とする期末定期試験を実施し,期末試験(100%)の成績をもとに
理解度をA+,A,B,C,D,FのGradeで評価し,D以上の者に単位を認める.
期末定期試験には,紙製の{書籍,ノート,プリント}のみの持ち込みを許可する.
(期末定期試験時は電子書籍と電話やPC等の通信機能を有する機器の持ち込みは許可しない.)

追試験や再試験は行わないので、よく復習して試験に臨むこと。

<教科書>
荒木雅弘著,イラストで学ぶ音声認識,講談社(2015).

<参考書>
指定参考書は無い.
必要に応じて講義時間内に紹介する.

<オフィスアワー>
原則、質問は講義時間中または講義終了後に教室で受け付ける.
別途質問したい場合は、事前にメール等で連絡をすること。

<学生へのメッセージ>
・教科書を事前にしっかりと読んでから,出席してほしい.
・音声認識と理解についての技術基礎を講義する.将来,音声言語処理を専門にしたい学生には基礎となる.
 別の分野を専門にしようとする学生は,時間変化するパターンの認識技術として,将来の自分の専門にどう活かすかを 考えて欲しい。.
・実社会での活用事例も紹介するが,これは本講義の主目的ではないので,フリーソフトの音声認識器を活用しながら,あるいは,世の中のサービス事例を利用しながら,
 自分で考えてほしい.


ナンバリングはこちら
このページの著作権は学校法人工学院大学が有しています。
Copyright(c)2019 Kogakuin University. All Rights Reserved.