2014年度工学院大学 情報学部情報デザイン学科

音声認識と理解(Speech Recognition)[3D17]

試験情報を見る] [授業を振り返ってのコメント(学内限定)

2単位
中嶋 秀治 非常勤講師  
最終更新日 : 2015/02/13

<学位授与の方針>
1. 基礎知識の習得
2. 専門分野知識の習得
3. 汎用的問題解決技能
4. 道徳的態度と社会性
5. 創成能力

<授業のねらい>
スマートフォンやパソコン上で利用可能になり始めた音声認識と理解の技術を,
音声言語の科学と情報学の観点から理解し,
音声認識と理解の技術を実際の問題解決に応用するための基礎力を習得する.

<受講にあたっての前提条件>
特に前提はないが,
確率論,統計学,ディジタル信号処理,音情報処理などを受講していると,
本科目をより詳しく理解できる.

<具体的な到達目標>
・音声認識と理解の技術の概要の解説ができる
・パターン認識の中での音声認識の位置づけを解説できる.
・多くの音声認識結果の候補中から最適な結果を選ぶ際に用いるスコアの計算ができる.
・音声認識技術を活用したアプリケーションの開発を開始するための基本を身につけることができる.

<授業計画及び準備学習>
<すべての回に共通する準備学習>
・予習
 講義のキーワードについて参考書など活用して調べておく.
 前回までの講義の内容を復習しておく.
・復習
 講義で解説された,概念,方式,用語を自分の言葉で説明でき,
 各種の計算をできるように学習すること.
 可能であれば,自分のパソコン,あるいは,計算機室の計算機上で,
 実際に音声を扱ってみること.

<授業計画>
・下記の計画で講義を行なう.
・計算方法や手順の理解が必要となる回では演習とその解説も行なう.
・レポート課題を出し,解説を講義の中で行なう.

1.本講義の概要
 本講義の到達目標と15回の講義の概要をシラバスを参照しながら解説する.
 音声認識技術を構成する主要なモジュールである,
  音声分析による特徴量抽出,
  音響モデル,
  言語モデル,
  発音辞書,
  探索,
 などの概要を解説する.各モジュールの詳しい解説は2回目以後の講義で行なう.

2〜3.パターン認識の中での音声認識
 パターン認識の概念と,パターン認識の1つである音声認識の概説を行なう.

 キーワード:ベイズ識別,パターンマッチング,DPマッチング,
        生成モデル,識別モデル,音声認識
        特徴量抽出,音響モデル,言語モデル,探索,発音辞書

4.音声からの特徴量抽出
 音声認識技術を構成する1つのモジュールである音声分析,
 そこで抽出する特徴量について解説する. 

 キーワード:標本化,量子化,音声分析,スペクトラム,ケプストラム,MFCC,音素,
        Praat,Wavesurfer

5〜6.音響モデル
 音のモデルである音響モデルと特徴量との関係について解説する.

 キーワード:音響モデル,Gaussian Mixture Model, Hidden Markov Model(HMM),
        Forward-Backwardアルゴリズム,Viterbiアルゴリズム
 レポート課題:6回目の講義でHMMのスコア計算の課題を出す.
         解答は7回目の講義の冒頭で解説する.

7〜8.発音辞書と言語モデル
 音と単語とを結びつける発音辞書,
 単語間のつながりをモデル化した言語モデルについて解説する.

 キーワード:発音辞書,木構造辞書,重み付き有限状態トランスデューサ,
        統計的(確率的)言語モデル,N-gram,パープレキシティ
 レポート課題:8回目の講義で統計的言語モデルの良さを測る尺度の計算問題を出題する.
         解答は9回目の講義の冒頭で解説する.

9.探索と最新の話題
 認識結果の候補となる単語がたくさん上がってくる中で,
 最適な結果を探す探索の技術を解説する.
 さらに,最新の音声認識技術についても触れる.

 キーワード:音声認識の探索,ビームサーチ,ビタービ探索,Deep Neural Network,WFST

10〜11.音声理解
 音声認識によって,音を文字列に変えることができる.
 得られた文字列からその伝えたい内容を取り出す理解技術を解説する.

 キーワード:発話行為
 事前検討課題:発話の話し手と聞き手との間で対話が行われると,何が起こるのかを考えること

12.応答手段としての音声合成
 音声を理解をした結果を示すには,計算機から何らかの反応を返すことが必要である.
 その一つとしての音声合成の技術を解説する.
 音声を出力する側から考えることで,音声認識の技術への見方を広げることをねらいとする.

 キーワード:アクセント,イントネーション
 レポート課題:音声認識の応用に関しての課題を講義で出題する.
         解答は13回目の講義の冒頭で解説する.

13〜14.使ってみよう!作ってみよう!
 総復習,および,音声認識の利用法とそれを使ったアプリケーション開発の基本を解説する.

 キーワード:HTK,Julius,WEBプログラミング

15.学習成果の確認

<成績評価方法及び水準>
講義で3回出題する課題への解答レポート(合計30点)と
期末定期試験(70点)の合計100点で評価を行う.
総合評点60点以上を合格とする.

<教科書>
指定教科書なし

<参考書>
中川聖一編著,音声情報処理と自然言語処理,コロナ社(2013)
荒木雅弘著,フリーソフトで作る音声認識システム,森北出版(2007)
鹿野清宏他,音声認識システム,オーム社(2001)

 上記の3冊はHTK,Julius,などのソフトウエアの解説もあり,実習の参考になる.

Dan Jurafsky,Speech and Language Processing (2nd. ed),ピアソン(2009)

 英語の音声言語処理,英語での音声認識技術を学ぶ場合の参考になる.

<オフィスアワー>
質問は講義時間中または講義終了後に受け付ける.
あるいは,具体的に記載された質問紙,レポートに書かれた質問も受け付ける.
提出された質問への回答は講義の中でおこなう.

<学生へのメッセージ>
音声は我々の日常のコミュニケーションで多用されるメディアである.人間だけではなくコンピュータが音声を認識し理解できるようになれば,非常に便利なことが多く,今とてもホットな技術分野になってきた.時間変化する音声が対象であり,人間の知恵を最もつぎ込んだ技術の1つになっており,(DNAのシーケンス解析などの)さまざまな他の問題にも転用が可能な技術である.スマートフォンやPCで実際に利用しているとうまく声が認識されない場合もあるが,本講義を通して,現在の技術の長所短所,うまく使うにはどうすれば良いか,という観点からも,しっかり勉強して欲しい.興味を持つことが何よりの動機なので,どんどんPCの音声認識を使ってみて,積極的に参加してほしい.


このページの著作権は学校法人工学院大学が有しています。
Copyright(c)2014 Kogakuin University. All Rights Reserved.