CRFを用いた日本語アクセント結合推定

Home>accent

TASET

日本語東京方言のアクセントには,アクセント結合と呼ばれる現象が存在します.
アクセント結合とは,単独で発声した場合と,文中で発声した場合とで,アクセントが変化する現象です.
例えば,「カレー」「うどん」と単独で発声したときのアクセントは,
「カレーうどん」と連続で発声したときのアクセントと異なります.

日本語のテキストからの音声合成(Text To Speech; TTS)を行うには,テキストから文中のアクセントを決定する必要があります.
しかし,辞書(UniDic など)には,単独発声した場合のアクセント情報は登録されていても,
文中アクセントそのものは登録されていないため,自分で文中アクセントを推定する必要があります.

日本語東京方言のアクセント結合を自動推定するためのプログラム群を提供します.
さらに,openjtalk を用いて TTS を行うスクリプトも同時に提供しています.

TASET によるアクセント結合推定は,以下のデモサイトで体験することができます.
TASET 本体を利用する前に,まずはこちらで遊んでみるのをおすすめします.

TASET は修正 BSD ライセンスです.
python スクリプトとシェルスクリプトで構成されているため,それらが正しく動作する環境であれば,TASET も動作します.
テストは linux 環境でのみ行なっています.

ご利用の前に, mecab (unidic, utf-8),cabocha (unidic, utf-8),crf++ をインストールしパスを通しておく必要があります.
mecab,cabocha は辞書に unidic ,エンコードに utf-8 を利用していることを前提にしているため,注意してください.

なお,TASET の一部のプログラム(モデル学習に関するプログラム)を動かすためには,
別途配布予定のアクセントデータベースが必要になります.
具体的には,taset/train/ 以下のプログラムを利用するために,
taset/train/01mkdata/in/ 以下に jnas_test.txt, jnas.txt, label.txt を置くことが想定されています.

これらのデータは,JNAS もしくは S-JNAS の購入者に限り,無償配布しております.
データを利用されたい方は,
峯松信明(mine (at) gavo.t.u-tokyo.ac.jp)か,
私,鈴木雅之(suzukimasayuki (at) gmail.com)まで,お問合せ下さい.

また TASET に関する技術的な内容は,こちらの論文で発表しています.

鈴木雅之,黒岩龍印南圭祐小林俊平清水信哉峯松信明広瀬啓吉
電子情報通信学会論文誌, Vol.J96-D, No.3, pp.644-654

OJAD

TASET は,日本語 TTS 以外の応用にも利用されています.

Online Japanese Accent Dictionary は,日本語学習者のためのオンラインアクセント辞書です.
日本語のアクセントの学習は,活用によってアクセントが変化するため,容易ではありません.
実際,多くの日本語教師が,アクセントのことを授業で教えていないという現実があるようです.

そこで OJAD では,用言の活用形のアクセント型まで辞書として表示することにより,
日本語の学習者に,日本語のアクセントの学習を行いやすくすることを目指しています.

TASET は,OJAD の機能の一つである「韻律読み上げチュータスズキクン」で利用されています.
このシステムは,日本語文章を入力すると,それに対応するピッチパターンのイメージ図を表示してくれます.

この機能は,TASET を使ってアクセント核の位置を推定した後,
藤崎モデルを用いてピッチパターンを描くことで実現されています.
ċ
taset-1.2.tar.gz
(7792k)
Masayuki Suzuki,
Feb 4, 2013, 1:10 AM
Comments