Home

平成30年度大分県技術・市場交流プラザ大分IoT製品開発案件

～電動福祉器具の音声制御化に向けた

Google AIY Voice Kit V2 + Snowboyによる検証機作成～

作成日：2019/03/07

ドキュメント作成者：浜野遼太郎

回路製作協力：羊木堂の川野航平

「オムツ交換補助装置」の音声制御化に向け，スマートスピーカーGoogle AIY Voice Kit V2を用いた検証機作成の手順と開発メモ．

検証機
1. 検証機の全体像と説明
2. 検証機デモプログラムの使い方
3. RaspberryPiZero内のディレクトリ構造と主要プログラム・ライブラリの説明
4. 検証用デモの電源投入～シャットダウンまでの技術的フローの概要
5. 回路図
検証機作成の流れ
1. Google Voice Kit V2のセットアップ
2. テスト回路の作成と制御
3. GoogleCloudspeechAPIのデモプログラムの動作と改良
4. Snowboyによるホットワードの導入
5. ホットワードのテスト
6. プログラムの自動起動に関して
外部録音機器の使用
1. PulseAudioとALSAについてとPulseAudioの設定法
2. Bluetoothヘッドセットの使用(奮闘記メモ)
そのほか
1. メモ
2. 所感

1. 検証機

1-1. 検証機の全体像と説明

検証機に搭載している回路は白のフォトカプラを挟んでRaspberryPi側とドライバ回路側で分かれており，電源系統も2本のUSBケーブルで分かれています
モータードライバICはTOSHIBAのTA7291Pです．モーターへの印加電圧が1.7Vになるように回路側の抵抗で調整しています．交換できるようにピンソケットに差し込んでいますが，ICの印字面がシールの貼られている向きと揃うように注意してください
DCモーターは定格3VのFA-130RA-2270です
ロボの目にはGPIO出力テスト用のLEDがついています
パラレルケーブルに関しては差し込む向きに注意してください．緑側から5V，PIN_A，PIN_B，PIN_C，PIN_D，GNDとなっているので向きを間違えるとフォトカプラが故障する恐れがあります．色のついたシールを貼っているのでそれに合わせて差し込んでください
USBマイクは特殊なドライバを要求されるものでなければ基本どんなものでも動くはず．
現状搭載しているモバイルバッテリーは何も接続していない状態でもUSBポートから3.7v程度出力が出るため，使用しない間はUSBケーブルを抜いてください
開発時点におけるVoice Kitの周辺接続については，VoiceKit段ボール側面の"Power"へ5VのACアダプタ，"Data"へUSBハブ及びキーボード，"HDMI"へHDMI-miniHDMI変換ケーブルを挟んでディスプレイを接続しています．なお，USBハブは2.0でないと使えないため注意してください(ソース)

1-2. 検証機デモプログラムの使い方

現時点(2019/03/05)では，デモとして検証時にディスプレイがなくても動作させられるように，電源投入から検証用プログラムが自動で立ち上がり音声命令でラズパイを終了できるようになっています（ただし，Wi-Fiの接続設定をする必要があるためそこでディスプレイが必要かも）．以下はそのデモの流れです．

電源を投入してから1分40秒～2分待機すると本体上部のボタンが白色に光ります．これはGoogleCloudspeechの初期化のための音声入力待ちです．何か適当な単語をマイクに喋るか，10秒程度待つと初期化が終了しボタンの光が消えます．正常に動作が行われると次に，青色に光ります．これがSnowboyによるホットワードの待機状態で，"てっちゃん"と"OK Google"の2つのホットワードを待ちます．

"OK Google"と呼ぶと「なんでしょうか？」と返事が返され，ボタンが赤く光りGoogleAssistantの入力待ち状態になります．"天気を教えて"など喋りかけるとそれに応じた答えを返します．答えを喋り終えるか，何もこちらがしゃべりかけずにしばらくするとボタンの光が赤から青へ戻り，Snowboyによるホットワード待ちの状態に戻ります．

"てっちゃん"と呼ばれると命令待機状態へ遷移します．命令待機状態では本体上部のボタンが緑色に光り，これがGoogleCloudspeechAPIによる音声認識待機状態で，以下のワードを認識すると，ボタンが黄色に点滅しつつそれぞれに応じた挙動を示します．(ただし，インターネットに接続できていなければ音声認識できないためボタンの光は緑色の状態から変化しません)

"つけて"(検出ワード内に含まれる)：ロボの目が点灯します
"消して"(検出ワード内に含まれる)：ロボの目が消灯します
"前"(検出ワード内に含まれる)：キャタピラで前に進みます
"後"(検出ワード内に含まれる)：キャタピラで後ろに下がります
"止めて"(検出ワード内に含まれる)：キャタピラが停止します
"ストップ"(検出ワード内に含まれる)：キャタピラが停止します("止めて"と機能は全く同じ)
"シャットダウン"(検出ワードと完全一致)：RaspberryPiがシャットダウンします(この時だけボタンは黄色ではなく紫色で点滅します)

その後はまた，ボタンが青色に光りホットワードの待機状態に戻ります．シャットダウンはおよそ30秒～40秒で完了するので，タイミングを見計らってUSBケーブルを抜いてください．ちなみに上部のボタンは緊急停止スイッチとなっており，ロボの目を消灯し，キャタピラを強制停止します．

1-3. RaspberryPiZero内のディレクトリ構造と主要プログラム・ライブラリの説明

/└home＿└pi＿＿├AIY-projects-python（/opt/aiy/projects-pythonへのシンボリックリンク．/home/piにあるAIY-voice-kit-pythonというフォルダはこのAIY-projects-pythonへのシンボリックリンク）＿＿│├AIY-projects-shell.sh（検証用デモプログラムplazaoita2018_190319demo.pyをモデルファイルを指定して実行するためのシェルスクリプト．crontabで自動実行しているのはこのファイル．）＿＿│└src＿＿│＿├aiy（GoogleAIYのpythonのAPIが入っている．GoogleAssistantAPIやGoogleCloudspeechAPIのラッパーもこの中にあるので関数，クラスの内容を詳しく見るならここ）＿＿│＿│└以下省略＿＿│＿├examples（GoogleAIYシリーズのpythonサンプルプログラムが入っている）＿＿│＿│└voice（GoogleAIYVoiceKit向けのpythonサンプルプログラムが入っている）＿＿│＿│＿├ShutdownAfter5sec.sh（plazaoita2018_190319demo.pyが正常終了してからRaspberryPiをシャットダウンさせるためのプログラム．"シャットダウン"の呼びかけ時に呼び出している）＿＿│＿│＿├TestingTestBoard.py（自作回路のモーターとLEDをテスト動作させるプログラム．→2-2参照）＿＿│＿│＿├cloudspeech_demo_ja.py（GoogleCloudspeechAPIのデモプログラムを日本語命令に対応させたもの．→2-3参照）＿＿│＿│＿├assistant_grpc_demo.py（Google提供のGoogleAssistantAPIデモプログラム．→2-1参照）＿＿│＿│＿├assistant_grpc_demo_snowboy_by_mongonta0716.py（mongonta0716様によるassistant_grpc_demo.pyにSnowboyを追加したプログラム．→2-4参照）＿＿│＿│＿├plazaoita2018_190319demo.py（検証用デモプログラム．がAIY-projects-shell.shを通してこれを起動している．実行時には末尾に"--model モデルファイル"を指定する．→2-4参照）＿＿│＿└mod（SnowboyのpythonAPIとホットワードのモデルが入ったフォルダ）＿＿│＿＿└resources（ホットワードのモデル関連のディレクトリ）＿＿│＿＿＿├alexa（"アレクサ"のホットワードモデルファイルが入っているディレクトリ）＿＿│＿＿＿└models（ホットワードモデルファイルが入ってるディレクトリ．"てっちゃん"と"OK Google"のモデルはここ）＿＿├assistant.json（GoogleAssistantAPIを使用するための資格情報が記述されたファイル→2-1参照）＿＿└cloud_speech.json（GoogleCloudspeechAPIを使用するための資格情報が記述されたファイル→2-3参照）

1-4. 検証用デモの電源投入～シャットダウンまでの技術的フローの概要

電源を入れるとRaspberryPiが立ち上がり，しばらくするとcrontabにより/home/pi/AIY-projects-python/AIY-projects-shell.shが実行されます．

AIY-projects-shell.shの中ではpythonプログラムである/home/pi/AIY-projects-python/src/examples/voice/plazaoita2018_190319demo.pyの実行と，そのpythonプログラムへ渡すSnowboyモデルのパス（/home/pi/AIY-projects-python/src/mod/resources/models/てっちゃん.pmdlと同フォルダのokgoogle.pmdl）を引数として指定しています．

plazaoita2018_190319demo.pyが起動すると上部のボタンが白く光り，GoogleCloudspeechの初期化のために一度音声入力関数が呼び出されます．これはプログラムが起動してから初めて音声入力関数を呼び出したときの，Googleのサーバーへの接続を確立するために時間がかかって実際に音声を受け付けるまでインターバルが生じる問題の対策として呼び出しています．この時，インターネットへの接続が正常に完了していないとCloudspeechの関数から抜けられないため，上部ボタンのLEDが白から変化しません．20秒程度待っても上部ボタンの光が変化しない場合はネット接続を疑ってください．

その後はメインループに入り上部ボタンが青色に点灯し，Snowboyによる入力待ち状態に遷移します．"てっちゃん"→"シャットダウン"によるシャットダウン処理では，/home/pi/AIY-projects-python/src/examples/voice/ShutdownAfter5sec.shを呼び出しています．これは，普通にpythonプログラム内でShutdownコマンドを呼び出すとpythonプログラムが正常終了する前にシャットダウンプロセスに突入するのを回避するためです．また，shutdownコマンドには時間差でシャットダウンする機能もあるのですが指定可能な単位が分単位であり時間がかかりすぎるため，ShutdownAfter5sec.sh内でsleepコマンドにより5秒待機してからsudo shutdown -h nowを実行しています．

以上が技術的フローの概要です．以下に主要なソースコードを掲載します．

ShutdownAfter5sec.sh

#!/bin/shecho 'Shutdown after 5seconds'sleep 5 echo 'Shutdown'sudo shutdown -h now

plazaoita2018_190319demo.py

#!/usr/bin/env python3# Copyright 2017 Google Inc.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the License.# You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.
"""A demo of the Google Assistant GRPC recognizer."""import syslogsyslog.openlog(logoption=syslog.LOG_PID, facility=syslog.LOG_SYSLOG)# どの地点で問題が生じているかデバッグ用に自作した関数。もう不要def logger(message): syslog.syslog(syslog.LOG_INFO, message)logger('プログラム開始')
import argparseimport localeimport loggingimport signalimport subprocessfrom signal import pause
import sys
from time import sleepimport os
import RPi.GPIO as GPIO
from aiy.assistant.grpc import AssistantServiceClientWithLedimport aiy.boardfrom aiy.board import Board, Ledfrom aiy.leds import Leds, Color, Patternfrom aiy.cloudspeech import CloudSpeechClient
from aiy.voice.tts import sayfrom aiy.voice.audio import play_wav
from gpiozero import LED, Buttonfrom aiy.pins import PIN_A, PIN_B, PIN_C ,PIN_D ,BUTTON_GPIO_PIN
import mod.snowboydecoder as snowboydecoder
# 効果音のパスの指定STARTSNOWBOY = 'src/mod/resources/dong.wav'CALLEDASSISTANT = ['src/mod/resources/se/お呼びでしょうか.wav', 'src/mod/resources/se/なんでしょうか.wav']
VOICE = 'src/mod/resources/se/本田先生のお返事/woman/'#VOICE = 'src/mod/resources/se/本田先生のお返事/original/'#CALLEDTETTYAN = 'src/mod/resources/se/Motion-Pop02-3.wav'CALLEDTETTYAN = VOICE + 'なんだ.wav'LIGHTON = VOICE + 'お電気つけます.wav'LIGHTOFF = VOICE + 'お電気消します.wav'BYEBYE = VOICE + 'バイバイ.wav'FORWARD = VOICE + '前に進みます.wav'BACKWARD = VOICE + '後ろに下がります.wav'STOP = VOICE + '止まります.wav'GIVEMELARGE = VOICE + 'マイクに口を近づけてゆっくりと丁寧にしゃべってください.wav'CANTHEARED = VOICE + '聞き取れませんでした.wav'
# GPIOピンをテスト回路用に設定ramp1 = LED(PIN_C)ramp2 = LED(PIN_D)motorR = LED(PIN_A)motorL = LED(PIN_B)
# 緊急停止用の割り込み処理関数def CallBackEmergencyStop(channel): motorR.off() motorL.off() ramp1.off() ramp2.off()
# 上部ボタンの入力(立ち上がりエッジ)を緊急停止処理関数のトリガーに設定GPIO.setmode(GPIO.BCM)LEDButtonPin = 23GPIO.setup(LEDButtonPin, GPIO.IN, GPIO.PUD_UP)GPIO.add_event_detect(LEDButtonPin, GPIO.FALLING, callback=CallBackEmergencyStop, bouncetime=300)
# サンプルプログラムに書いてあったもの。ぶっちゃけもう不要def get_hints(language_code): return None
# サンプルプログラムに書いてあったもの。ぶっちゃけもう不要def volume(string): value = int(string) if value < 0 or value > 100: raise argparse.ArgumentTypeError('Volume must be in [0...100] range.') return value
# サンプルプログラムに書いてあったもの。GoogleCloudspeechを日本語で動作させるために必要def locale_language(): language, _ = locale.getdefaultlocale() return language
# Snowboy用。Snowboyの関数には与えたbool型の引数の状態を常に監視する仕組みがあり、引数の返り値がTrueになるとSnowboyの関数から抜ける。interrupted = Falsedef interrupt_callback(): global interrupted return interrupted
# Snowboyが"てっちゃん"を検出したときに実行されるコールバック関数。def callback_cloudspeech(leds, client, args): play_wav(CALLEDTETTYAN) print('支持をください') leds.update(Leds.rgb_on(Color.GREEN)) # GoogleCloudspeechによる音声認識処理。文字列を返す。無音を検知したり、7秒程度発話がないと自動で抜ける。 text = client.recognize(language_code=args.language) leds.update(Leds.rgb_off())
def success(): logging.info('"%s"' % text) leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.YELLOW)) def failed(message=None): leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.RED)) if message is None: play_wav(CANTHEARED) print('支持が聞こえませんでした') else: logging.info('"%s"' % message) play_wav(GIVEMELARGE)
# 以下テキストに応じた処理。ifの条件式がinのとこはtextと部分一致すれば処理される。==のとこは完全一致じゃないと処理されない。 if text is None: failed() else: flag = False if 'つけて' in text: flag = True success() play_wav(LIGHTON) ramp1.on() ramp2.on() elif '消して' in text: flag = True success() play_wav(LIGHTOFF) ramp1.off() ramp2.off()
if '止めて' in text: flag = True success() motorR.off() motorL.off() play_wav(STOP) elif 'ストップ' in text: flag = True success() motorR.off() motorL.off() play_wav(STOP) elif '前' in text: flag = True success() play_wav(FORWARD) motorR.off() motorL.on() elif '後' in text: flag = True success() play_wav(BACKWARD) motorR.on() motorL.off()
if 'シャットダウン' == text: flag = True success() play_wav(BYEBYE) leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.PURPLE)) sleep(3) ramp1.off() ramp2.off() motorR.off() motorL.off() leds.update(Leds.rgb_off()) # 自作の5秒後にシャットダウンするスクリプトを実行。プログラム正常終了前にシャットダウンするのを回避する用 cmd = "sudo sh /home/pi/AIY-projects-python/src/examples/voice/ShutdownAfter5sec.sh" subprocess.Popen(cmd.split()) #os.system("sudo shutdown -h now") print('シャットダウンします') exit() if flag == False: failed(text)
#sleep(3) # Snowboyの関数から抜けるためにTrue global interrupted interrupted = True
# Snowboyが"OK Google"を検出したときに実行されるコールバック関数。def callback_assistant(assistant): play_wav(CALLEDASSISTANT[0]) logging.info('Conversation started!') # GoogleAssisttantの音声入力とその答えを返す処理。便利。 assistant.conversation() # Snowboyの関数から抜けるためにTrue global interrupted interrupted = True
def main():
logger('main開始') logging.basicConfig(level=logging.DEBUG) signal.signal(signal.SIGTERM, lambda signum, frame: sys.exit(0)) # サンプルからそのまま。お約束らしい(?)。多分いらない
# mongonta氏のサンプルより。Cloudspeechの言語指定とSnowboyのモデル指定のための構造体 parser = argparse.ArgumentParser(description='Assistant service example.') parser.add_argument('--language', default=locale_language()) parser.add_argument('--volume', type=volume, default=100) # 下一文はSnowboyのモデルの指定に用いる。nargsに*を代入しておくと複数のモデルを利用することが可能。 parser.add_argument('--model', nargs='*', default='src/mod/resources/alexa/alexa_02092017.umdl') args = parser.parse_args() print(args.model) hints = get_hints(args.language)
logger('Board()とLeds()の初期化開始') with Board() as board, Leds() as leds: # GoogleCloudspeechを使う準備。インスタンス作成 client = CloudSpeechClient() # GoogleCloudspeechのサーバとの接続確立のために一度呼び出し leds.update(Leds.rgb_on(Color.WHITE)) client.recognize(language_code=args.language, hint_phrases=hints) leds.update(Leds.rgb_off()) logger('Snowboyの初期化開始') # Snowboyを使う準備。初期設定。インスタンス作成 detector = snowboydecoder.HotwordDetector(args.model, sensitivity=0.5) # GoogleAssistantを使う準備。インスタンス作成 logger('Assistantの初期化開始') assistant = AssistantServiceClientWithLed(board=board, volume_percentage=args.volume, language_code=args.language) # このプログラムを呼び出す際に指定したSnowboyのモデルの数に応じて、Snowboyのコールバック関数の数を指定 logger('Snowboyのコールバック関数の設定') callbacks=None if len(args.model)==1: print('number of models is one.') callbacks=callback_cloudspeech elif len(args.model)==2: print('number of models is two.') # 以下lambda式で関数を指定しないと、ただ関数が実行されてその結果が代入されるのでlambda式を利用している。 callbacks=[lambda: callback_cloudspeech(leds=leds, client=client, args=args), lambda: callback_assistant(assistant=assistant)]
logger('while loop開始') while True: print('ホットワードを唱えてください') #say('Please you call hotword') # 英語でメッセージを発話させる logger('STARTSNOWBOY再生') play_wav(STARTSNOWBOY) logger('ボタンLEDを青に') leds.update(Leds.rgb_on(Color.BLUE)) #board.button.wait_for_press() # 上部のボタンが押されるまで待機 global interrupted interrupted=False
logger('snowboy検出待機') # Snowboyによるホットワード検出処理。検出するまでメインループはここでストップ detector.start(detected_callback=callbacks, interrupt_check=interrupt_callback)
if __name__ == '__main__': main()

1-5. 回路図

回路は下図に示すように2つのフォトカプラ(TLP621-2)を挟んで電源系統が分かれている．モーターやロボの目のLEDをドライブするドライバ回路側は黄色のUSBケーブルから電源供給を受ける．電源系統を分けた理由は，モーターの始動電流が大きく電源電圧が一時的に降下してGoogleAIYのRaspberryPiZeroに乗っかっているボンネット回路がリセットされてGPIOピンの出力がオフになるのを回避するためである．

プリント基板の回路図はドライブのCircuitフォルダにAIY.pcbとして保存してます．

2. 検証機作成の流れ

2-1. Google Voice Kit V2のセットアップ

Voice Kit本体のセットアップは基本的にGoogle AIY Voice Kit V2の公式ページの"RUN THE ASSISTANT DEMO”までの手順に従った．これで，GoogleAssistantAPIを使用したデモプログラムを動作できる．いくつかメモとして，

"GET THE LATEST SYSTEM IMAGE"において，OSについてはGitHubのgoogle/aiyprojects-raspbianからaiyprojects-2018-11-16.img.xzをダウンロードし，Etcher(1.4.9)でSDカードに書き込んだ．
OSの初回起動時には地域や言語の設定ウィザードが表示される．aiyprojects-2018-11-16.img.xzのサンプルプログラムではここで設定した言語が音声認識のデフォルトになるため日本語を選択したほうが楽(なおpythonプログラムの方で言語を指定することも可)
"Setup the Assistant"の項目ではSSH接続をしなかったので"SSH TO YOUR KIT"の手順は省略し，RaspberryPiにディスプレイをつなげて直接操作した
GoogleAssistantAPIのデモプログラムassistant_grpc_demo.pyの実行に際して，GoogleCloudPlatformで設定を行ったのちに得られる資格情報が記述されたjsonファイルを/home/piに置く必要があるが，当ドライブのjsonフォルダにassistant.jsonとして保存してあるのでラズパイのユーザーディレクトリ(/home/pi)に保存すれば使える
Wi-Fiへの接続はデスクトップ右上のWi-Fiアイコンをクリックして設定した

2-2. テスト回路の作成と制御

Voice Kit V2では5VピンとGNDピン，そしてA，B，C，Dの4本のGPIOピン計6本が使える(参考)．ロボの目のLED(PIN_C，PIN_D)とモーター制御(PIN_A，PIN_B)として回路を作成した．なお，パラレルケーブルのコネクタの向きとモータードライバICの向きには気を付けること．パラレルケーブルの向きを間違えると最悪フォトカプラが壊れます．モータードライバICの向きを間違えるとおそらくモータードライバICが壊れます．モータードライバICはシールとICの印字面が揃うように，パラレルケーブルはシールと色が揃うように差し込んでください．

テスト回路の動作試験用に/home/pi/AIY-projects-python/src/examples/voice(当ドライブの/PiPrograms/home/pi/AIY-projects-python/src/examples/voice)にTestingTestBoard.pyを用意しています．実行するには．

~ $ ./AIY-projects-python/src/examples/voice/TestingTestBoard.py

2-3. GoogleCloudspeechAPIのデモプログラムの動作と改良

2-1の手順ではGoogleAssistantAPIのデモプログラムを動作させることができるが，これは話しかけた内容に対する答えをGoogleAssistantが返すものであり，GPIO等の制御はできない．そこで話しかけた内容をテキストとして得られるGoogleCloudspeechAPIのデモプログラムを動かす．なお，こちらの音声認識処理は有料．手順は2-1で取り組んだセットアップの少し下(こちら)．ここではGoogleCloudspeechAPI用の資格情報のcloud_speech.jsonを作成するが，当ドライブのjsonフォルダに保存してあるのでダウンロードして/home/piに置くと良い．

そして，日本語に対応させたのが/home/pi/AIY-projects-python/src/examples/voice/cloudspeech_demo_ja.py(当ドライブのPiPrograms/home/pi/AIY-projects-python/src/examples/voice/cloudspeech_demo_ja.py) (下記)．RasPiで実行するには

~ $ ./AIY-projects-python/src/examples/voice/cloudspeech_demo_ja.py

これで音声を日本語のテキストで得られる．

cloudspeech_demo_ja.py(ver1の旧仕様のプログラムのため正しく動かすにはGPIOピンのPIN_Dを読み込んでピンアサインを変える必要がある)

#!/usr/bin/env python3# Copyright 2017 Google Inc.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the License.# You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.
"""A demo of the Google CloudSpeech recognizer."""import argparseimport localeimport logging
from aiy.board import Board, Ledfrom aiy.cloudspeech import CloudSpeechClient
#from aiy.leds import (Leds, Pattern, PrivacyLed, RgbLeds, Color)from gpiozero import LEDfrom gpiozero import Button# from subprocess import check_call システム関数をコールするっぽいfrom signal import pause
from aiy.pins import PIN_Afrom aiy.pins import PIN_Bfrom aiy.pins import PIN_C
def get_hints(language_code): if language_code.startswith('en_'): return ('turn on the light', 'turn off the light', 'blink the light', 'goodbye') return None
def locale_language(): language, _ = locale.getdefaultlocale() return language
def main():
#GPIOピンの定義 ramp = LED(PIN_A) motorR = LED(PIN_B) motorL = LED(PIN_C)
logging.basicConfig(level=logging.DEBUG)
parser = argparse.ArgumentParser(description='Assistant service example.') parser.add_argument('--language', default=locale_language()) args = parser.parse_args()
logging.info('Initializing for language %s...', args.language) hints = get_hints(args.language) client = CloudSpeechClient() with Board() as board: while True:
if hints: logging.info('Say something, e.g. %s.' % ', '.join(hints)) else: logging.info('Say something.') # 音声入力を受け付けるところ text = client.recognize(language_code=args.language, hint_phrases=hints) if text is None: logging.info('You said nothing.') continue
logging.info('You said: "%s"' % text) # テキストを小文字に変換 text = text.lower() if 'turn on the light' in text: board.led.state = Led.ON elif 'turn off the light' in text: board.led.state = Led.OFF elif 'つけて' in text: #board.led.state = Led.ON ramp.on() elif '消して' in text: #board.led.state = Led.OFF ramp.off() elif '右に回して' in text: #board.led.state = Led.ON motorR.on() motorL.off() elif '左に回して' in text: #board.led.state = Led.OFF motorL.on() motorR.off() elif 'ストップ' == text: #board.led.state = Led.OFF motorL.off() motorR.off() elif '止めて' in text: #board.led.state = Led.OFF motorL.off() motorR.off() elif 'blink the light' in text: board.led.state = Led.BLINK elif 'goodbye' in text: break
if __name__ == '__main__': main()

2-4. Snowboyによるホットワードの導入

2-3のGoogleCloudspeechAPIのデモプログラムでは，VoiceKit本体上部のボタンを押してから音声認識を受け付けるためハンズフリーを目指してホットワードを導入する．なお，先のプログラムにおいてボタンの入力待ち処理を取り払っただけだと，ホットワードは不要だがずっと料金が生じるらしい(参照)．

SnowboyはKITT AIの提供するホットワード作成サービスであり，自分でホットワードを作成できる．1人の声によるホットワード検知モデル(pmdlファイル)を作成するにはホットワードを3つ録音するだけ．ただし，こちらとこちらによると多様な人々が使えるホットワード検知モデル(lmdlファイル)を作成するには英語は500人以上，日本語は2000人以上のサンプルが必要．なお，umdlファイルとしてKITT AIより"Alexa"，"Jarvis"，"Snowboy"，"SmartMirror"のホットワード検知モデルが提供されている．各モデルの詳細についてはKITTA AIのGitHubを参照

GitHubのKITT AIのSnowboyのページにはGoogleAIY向けのデモコードが配布されているが，現時点では最新のGoogleAIYのAPIに対応していないためこちらのサイト様(mongonta555様)を参考にして改変されたSnowboyのライブラリとデモコードを導入する．これでGoogleAssistantAPIのデモコードをホットワードで動作できる．実行するには，

~ $ ./AIY-projects-python/src/examples/voice/assistant_grpc_demo_snowboy_by_mongonta0716.py --model=AIY-projects-python/src/mod/resources/alexa/alexa_02092017.umdl

これをベースにGoogleCloudspeechAPIが動作するように改変したのが以下．

改変の流れ．KITT AI(Apache2.0)→senyoltw(Apache2.0)→mongonta555(Apache2.0)→浜野(Apache2.0)

下記コードはApache License, Version 2.0 のライセンスで配布されている成果物を含んでいます。 http://www.apache.org/licenses/LICENSE-2.0

さらに，以下のコードには2-3のソースをなぞりつつ追加で，

VoiceKit本体上部のボタンを非常停止スイッチにする ※1
状態に応じて上部のボタンのLEDの色を変更する
シャットダウン処理の追加
微妙な修正

処理を書き加えている．

動作させるためにモデルを引数として与える必要があるため，/home/pi/AIY-projects-python/AIY-projects-shell.sh(当ドライブのPiPrograms/home/pi/AIY-projects-python/AIY-projects-shell.sh)にあるようにスクリプトを組んでホットワードモデルファイルを指定している．実行するには，

~ $ ./AIY-projects-python/src/examples/voice/plazaoita2018_190131demo.py --model=AIY-projects-python/src/mod/resources/alexa/alexa_02092017.umdl

これでホットワードを検知してから音声認識に入ることができる．

以下は検証機が自動起動するプログラム(ver1の旧バージョンのプログラム．最新版は1章に掲載)

※1 非常停止スイッチの導入にあたりRPi.GPIOによりGPIOピンの立ち上がり検出を行おうとしたところ[failed to add edge detection]エラーが発生．原因はRPi.GPIOライブラリ(0.6.4~stretch-1)のバグとのことでここを参考に最新版へとアップデートした．手順は以下．

$ sudo pip uninstall RPi.GPIO$ sudo pip3 uninstall RPi.GPIO$ sudo apt-get install python-rpi.gpio python3-rpi.gpio

plazaoita2018_190131demo.py(ver1の旧仕様のプログラムのため正しく動かすにはGPIOピンのPIN_Dを読み込んでピンアサインを変える必要がある)

#!/usr/bin/env python3# Copyright 2017 Google Inc.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the License.# You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.
"""A demo of the Google Assistant GRPC recognizer."""
import argparseimport localeimport loggingimport signalfrom signal import pause
import sys
from time import sleepimport os
import RPi.GPIO as GPIO
# from aiy.assistant.grpc import AssistantServiceClientWithLedimport aiy.boardfrom aiy.board import Board, Ledfrom aiy.leds import Leds, Color, Patternfrom aiy.cloudspeech import CloudSpeechClient
from aiy.voice.tts import say
from gpiozero import LED, Buttonfrom aiy.pins import PIN_A, PIN_B, PIN_C ,BUTTON_GPIO_PIN
import mod.snowboydecoder as snowboydecoder

ramp = LED(PIN_A)motorR = LED(PIN_B)motorL = LED(PIN_C)
def CallBackEmergencyStop(channel): motorR.off() motorL.off() ramp.off()
GPIO.setmode(GPIO.BCM)LEDButtonPin = 23GPIO.setup(LEDButtonPin, GPIO.IN, GPIO.PUD_UP)GPIO.add_event_detect(LEDButtonPin, GPIO.FALLING, callback=CallBackEmergencyStop, bouncetime=300)
def get_hints(language_code): return None
def volume(string): value = int(string) if value < 0 or value > 100: raise argparse.ArgumentTypeError('Volume must be in [0...100] range.') return value
def locale_language(): language, _ = locale.getdefaultlocale() return language
def main():
logging.basicConfig(level=logging.DEBUG) signal.signal(signal.SIGTERM, lambda signum, frame: sys.exit(0))
parser = argparse.ArgumentParser(description='Assistant service example.') parser.add_argument('--language', default=locale_language()) parser.add_argument('--volume', type=volume, default=100) parser.add_argument('--model', default='src/mod/resources/alexa/alexa_02092017.umdl') args = parser.parse_args()
hints = get_hints(args.language)
client = CloudSpeechClient() detector = snowboydecoder.HotwordDetector(args.model, sensitivity=0.5) with Board() as board, Leds() as leds: ''' assistant = AssistantServiceClientWithLed(board=board, volume_percentage=args.volume, language_code=args.language) ''' while True: #logging.info('Press button to start conversation...') print('ホットワードを唱えてください') #say('Please you call hotword')
leds.update(Leds.rgb_on(Color.BLUE)) #board.button.wait_for_press() detector.start() # logging.info('Conversation started!') # assistant.conversation() print('支持をください') leds.update(Leds.rgb_on(Color.GREEN)) text = client.recognize(language_code=args.language, hint_phrases=hints) leds.update(Leds.rgb_off()) if text is None: leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.RED)) print('支持が聞こえませんでした') else: logging.info('"%s"' % text)
leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.YELLOW))
if 'つけて' in text: ramp.on() elif '消して' in text: ramp.off() elif '右に回して' in text: motorR.on() motorL.off() elif '左に回して' == text: motorR.off() motorL.on() elif '止めて' in text: motorR.off() motorL.off() elif 'ストップ' == text: motorR.off() motorL.off() elif 'シャットダウン' == text: leds.pattern = Pattern.blink(500) leds.update(Leds.rgb_pattern(Color.PURPLE))
sleep(3) ramp.off() motorR.off() motorL.off() leds.update(Leds.rgb_off()) os.system("sudo shutdown -h now") print('シャットダウンします') exit()
sleep(3) continue
if __name__ == '__main__': main()

2-5. ホットワードのテスト

Snowboyが提供するumdlファイルをテストした感想

[Alexa]：結構反応する。
[Snowboy]：若干ネイティブっぽい発音でないと反応しない(「すのーぼーい」では反応しない)
[Jarvis]：モデルファイルの読み込みができない．どうやらバグらしい．
[SmartMirror]：そこそこ「すまーとみらー」で反応する

自作のモデルpmdlファイルをテストした感想

[どらえもん]：まったく認識しない
[やっほー]：認識する．あっほーでも反応する．
[どらえもん]2回目：認識しづらい

Snowboyを使った感想として，自作モデルを作る場合はイントネーションを変えてモデルを作った方が良い．その時の気分や声を張り上げるなどでピッチやイントネーション，速度が変わると認識してくれなくなる．

2-6. プログラムの自動起動に関して

ディスプレイなしでも検証機を動作させられるように，先のAIY-projects-shell.shをrc.localにより呼び出す．Raspbian Stretchではこっちよりsystemdの方が推奨されてるが，うまく実装するに至らなかったためこちらを参考にrc.localにより実装した．

~~上記サイトを参考にして，Raspbianのバージョンが新しいとrc.localがデフォルトでは使えないため設定を少々弄る．~~

~~$ sudo rapsi-config でラズパイコンフィグを立ち上げ，[Boot Options] – [B2 Wait for Network at Boot] で [はい] を選択する．そして再起動．$ sudo reboot~~

~~/etc/rc.localには，exit 0の直前に2行付け足しただけ．自動起動を止めたい場合は，追加した2行を#でコメントアウトして再起動すればよい．~~

ディスプレイなしで検証機を動作させられるように，先のAIY-projects-shell.shをcrontabで呼び出す．rc.localを使わなくなった理由として，GoogleAssistantのpythonサンプルプログラムが一般ユーザーが実行することを前提に作られているようで，rc.localで立ち上げるとスーパーユーザーで実行することになりうまく動作しなくなったため．ライブラリのコードをたどるとassistant.jsonの保存先が"~/assistant.json"になっている(いた気がする)ためだろうと思われるのでそこを変更すればrc.localでも動かせるはずだが，念を入れて一般ユーザーで自動実行可能なcrontabを使用した．(raspbian jessie以降はrc.localよりもsystemdが推奨されているらしい)

ここを参考にまずcrontabの設定を行う．

その後，ここを参考に下記のようにしてcrontabによる自動実行を設定した．

$ crontab -e ←これでcrontabの設定ファイルをnanoエディターで開く

@reboot /home/pi/AIY-projects-python/AIY-projects-shell.sh ←ページ最下部へ左を追記

Ctrl + Xを押して，Yで上書き保存．

これでcrontabにより自動実行が設定できた．

~~rc.local~~(現在は使っていない)

~~#!/bin/sh -e~~#~~# rc.local~~#~~# This script is executed at the end of each multiuser runlevel.# Make sure that the script will "exit 0" on success or any other# value on error.~~#~~# In order to enable or disable this script just change the execution# bits.~~#~~# By default this script does nothing.~~
~~# Print the IP address_IP=$(hostname -I) || trueif [ "$_IP" ]; then~~ ~~printf "My IP address is %s\n" "$_IP"~~fi
~~cd /home/pi/AIY-projects-pythonsh AIY-projects-shell.sh~~
~~exit 0~~

3. 外部録音機器の使用

3-1. PulseAudioとALSAについてとPulseAudioの設定法

検証機を動作させたとき，モーターを回すとその騒音により音声認識ができなくなる問題が確認できた．ノイズが大きすぎるせいだと考えられる．そこで，今後指向性マイクなどを利用することなどを合わせて考えて，外部録音機器による使用を検討してみる．

まず，SnowboyとGoogleCloudspeechがどのように音声を録音しているか調べてみた．pythonのライブラリを辿っていくとどちらも，/home/pi/AIY-projects-python/src/aiy/voice/audio.pyのRecorderクラスを利用していることが分かった．さらに見てみると，そのクラスはarecord関数を実行しており，その中でUnixコマンドのarecordコマンドを下記のように呼び出していることが確認できた．

arecord -q -D default -t raw -c 1 -f s16 -r 16000

オプションについて調べてみると以下のような感じ．

-q：arecordから標準出力へ(?)メッセージを出力しない，サイレントモード．
-D default ：サウンドカード，デバイスの指定．"default"の場合，ちと特殊な動作(下記参照)
-t raw ：ファイルタイプ．生データ
-c 1 ：チャンネル数．モノラル
-f s16 ：量子化数．符号付き16bit
-r 16000 ：サンプルレート

ここの"-D"オプションによるサウンドカードの指定を変更することで切り替えることができる．それに関して色々とまとめる．

現状のLinux環境ではオーディオ周りにALSAとPulseAudioが大きく影響してくる．ここによるとざっくりしたイメージとしてALSAが低レベルな感じで古く，PulseAudioが新しくて高レベルな制御を提供している感じ．arecordコマンドはalsa時代からのコマンドだが，コマンドを叩くとサウンドカード・デバイスを独占してしまい，他のアプリがそのサウンドカード・デバイスを使用できなくなってしまう．そこでPulseAudioがサウンドカード・デバイスを管理することで，独占されることなくサウンドカード・デバイスを利用できる．arecordのオプションで"-D"にdefaultを指定するとPulseAudioを通ってサウンドカード，デバイスをコントロールするらしく，サウンドカード，デバイスの独占がなくなる．"hw:0,0"などと指定するとPulseAudioを経由せずにサウンドカード・デバイスを直接呼び出すため，その間"hw:0,0"を他では使えなくなる．(hw:1,0など異なるサウンドカードは使えるっぽい)

ということで，今回の検証機ではPulseAudio経由でUSBマイクを使用することにした．

PulseAudioでUSBマイクを使用する方法は下記の通り．

USBマイクをRaspberryPiに接続し，RaspberryPiで"PulseAudio Volume Control"を立ち上げる(デスクトップにショートカットアイコンがある)．その後，"設定"タブへ行きUSBマイクが認識されていることを確認する（今回の検証機で使用したUSBマイクは"CM108 Audio Controller"と表示され，GoogleAIYのRaspberryPiZeroにくっついてるボンネット回路のスピーカーとマイクは"aiy-voicebonnet"と表示される）．その後，plazaoita2018_190319demo.pyが実行されていることを確認した上で，"録音(R)"タブをクリックして，"ALSA plug-in [aplay]:ALSA Capture から"のすぐ右のボタンをクリックして使用したいマイクを選択する．今回は"CM108 Audio Controller アナログモノ"を選択した．これでデフォルトマイクを変更できる．その後，再起動して再度"PulseAudio Volume Control"を開き，plazaoita2018_190319demo.pyが実行されていることを確認した上で"録音(R)"タブで"CM108 Audio Controller アナログモノ"が選択されていればOK．

これでUSBマイクを使用することができる．

備忘録："PulseAudio Volume Control"の録音タブでplazaoita2018_190319demo.py実行中にリアルタイムでマイクを切り替えることができるみたいだが，結構な頻度でプログラムがバグって止まるのであまりお勧めできない．

3-2. Bluetoothヘッドセットの使用(奮闘記メモ)

USBマイクが使用できたので，Bluetoothヘッドセットによる使用ができないか奮闘したがうまくいかなかったのでメモ．

結論から言うと，AXS-08だと音声入力時にノイズが乗り，それ録音して聞いてみると何と言っているか聞き取れないわけではないがSnowboyなどの音声認識には使えない程度のノイズ．推測だがPulseAudioのバージョン(raspberry Piに現状入っているのはバージョン10)が低いため生じるバグではないかと思われる．最新版のソースコード(バージョン12)をメイクして使えれば良いのではないかと予想．
今回，Bluetoothヘッドセットとして利用しようとしていたのはHFP/HSPプロファイル対応のAXS-08ヘッドセット．Bluetoothの音声転送に関するプロファイルはいくつかあって，そのうちHFPはハンズフリープロファイル．HSPはヘッドセットプロファイルでHFPがHSPの上位互換(互換性はない)と言われている．
GoogleAIYV2に搭載されているRaspberryPiZeroにはBluetoothモジュールが内蔵されているため外付けなしでBluetoothが利用できる．
以下のコマンドを叩いて必要なパッケージをインストールする．

sudo apt-get install pi-bluetooth blueman ofono rtkit pavucontrol pulseaudio-module-bluetooth

これでBluetoothヘッドセットを使用できるようになる．ただし，ノイズが乗る．

4. そのほか

4-1. メモ

録音したファイルを再生してみる場合はaplayコマンドを使うと良い(これで再生できるのはwavファイルのみ)
GoogleCloudspeechの現在の利用料金の確認はGooglePlatformにアクセスして「お支払い」→「レポート」→「フィルタのグループ条件をSKUに変更」で確認することが可能．ただし反映されるのは翌日になる．
自動起動により立ち上げたpythonデモプログラムを止めるには$ ps auxf コマンドでpython3 plazaoita2018_190319demo.pyのプロセスを探してPID番号を確認し，$ sudo kill [PID番号]（例. $ sudo kill 502)で止める．
aiy.tts.sayによりテキストを喋らせることも可能．ただし，英語以外の言語を喋らせる場合はGoogleCloudspeechAPIと同じように料金が生じるらしい
組み込み機器としての利用でない場合，CloudSpeechAPI は音声ファイルの総時間が毎月1時間無料，以降15s/0.6cent かかる．1ワードの認識に7秒だとすると一月あたり514回，1日あたり17回．1$=110円とするなら，1時間分は158.4円．(組み込み機器としての利用の場合は要問合せ)
VoiceBonnetのGPIOピンはPWM等簡単に使えるらしい．参考
Snowboyの商用利用について．参考
vimの初期カラーの変更はここを参考に/etc/vim/vimrcを~にコピーして，syntax onのコメントを抜いて，末尾にcolorscheme eveningを追加した
シャットダウン処理は普通にshutdownコマンドを指定すると分単位でしか処理を実行できないため，こちらを参考にして5秒sleepしてからシャットダウンするシェルスクリプトを別に作成してそれを子プロセスとして呼び出している
検証用デモプログラムをrc.localにより自動起動すると，PulseAudioを経由せずにalsaで直接録音するようになる(らしい)．検証用デモプログラムを改めて立ち上げなおすとPulseAudioを経由するようになる(PulseAudioVolume Controlで確認した)．

4-2. 所感

GoogleAIYのAPIがそこそこな頻度でアップデートされ，ライブラリ名や関数名が変わっており当初困惑した．ネット上に上がっている”AIYやってみた"系の記事はAPIアップデート前のものが多くサンプルプログラムが参考にならない．今回の実装においては直近のブログのみを調べたり，APIリファレンスやライブラリを直接読み解いていった．なお，Voice Kit V1の時にはGoogleCloudspeechAPIではなくGoogleAssistantAPIにより音声からテキスト取得できたらしく料金もかからなかった(?)らしい(情報元 "#オリジナルの動作をさせるには，Assistantは使わない”の項)．
AIYのラズパイは簡単にaptアップグレードしないほうがよさそう．サンプルプログラム等が動かなくなる．また，ラズパイZeroのスペックでaptアップグレードを始めるとえげつない時間がかかるため，それならAIYのページから最新版のイメージを持ってきてSDに書き込んだほうが良い．
現状，GoogleCloudspeechAPIにより呼びかけから得られる文字列は自動で漢字が割り振られた状態で得られるが，単語では同音異義語は区別できず"あめ"は"雨"と"飴"を言い分けても"雨"と返っててくる．しかし，長文になると文脈から判断して正しい漢字を返してくる．例えば"あめをたべる"は"飴を食べる"，"あめをのむ"は"雨を飲む"．また，条件は不明だがひらがなとカタカナが入り混じった状態で返ってくることもある．例えば"こんにちはちわちわちわわわわわわ"と発音すると"こんにちわ｜コンニチワちわ｜チワちわ｜チワちわ｜チワわ｜ワわ｜ワわ｜ワわ｜ワわ｜ワ "と返ってくる．
pythonでは文字列の部分一致と完全一致の評価を"=="と"in"で簡単に使い分けられるため，会話音などのノイズが乗ったりする環境の場合に使い分けるとよさそう．
Voice Kit V2の段ボール外部に記載された"GPIO"から引き出せるGPIOピンは4本だが，これらはRaspberryPiZeroのGPIOと直接つながっておらず，こちらによるとVoice Bonnetのマイクロコントローラによる拡張ピンだそう．また，こちらによるとRasPiZeroのGPIOピンはかなり余っているため専用回路を作成すればGPIOピンは増やせそうだ．これに関しては，RPi.GPIO関数で一部のピンが制御できることを確認済み．さらにUSBやBluetoothなどのマイクを用意すればそもそもVoice Bonnetを使用せずとも音声認識できるのではないか(未検証)．
GPIOの制御にgpiozeroとRPi.GPIOを使用しているが，gpiozeroはRPi.GPIOのラッパー的位置付けらしいのでたぶん大丈夫...
Cloudspeechは現状の設定では，ひたすら唱え続けるとずっと録音しつづけて料金がかかるため，秒数で止める改良が必要かも．
USBヘッドセット~~やBluetoothヘッドセットなど~~により音声認識が可能であることが確認できた．指向性が必要ならば指向性マイクを導入すればよさげ．
マイクの音質に依存する．マイクの種類を取り換えた場合は音声認識テストを行ったほうが良い．
緊急停止を音声により制御する場合は，RaspberryPiの別プロセスでSnowboyを立ち上げ"ストップ"や"緊急停止"などのホットワードを検出して強制停止するプログラムを立ち上げるのが良いかも．ただし，RaspberryPiZeroのスペック的に並列で処理を行うのは厳しそう．RaspberryPI3もしくは2B+くらいあった方が安心．
Snowboyはホットワードは複数設定できることがわかっているので，音声検知をGoogleCloudspeechから全部Snowboyに変えることもできるかも（ただし，命令の個数だけパブリックなモデルを作る必要がある．）．また，その場合オフラインで動作させることができる．
ホットワード検出からGoogleCloudspeechまで若干のインターバルがある件について，音声検出で使っているarecordコマンドは標準出力(?)に生データを吐き出しているだけなので，一定時間生データを貯めるようにしておいてSnowboyが反応したら1~2秒直前の音声データも含めてCloudSpeechへ投げるようにすればインターバルをなくせると思う．

平成30年度 大分県技術・市場交流プラザ大分IoT製品開発案件