東京大学大学院工学系研究科

ポストコロナ社会の未来構想

教育・研究の取り組み

 学術戦略室 特設サイト


「コロナ禍の大学教育・研究活動 ~試行錯誤の記録を残す~

回「マスク×マイク×ネット環境による音質劣化は学生の理解を低下させる!?」

前回に引き続き、音声工学の専門家 峯松信明先生(電気系工学専攻) にお話をうかがいます。前回はつの条件で発声・収録した音声の声紋パターンを説明してくださいましたが、今回は、日本人と留学生を対象に、12の条件で収録した日本語音声の聴取実験を行い、聞き取る側の理解ついて検討した結果を示してくださいます。マスクやフェイスシールドを装着することで、声がこもって聞き取りづらくなるのでしょうか? 皆さんが使っているPC内蔵マイクや外付けマイクを通した声を、日本語を母語としない留学生はしっかり聞き取れるでしょうか? 2度目の緊急事態宣言が発出され、オンライン授業の継続が求められる中、音声コミュニケーションの質を向上させるためのヒントが得られるかもしれません。【聞き手・編集 西村多寿子

前回は、Zoomを通すとスペクトルの高域成分が削られているといった話や、マスクやフェイスシールドの装着、webカメラや内蔵マイクを通して話した音声について、声紋パターンを示しつつ解説してくださいました。今回はさらに教育現場に即して、マイク・マスク・ネット環境の異なる状況したときに、それを聞いている学生さんの理解にどれぐらい影響を与えるかについて検討してくださったのですね。

峯松:我々のような音響屋は、さまざまな形で音質の劣化を調べます。例えば、wavファイルはオリジナルの音そのものだと思ってください。なるべく品質劣化しないようにサイズを削ったのがMP3です。MP3もサイズをどこまで削るかは様々で、圧縮率をあげれば、よりこもった声になります。音質の評価としては、原音にどれだけ近いのか、原音からどれぐらい歪んでいるのかを評価することになりますが、今回のテーマは聞き取りに影響を与えるかどうかなので、多少ひずんだところで聞き取りに影響なければ問題ないという立場で評価してみました

今回の実験使ったマイク、前回使った種類ですー USBのコンデンサーマイクが種類【1】【2】、それぞれの価格は1万5程度と5千円程度、両方とも外付けです。3つ目がラップトップPCの内蔵マイク【3】、4つ目がWebカメラ内蔵のマイク【4】。次に、マスクなどの防護具の条件は3種類としました。一つ目はマスクなし、2つ目が一般に使われている不織布マスクです。3つ目はフェースシールド+N95マスク、感染予防を徹底した医療現場で使われている防護具と同様のものを用意しました。

マイク条件数が、マスク条件数が3で、合計12種類の音声を用意しました1番目のコンデンサーマイクは、Zoomを通さず目の前のマイクに対して話した音声です。それ以外のマイクは、Zoomを通した音声になります。各条件に対して、日本語の読みやすさ(可読性)が中級と判定された、新型コロナウイルスに関する約30秒の文を一文ずつランダムに割り当てました。

コンデンサーマイク【1】
コンデンサーマイク【2】
PC内蔵マイク【3】
Webカメラ内蔵マイク【4】
マスクなし
不織布マスク
フェイスシールド+N95マスク

<「新しいコロナウイルス」の声紋パターンを比較する>

前回は6条件でのスペクトグラム、いわゆる声紋パターンを出しましたが、今回はマイク×マスクの12条件でのスペクトログラムを比較してみましょう。各条件に割り当てた約30秒の文の内容は違いますが、すべての文に共通して「新しいコロナウイルス」という言葉を入れましたので、その部分を抽出しました(右図)。横軸は時間、縦軸は周波数です。

1~34~6の違いは、コンデンサーマイクの種類とZoomを通したかどうかです。高価なマイクで直に収録した1~3に比べると、廉価なマイクでZoomを通した4~6は高域が削られているのが分かります。前回も話しましたが、Zoomを通すと12kHzあたりが境界になり、それより上が削られるようです。

スペクトログラムを見る限り、一般の不織布マスクだけ()であれば、マスクなし()との差は大きくありません。しかしのようにフェースシールド+N95マスクをすると、高域がより削られていますので、声のこもり方が強くなります。臨床現場での医療者と患者さんのコミュニケーションを考える上で参考になる情報だと思います。

4~67~9は、どちらもZoomを通していますので、マイクの違いだけです。細かいことを言うと4~6より7~9のほうが高域が出ていますが、似たような声紋パターンをしています。廉価なコンデンサーマイクとラップトップPC内蔵マの音質の差は、それほど大きくないと言えるでしょう。

10~12Webカメラ内蔵マイクで、10マスクなしでも、2kHzより下しかスペクトルが出ていません。マスクをしなくてもこもった声になるマイク悪い意味でマスクの影響が全くないマイクと言えるでしょう

「声がこもる」と表現してきましたが、Zoomを通して12kHzより高域が削られた中で、フェースシールド+N95により声がこもる場合と、Webカメラ内蔵マイクで2kHzより上がすべて削られる場合では、聞き取りへの影響は異なるでしょう。

前回、黒電話では4kHz以上が削られるという話をしましたが「黒電話だとすぐ近くに相手がいるように聞こえないから、こんなものは使えない」と不買運動が起こったことはありません。電話の音声としては、相手と会話するのに十分な品質だったということです。今回の実験では、各条件で収録された音声を流した場合に、聞き取りによる理解に影響が出るかどうかに注目しました。

<シャドーイング(shadowing) で聴解を測る>

聞き取りによる理解(聴解)の様子を時系列でモニタリングする方法としては、書き起こさせたり、瞳孔サイズや脳波を計測する方法もあります。書き起こさせると、あれこれ考えて書き起こす人がいるでしょうし、瞳孔や脳波の計測はお金がかかります。もっとお手軽に測れる方法として、我々はシャドーイング法を用いました。提示音声をシャドーイング(追唱、即時復唱)してもらい、シャドーイングの崩れを通して聴解が崩れる様子を定量化し、マイクの違いやマスク等の防護具の使用有無と聴解の関係を検討しました。

シャドーイングは「Repeat after me」のようなものです。英語学習で先生がしゃべった後に繰り返したことがあると思います。シャドーイングリピートしますが「after me」ではなくて、話し手が話している間に、それを聞きながらリピートします。聞いている内容が理解できないと、きちんとシャドーイングすることが難しくなり、途中で黙ってしまうこともあります。このシャドーイングを、外国語学習のために使うのではなく、提示された音声をスラスラ理解できているかどうかのチェックに使います。

被験者としては、日本語を母語とする日本人成人のほかに、日本語能力試験1級(N1)を有する留学生にも協力をお願いしました。音声の音質劣化は、その音声を母語とする聴取者よりも、その音声を非母語とする聴取者への影響の方が大きいことが予想されます。大学には留学生も多く、コロナ禍において、彼らは日本人学生と同様にオンラインで聴講しています。

シャドー崩れの定量化は、ふつうのシャドーイングの後に、提示音声の内容をテキストで示しながらのシャドーイング(スクリプト・シャドーイング)もしてもらい、2種類のシャドー音声を比較する形で行います。分析に協力してくれたのは、学部4年生の箱田君です(写真右)。実験協力者は、日本人が11名、N1保有の留学生が9名でした。結論から言うと、マスク条件によ差は、それほど大きくありませんでした。

詳しい分析方法と結果は3月の音響学会で発表予定ですが、上記の1~9の条件において、マスクなしに比べて、マスク等の防護具をつけて話した音声に対するシャドーイングの崩れは限定的でした。収録した文の聴解は、日本人でも留学生でも、個人内では大きく変化しなかったということです。

一方、マイク条件については、【4】のWebカメラ内蔵マイクを使った場合は、日本人でもシャドーイングが崩れる人がいました。実際のシャドーイングの音声を比較してみましょう。

まずは最高の条件、高品質のコンデンサーマイク【1】+マスクなしでの提示音声です。その横には、この提示音声に対する日本人のシャドー音声と留学生のシャドー音声を示しました。6秒程度の短文ですので、皆さんもぜひクリックして、シャドーイングしてみてください。(提示音声の文は、この記事の最後に掲載します)

峯松信明先生と箱田崚さん

A コンデンサーマイク【1】+マスクなしの提示音声:

B 提示音声に対する日本人のシャドー音声:

C 提示音声に対する留学生のシャドー音声:

次に、Webカメラ内蔵マイク+不織布マスクの条件で提示した音声と、その音声に対する日本人と留学生のシャドーイングの音声を示します。上記のスペクトログラム10~12でもわかるように、このWebカメラ内蔵マイクは2kHzより高域が削られて、こもった声になっています。先の条件では問題なくシャドーイングできていた日本人被験者も、次の提示音声では苦戦しています。留学生のシャドーはもっと崩れていますね。

D Webカメラ内蔵マイク【4】+不織布マスクの提示音声:

E 提示音声に対する日本人のシャドー音声:

F その音声に対する留学生のシャドー音声:

分析を進める中で、面白い事実に気づきました。シャドーイングの崩れを分析している訳ですが、マイクによる崩れの違い、マスクによる崩れの違い、ではなく、日本人と留学生の間でのシャドー崩れがどう違うかです。マイクやマスクの条件を揃えて、日本人集団と留学生集団を比べると、シャドー崩れは日本人のほうが格段に小さいです。

さらに「高品質マイク+マスクなし」の声に対する留学生のシャドー崩れは、どれくらい品質を落とした声に対する日本人のシャドー崩れに相当するかを見てみると、低品質のWebカメラ内蔵マイクの音声に対する日本人のシャドー崩れとほぼ同じでした。上記の音声で言えば、CEが対応します。

これは何を意味するのでしょうか?  シャドーイングが崩れるということは、音声を聞いているその場でスラスラ理解することが難しい状況にあると考えています。留学生が高品質な音声を聞いて即時的な理解がどのくらいできているのか、を考える場合、母語話者がWebカメラ内蔵マイクのこもった音声をシャドーしてみると直感的に把握できる、ということかと思います。

大学では、日本語で行われる授業に留学生が参加することは珍しくありません。彼らがどういう状況でその授業を聞いて理解しているのか、を考える良い素材になると思います。

また大学では日本人の先生方が英語で講義をし、それを留学生が聞くケースも多いです。研究室で行ったシャドーイング実験では、日本語は知らないが英語は流暢な留学生(ただし、英語母語話者ではない)でも、日本人の英語には難儀する様子が結果として出ています。マスク条件はあまり気にする必要はないと思いますが、今回の結果も含め、母語ではない言語で授業を聞く学生の様子を察することのできる結果だと思います。

<実社会でのマスクの影響を考える>

昨年7月ごろ、菅総理、当時は官房長官でしたが、それまでつけていたマスクを外して話したということで複数のメディアで報道されました。その際、マスクを外した理由について「マスクで声がこもり、聞こえづらいという指摘もあった」と説明していました。菅総理に限らず、政治家がマスクを外して話す場面は最近よく見られますが、この「マスクで声がこもる、聞こえづらい」という点について、今回の実験の分析結果を受けて、先生はどのようにお考えになりますか?

峯松:西村さんが紹介してくださった記事も読ませてもらいました。政治家だけではなく、医療の専門家など、何らかの情報を発信する方に対して、「マスクを外して話してほしい」といった要望があることは、おおよそ想像ができます。

今回の実験を行った上で、音声のコミュニケーションを専門とする私から何が言えるかということですが、2つのことを指摘したいと思います。

1つ目は、聞き手が一生懸命聞いている、聞くことに集中している状況であれば、マスクをつけることによる聞き取りへの影響は非常に小さいだろう、ということです。今回の実験では、被験者は音声を聞いてシャドーイングする作業だけに集中して、その他のことはやらなくてよい状況でした。学生がこの実験の時と同じように、常に集中して授業を聞いてくれているかは疑問ですが(笑)、そういった状況において、マスクの有無と聴解の関連は認められませんでした。

2点目は、声がこもることとは別の次元で、聞き取りに影響を与えることについてです。専門家が話すときには、一般の人にあまり馴染みのない専門用語が出てくることは避けられないと思います。

今回のシャドーイングの提示音声は、「新しいコロナウイルス」という言葉を含む、新型コロナウイルス感染に関係する話題に絞りました。また、固有名詞や日本の地名など、留学生には難しいかなと思われるような言葉は、文章中から積極的に除きました。しかし、専門家が話す場合、そういう配慮をしながら話す人もいれば、そうでもない人もいるでしょう。いずれにしても、ニュースになるような新規性のある話題の場合、日常的でない言葉を使った議論が展開されることはあるでしょう。

未知の単語が1つ出てくることで、その後に続く文脈の理解が妨げられることはあると思いますので、今回の結果がそのまますべての状況に当てはまるとは限りません。しかし我々、遠隔講義を提供する側にある人間として言えることは、講義音声に対して、十分な注意を向けて聞いてくれる学生であれば、マスクをつけることによる聞き取りへの影響はきわめて限定的だということです。まあ、学生は、十分な注意を払えるような語りをしてくれ、と言ってくるでしょうが(笑)。

今回の提示音声は、プロのアナウンサーではありませんが、教壇に立つ機会のある女性の声でした。実験に協力してくれたのは、日本人成人と、日本語能力試験1級を持つ中国人留学生でした。でも実社会では、もっと様々な話し手と聞き手がいますよね。

峯松:話し手が、相手の知識レベルをあまり考慮しないで専門用語を並べて話す場合、あるいは、聞き手が中学生、高校生、高齢者や耳の聴こえが悪い人だった場合、マスク等の防護具の有無、このような対象者や条件の違いで聞き取りが変化するのか、という話になるでしょう。もしそういう実験に興味がある方がいれば、そういう方々を連れてきていただければ、我々は分析することもできる思います。

先ほども述べましたが、マスクやフェイスシールドの有無よりも、低品質のマイクによる声質劣化の影響が大きいので、オンラインでコミュニケーションをする場合は、マイクの質や設置を確認して、自分の声がどのように伝わっているのかを確認するとよいでしょう。

マイクの設置についてですが、今回の実験の提示音声は、目の前のマイクに向かって話す形で収録しました。でも、ホワイトボードを使って講義をするような場合、PC内蔵マイクから立ち位置まで1メートル以上離れてしまうので、雑音が入りやすくなります。そういう場合は、ピンマイク(襟元につけるマイク)をつけて話せば、マイクと口の距離が固定されます。講義中によく動く先生は特に、ピンマイクを使うことをお勧めします。

峯松信明先生 教員室にて

  Aの提示音声の文:学校の子どもの写真をインターネットに出す人がいて問題になっています。

  Dの提示音声の文:新しいコロナウイルスは、うつる力が9時間続きました。

******************************

この連載記事は「ポストコロナの未来社会に関する新たな研究課題のスタートアップ支援」の助成を受け、西村多寿子(東京大学大学院工学系研究科 電気系工学専攻 特任研究員)が執筆します。西村は、連載記事の文責を負い、関連動画の編集に関与しています。

ご意見・ご感想は、 tazuko[a]gavo.t.u-tokyo.ac.jp ([a]を@に変換)にお願いします。