東京大学大学院工学系研究科

ポストコロナ社会の未来構想

教育・研究の取り組み

  学術戦略室 特設サイト


「コロナ禍の大学教育・研究活動 ~試行錯誤の記録を残す~

回「マスク×マイク×ネット環境によっては 授業の質が低下する!?

コロナ禍の大学教育研究活動 ~試行錯誤の記録を残す~」の趣旨は大きく分けて2つあります。1つ目は教育現場の生の声で残すことであり、2つ目は、オンライン授業を構築・改良する際に役立ちそうな情報を積極的に取り上げて発信することです。今回(連載 第5回)は、音声工学・音響音声学の専門家である峯松信明先生(写真左)にご登場いただき、オンラインを通して、他者とコミュニケーションをと際に留意すべきことについて伺います。【聞き手・編集 西村多寿子(写真右)

新型コロナウイルス感染拡大防止のため、オンラインで講義をおこなったり、学会発表したりすることが日常になってきました。人の声に注目したとき、対面とオンラインの授業で違うところは何ですか?

峯松: 学生は自宅からアクセスすることが多いですが、Zoom越しの声を聞いていると、使っているマイクや、ネットワークの混雑具合などによって、音声が変わってきます。また対面とオンラインのハイブリッド授業では、教師はマスクやフェイスシールドをつけて話さなければならないので、口の動きが制限されるなどして、ふだんとは少し話し方になることもあります。

実際にあった話ですが、うちの研究室の留学生が学会英語で発表したのですが、ふだんと違って、すごくこもった声になっていました。英語は上手な子だったのですが、発表内容を聞き取れない人が多かったのではないかと、ちょっと残念に思いました。

先生には、事前に音声資料をお送りしていました。「くれよん」という詩です。いろは歌のように50音が全部揃っている詩になっていまして、それを複数の異なる条件下で朗読して録音したものを先生にお送りしました。今日は、これらを分析してくださったものを提示していただきます。

峯松: 西村さんには、いろんな環境で音を録ってもらいましたまずは、マイクの違いとZoomの有無による音の違いを見てみましょう。一つ目は、USBのコンデンサーマイクロフォンで、1万5円ぐらいするものです(写真)。オンライン配信で、小型でいい音れるということだったので、私もそれを買いました。「くれよん」の詩の冒頭「なつのひる クレヨンもらい 絵をかきました」を朗読してもらい、ネットを通さずに、パソコンで録ったそのままの音を提示します【音声1】。それをZoom通して録ったのが二つ目です【音声2】。三つ目は、西村さんが自宅で使われているUSBのコンデンサーマイクロフォンです。5千円弱だったということで、金額の違いがどこに出てくるのかということにもなるかもしれません【音声3】。つまり、やや高額のUSBマイクのみ、やや高額のUSBマイク+Zoomと、手ごろな価格のUSBマイク+Zoomの3種類です。

現代版いろはうた作品集より

【音声1】USB コンデンサマイク(単一指向性,約1万5千円)

【音声2】USB コンデンサマイク(単一指向性,約1万5千円)+Zoom

【音声3】USB コンデンサマイク(無指向性,約5千円)+Zoom

<Zoomを通すと声紋パターンが変わる>

次に三つの図を示しますが、これは音声をAD変換して音響分析してスペクトグラムを抽出したものです。くれよん冒頭の「なつのひる」の部分を切り出しました。スペクトグラムという言葉は、聞きなれないかもしれませんが、声紋(せいもん)と言うと聞いたことがあると思いますテレビ番組で、白衣を着たおじさん(?) が、芸能人の声から心の状態を読み取ろうとしている時がありますが、そういうときは、この声紋パターンを分析していることが多いです

縦軸の周波数帯域は、20kHzで終わってます人間の耳は20kHzまでが聞こえる帯域だと言われてますので、人間の声を録って人間に聞かせることを前提にするなら、【音声1】のように、20kHzまで収録していれば、情報をしっかり記録していると言えます。

Zoomの声を聞いて、生で聞くより少しこもった声になっているなと感じる人がいるかもしれません。例えば、1万円もするイヤホンと数百円の安いイヤホンの違い、あるいは高いスピーカーとちょっと安いスピーカー、一般的なスピーカーとパソコンのスピーカーを通したものの違いと言ってもいいかもしれませんが、きちんと高域まで出してくれるかどうか、音響機器、音を再生する、あるいは音を伝送するとき着眼点の一つです。

【音声2】と【音声3】はZoomを通していますが、スペクトルの高域の成分がかなり削られているのが分かります。12kHzあたりから上がすっからかんになってます。西村さんの自宅にあるUSBマイクロフォン1213 kHzぐらいで切れている。高域が切れることで、どのぐらい相手が聞き取るのに困るのかというのが、一つ知りたいところだと思います。

今の学生さんは「黒電話」と言っても分からないと思いますが、かつては黒い電話が各家庭にありました。黒電話は、電話帯域は4kHz までの音声を伝えていたというのが、かつての電話でした。

海外旅行のとき、ホテルでフロントに電話をかけて英語で話しかけられると「面と向かって聞き取るのに比べて、電話の声は難しいな」と思ったことがあるかもしれません。

スペクトログラムの図で確認したように、Zoomを通したもの1213kHzぐらいが境界ですので、そういった意味では聞き取りに影響を与えるというほどではないでしょう。しかし、それは母語話者同士、日本人が日本語を話して、それを日本人が聞くということなら、そうかもしれませんが、場合によっては、私の日本語を留学生が聞くことになると、少し聞き取りにくいということも起こりえます 。

これは皆さんが英語会話をしていて、「電話越しは苦手」というのと全く同じ理由です。ただし、それが4kHz、かつての黒電話のところまで質を落としたら聞き取りが難しいのか、10 kHz難しいのか、12 kHzでも難しいのかというのは、皆さんの英語力に依存するところだと思います 。Zoom が登場するまでは、Skype がよく使われていましたが「Skype を通した英語音声だと聞き取りにくい」と言っていた日本人の英語学習者もいましたよ。

ー男女の差が出ることはありますか?

峯松: Zoomのほうで「女性だから高域もちゃんと保持してあげよう」「男だから切っちゃえ」とか、そういう区別をしているとは思えません。では、男女の声の違いで聞き取りやすさに違いが出るのかということですが、これは実験してないので分かりませんが、Zoomを通したから女の人の声のほうが聞き取りにくくなるということも聞かないので、一般的にはないと思います

ただし、声紋パターンで上のほうが切られてしますので、上のほうに情報が乗ってくる話し方をしている人は、Zoomを通すことで声の質は変わってくると思います。

音声認識アプリでは、8kHz までを使うことが一般的です。それを考えると男性でも女性でも8kHz まで保存していれば問題ないはずです。ただし、男性と女性で、上の方の周波数帯域を使っているのはどちらかというと女性です。これは、一般に女性の体格が小さく喉が短いことが原因です。したがって、8kHz 以下まで落とし始めると、女性の声のほうが聞き取りにくくなる可能性は高いと思います。

<マスク、フェイスシールド装着、webカメラ内蔵マイクを使い、少し離れて話す>

ー「くれよん」の音声について復習すると、やや高額のUSBマイクのみ、やや高額のUSBマイクZoomを通したもの手ごろな価格のUSBマイクZoomを通したものの3種類を比較しました。しかし実際のオンライン授業の現場では、マイクの違いだけでなく、特にハイブリッド授業目の前に学生さんがいれば、マスクをしたりフェスシールドをつける必要がでてきます。うしろの黒板やホワイトボードに文字を書く際に、マイクから離れることもあります。そのような場面設定を考えて、先生に音声資料を事前送付し、分析していただきました。

峯松:【音声4】(下図↓)では、西村さんの自宅で、ラップトップのコンピュータから1.5メートルほど離れて、フェスシールドをつけて「くれよん」を音読してもらいました。【音声5】ではフェスシールドに加えて、N95 マスクをつけて話してもらいました。N95 は、医療現場で使われている感染防御性能の高いマスクで、広く使われている不織布マスクよりも顔面密着性が高いです。

【音声4】と【】で使われたのは、ラップトップに内蔵されたマイクですが、【音声6】は、webカメラとマイクがセットになった製品を外付けしています。家電量販店で安いものだと3千円くらいで売っていますね。自宅で仕事する人が増えて、手持ちのPCにカメラがついていないということで、こういったマイク内蔵のwebカメラを購入した人は多いようです。【音声5】と【音声6】は、マイク以外は同じ条件、すなわち1.5メートル離れて、フェイスシールドとN95マスクを装着して話してもらいました。

【音声4】Laptop内蔵マイク+1.5m+フェイスシールド+Zoom

【音声5】Laptop内蔵マイク+1.5m+フェイスシールド+N95マスク+Zoom

【音声6】Webカメラ内蔵マイク+1.5m+フェイスシールド+N95マスク+Zoom

マスクやフェスシールドを装着すると、話し方も変わってきます。これは皆さん体験されていると思います、マスクのゴムで耳元が引っ張られて、痛いな、かゆいなと感じることもあるし、口周りの動きが制限されます。不織布マスクよりもN95のほうが顔面密着性が高い分、話しづらいところがあるでしょう。またフェスシールドがあると顔全体の動きや視野が少し制限された感じになると思います。仮に話し方を変えなかったとしても、マスクやフェスシールドをすることで音響的に変わってきます。

【音声4】のスペクトログラムを、先ほど示した【音声1~3】と比較してみてください。【音声1】は周波数帯域が20kHzまで出ていましたが、この3つは上半分がスカスカで情報がかなり欠落しています。それでも12KHzぐらいまでは出ているのは、Zoomを通しているからでしょう。【音声4】は、マイクから1.5メートル離れてフェスシールドだけ装着していますが、それでも【音声3】と比べると欠落しているところがあります。

【音声5】はマスクしてるので、さらに上が出てこなくなってますね。Zoomとしては12 kHzまで捉えられますが、マスクをすること8 kHzぐらいまでしか出てない感じがします。【音声6】は、ちょっとひどいなと思いますが、8 kHzぐらいで切れています。しかも黒い部分、音声のところは2 kHzぐらいまでしか出てないので、黒電話以下ですね。灰色の部分、ザーッというのはノイズです。Web カメラの初期不良という感じもしますが、こういうものに当たってしまい、気づかずに使い続けている人がいるかもしれません。

再掲【音声1】USB コンデンサマイク(単一指向性,約1万5千円)
再掲【音声6】Webカメラ内蔵マイク+1.5m+フェイスシールド+N95マスク+Zoom

再掲【音声1】

再掲【音声6】

峯松: 冒頭で、英語の上手な留学生が学会発表したときの話をしましたが、これくらいこもった音声で、初めて聞く人には内容が聞き取れないだろうなと思ったので、まさにこういう状態だったと思います。研究室の打ち合わせでは普通に聞こえる声だったのに、彼女の自宅から同じように発表してああなった、ということはネットの混雑状況が原因でしょうかね。

その場合、学生は何も悪くないので、学会側や通信インフラ業界がなんとかすべき問題なのでしょうが、「こもった声から高域の音声スペクトルを推定する」帯域拡張という音声技術が、今後こういう場に導入されるのかもしれません。

でも、この web カメラ内蔵マイクのような例もあるということは、ネット云々ではなく、使っている機材が原因で、受講生とくに留学生にとって「聞き取れない」状況を作ってしまう可能性もありますね。最低限、ちゃんと聞き取れるようなクオリティの音を届けるための機材を用意することは、ウィズコロナの環境では一つのエチケットとして考えてもいいのかなと思います。

私はどこかのメーカーさんとつるんで、特定のマイクロフォンを売ろうとしているのではありませんが、ネットで調べれば様々なマイクが売られてます。教職員にとっては、学生に対する一つのサービスだと思います、ちょっと機材を入れればすぐできることなので、ぜひ検討していただきたいといます

スペクトグラムを出す必要はないと思いますが、マイクなどの機材、マスク等の装着、マイクからの距離といった条件を確認の上、Zoom録画したものを視聴してほしいですね。対面とオンラインの学生に同時に対応するハイブリッド授業も始まっているようですが、自分の声が相手にどう伝わっているのか、一度確認されるとよいと思います。

***************************

次回は、このような音質の劣化が聞き取りに与える影響について、実際に日本人と留学生を対象に日本語の聞き取り実験をおこなって、結果を考察する予定です。

この連載記事は「ポストコロナの未来社会に関する新たな研究課題のスタートアップ支援」の助成を受け、西村多寿子(東京大学大学院工学系研究科 電気系工学専攻 特任研究員)が執筆します。西村は、連載記事の文責を負い、関連動画の編集に関与しています。