#27 読みやすい文章とは
前々回は、量的分析の一つとして私の博士論文で扱った感情分析(sentiment analysis)についてご紹介しましたが、今回はもう一つの簡単に実施できる分析方法である可読性(リーダビリティ)分析について取り上げます。
英語の文章をコピペしてネット上で算出できるツールもあるので、ぜひ試してみてください。
リーダビリティとは、文章の読みやすさを数値化する指標であり、複雑な統計ではなく文の長さや単語の難しさから簡単に算出されます。Python の textstat ライブラリを使えば数行のコードで自動計算することも可能です。
よく使われる指標には三つあります。Flesch Reading Ease は文の長さや単語の音節数をもとに算出され、長い文や難しい単語が多いほど点数が下がり読みづらいとされます。Flesch-Kincaid Grade Level は同じ要素を学年換算にしたもので、例えば 8.0 なら中学2年生、13.0 なら高校卒業レベルに相当します。Dale-Chall Readability Score は小学校4年生までに習う「やさしい単語リスト」を基準にし、そのリストに含まれない単語が多いほどスコアが高くなり難しい文章と判定されます。
私の分析では、アメリカの企業プロフィールを1998年・2005年・2021年で比較しました。1998年は Flesch Reading Ease が 34.97(難しい)、Flesch-Kincaid が 13.2(高校卒業以上)、Dale-Chall が 9.21 であり、2005年もほぼ同水準でしたが、2021年には Flesch Reading Ease が 45.76、Flesch-Kincaid が 11.1、Dale-Chall が 8.99 と数値が変化し、文章がやさしくなってより広い層が理解しやすくなったことが分かりました。つまり近年は「専門的すぎない、誰にでも伝わる表現」を意識していることが見えてきます。
たとえば Best Buy の企業プロフィールを比較すると、1998年は Flesch Reading Ease が 56.8(中程度)、Flesch-Kincaid が 8.9(中高生レベル)でしたが、2021年には Flesch Reading Ease が 71.8(読みやすい)、Flesch-Kincaid が 7.3(中学生レベル)となりました。具体的な文章を比べると、1998年の “We Improve People’s Lives by Making Technology and Entertainment Products Affordable and Easy to Use.” は長く複雑な文で数値が低めだったのに対し、2021年の “At Best Buy, our purpose is to enrich lives through technology.” は短くシンプルで高得点でした。
こうして可読性についての評価を簡単に得ることができるわけですが、数値が高い=本当に読みやすいとは限りません。動画でも触れたように、単語がやさしい・短いということは必ずしも情報が伝わることを意味せず、むしろ具体性が減り読み手の解釈責任が増している場合もあります。感情分析で示されたよりポジティブな表現になっている傾向と組み合わせて考えると、読み手が気づかないうちに情報から取り残される可能性も現実にあり得るのではないかと思います。
keywords
[リーダビリティ] [量的分析] [聞き手志向]