ことばのデータサイエンス
読書案内
本書をきっかけに「ことばのデータサイエンス」に興味を持った方は、以下の書籍も参考になるでしょう(個々の書籍の詳細については、リンク先の出版社HPなどをご参照ください)。
データサイエンスについて
有賀友紀・大橋俊介 (2019). 『RとPythonで学ぶ実践的データサイエンス&機械学習』 技術評論社.
中山浩太郎 (監修) (2019). 『東京大学のデータサイエンティスト育成講座―Pythonで手で動かして学ぶデータ分析』 マイナビ.
テキストマイニングについて
小林雄一郎 (2017). 『Rによるやさしいテキストマイニング』 オーム社.
小林雄一郎 (2017). 『Rによるやさしいテキストマイニング[機械学習編]』 オーム社.
小林雄一郎 (2018). 『Rによるやさしいテキストマイニング[活用事例編]』 オーム社.
コーパス言語学・計量言語学について
石川慎一郎 (2012). 『ベーシックコーパス言語学』 ひつじ書房.
計量国語学会 (編) (2009). 『計量国語学事典』 朝倉書店.
自然言語処理について
黒橋禎夫・柴田知秀 (2016). 『自然言語処理概論』 サイエンス社.
言語処理学会 (編) (2009). 『言語処理学事典』 共立出版.
テキストデータの統計処理について
金明哲 (2009). 『テキストデータの統計科学入門』 岩波書店.
金明哲 (2018). 『テキストアナリティクス』 共立出版.
正誤表
p.21
図1.9 カッコを削除した例 → 図1.9 ルビを削除した例 (2刷で修正)
p.43
表3.3 表中の調整済み相対頻度の桁が1つずれている(例:0.100→1.000、1.000→10.000、10.000→100.000) (3刷で修正)
p.44
データの合計をで割ることで → データの合計をデータの個数で割ることで (2刷で修正)
p.47
標本分散は,データの数が少ないときに, → 標本分散は,データの数が母集団よりも少ないときに, (2刷で修正)
p.60(最小値の方向に伸びるひげの式)
第1四分位数+1.5×四分位範囲 → 第1四分位数−1.5×四分位範囲
p.67(名詞率の式)
総語数 → 自立語数 (3刷で修正)
p.67(MVRの式)
体(動詞)の頻度 → 用(動詞)の頻度 (3刷で修正)
p.67(注11)
相や体の違いによって → 相や用の違いによって (3刷で修正)
p.78
この図を見ると,話し言葉では"as if"の頻度が期待値よりも高く,→ この図を見ると,話し言葉では"as though"の頻度が期待値よりも高く, (2刷で修正)
学術散文では"as though"の頻度が期待値よりも高いことがわかります。 → 学術散文では"as if"の頻度が期待値よりも高いことがわかります。 (2刷で修正)
p.111
単語の意味の共起を談話的韻律と → 単語と意味の共起を談話的韻律と (2刷で修正)
p.142(図10.3)
更科日記 → 更級日記 (2刷で修正)
p.153
そして,ベクトル表現の学習には, → そして,単語の意味の学習には, (2刷で修正)
p.160
Corpus-based language studies: an advanced → Corpus-based language studies: An advanced (2刷で修正)
書評掲載
『人文情報学月報』第99号(2019年10月、国文学研究資料館・岡田一祐氏)
『英語教育』2020年2月号(2020年1月、千葉大学・石井雄隆氏)
[本033] 小林『ことばのデータサイエンス』 | 静岡大学 教育学部 英語教育講座 亘理研究室(2020年3月、静岡大学・亘理陽一氏)
人文的、あまりに人文的 #003(2020年4月号、動画、山本貴光氏)
『計量国語学』(2020年6月、筑波大学・菅野倫匡氏)
公益財団法人日本英語検定協会 研究助成 おすすめの本(n.d., 千葉大学・西垣知佳子氏)