1.抓取2020.3.13-2020.5.31的所有研習名稱。
2.去除[安全訓練] [安全教育] [防災教育] [基本訓練][教保專業][ 2020神韻]
3.去除常用連接詞
4. 運用jiebaR進行斷詞,統計出現頻率
5.運用wordcloud2進行文字雲繪製
[生科非專]
[初階回饋]
[性平教育]
[素養導向]
[健康非專]
[教學輔導]
[進階回饋]
[資訊非專]
[領綱宣導]
[環境教育]
109年度
108年度
#讀取資料
library(readr)
a <- read_csv("C:/a/123.txt", col_names = FALSE, trim_ws = FALSE)
View(a)
#轉成文字
a <- as.character(a)
#不去除數字
> # 將所有段落連結在一起
a <- paste(a[1:row],collapse = "")
# 將所有的空白格移除掉 >
a <- gsub(" ","",a)
cc = worker(stop_word = "C:/a/Stop.txt")
cc[a]
new_user_word(cc,'課綱',"n")
#斷詞
install.packages("jiebaR")
library("jiebaR")
#將R環境設定成中文
Sys.setlocale(category = "LC_ALL", locale = "cht")
#在 worker() 內可以設定各種不同的全切分法模型與引用外部詞庫
cc = worker()
> cc[]
接下來要取次數分配表,用table()
tt<-table(cc[a])
tt
然後將tt轉成data.frame
>data.frame(tt)
sort(table(cc[a]),decreasing = T)
畫文字雲
install.packages("wordcloud2")
library(wordcloud2)
wordcloud2(tt)
---
wordcloud2(tt, size = 1, fontFamily = "微软雅黑",
color = "random-light", backgroundColor = "grey")
head(tt, 50)
研習 教學 教師 與 課程 108 學年度 領域 教育 專業
2345 1323 1309 1175 1126 1038 833 803 755 746
學習 工作坊 社群 輔導 計畫 素養 的 增能 導向 及
689 687 664 618 613 607 503 458 388 319
學期 2 學校 國教 數學 二 閱讀 第 知能 國小
317 303 294 287 277 276 268 267 266 261
評量 發展 研討 暨 設計 校本 應用 分享 一 精進
254 252 248 243 236 232 230 228 223 217
年 科技 實務 第二 實作 共備 國 活動 之 到校
217 216 214 212 211 208 198 194 191 186