4. 中文字使用率統計程式

請[按這裡]下傳壓縮檔案CHICOUNT.ZIP,把它解壓到C:\CHICOUNT資料夾後可得以下檔案:

本程式由數字合拼排序等三個小程式組成,它們需使用隨MS-Dos/Win9x附送的QBASIC,請先檢查Windows目錄下的Command資料夾,如果找不到QBASIC.EXE及其附屬的說明檔QBASIC.HLP(非必要),請將這兩個檔案從Win9x的安裝光碟複製到硬碟的Windows目錄下的Command資料夾內(如果是Win98SE版本,這兩個檔案應該存放在安裝光碟的TOOLS\OLDMSDOS資料夾內)。除此之外,你亦可[按這裡]找到QBASIC.EXE。

數字程式

數字程式能數出一個純文字檔案內每個Big5字符的使用次數,然後將結果按照內碼次序排列儲存在輸出檔案(*.ST1)。假設要數出純文字檔案TEST.TXT每個Big5字符的使用次數,首先將TEST.TXT複製至C:\CHICOUNT資料夾內,然後開啟Dos Box並鍵入以下指令移至C:\CHICOUNT資料夾及執行COUNT.BAT。[註:鍵入每行Dos指令後必需按Enter]

    • C:
    • CD\CHICOUNT
    • COUNT

當QBASIC開啟後,請如下圖所示輸入檔案名稱TEST(無需輸入副檔名)。

按Enter後,數字程式會數出TEST.TXT內每個Big5字符的使用次數並將結果按照內碼次序寫入純文字檔案TEST.ST1裡。當程式結束後請如下圖所示按鍵盤上任何一鍵反回QBASIC。

返回QBASIC後,如有需要可按Shift+F5再數其它純文字檔案,否則請按Alt-F再按X關閉QBASIC。當返回Dos Box後可輸入ADD或SORT執行合拼程式或排序程式,否則請輸入EXIT[Enter]關閉Dos Box。

合拼程式

合拼程式能將數字程式的結果*.ST1加入總統計檔案MAIN.ST1,假設要把TEST.ST1的數據加入總統計MAIN.ST1,請開啟Dos Box並鍵入以下指令執行ADD.BAT。

    • C:
    • CD\CHICOUNT
    • ADD

當QBASIC開啟後,請如下圖所示輸入檔案名稱TEST(無需輸入副檔名)。

按Enter後,合拼程式會把TEST.ST1的數據加入總統計檔案MAIN.ST1,舊的MAIN.ST1會被改名為MAIN.S11,舊的MAIN.S11會被改名為MAIN.S21,如此類推,一共可保存五套舊紀錄,而舊的MAIN.S51將會被洗去。如果曾經用排序程式把MAIN.ST1排序,舊的MAIN.ST2至MAIN.ST6(請看排序程式)亦會根據以上方法改名。當程式結束後請如下圖所示按鍵盤上任何一鍵反回QBASIC。

返回QBASIC後,如有需要可按Shift+F5再把其它ST1檔案的數據加入至總統計MAIN.ST1內,否則請按Alt-F再按X關閉QBASIC。當返回Dos Box後可輸入SORT執行排序程式,否則請輸入EXIT[Enter]關閉Dos Box。

排序程式

排序程式會根據之前用數字程式所造出來的*.ST1檔案製作出下列幾個檔案:

假設之前已用數字程式造出TEST.ST1,請開啟Dos Box並輸入以下指令執行排序程式。

    • C:
    • CD\CHICOUNT
    • SORT

當QBASIC開啟後,請如下圖所示輸入檔案名稱TEST(無需輸入副檔名)。

按Enter後,排序程式會如下圖所示一邊顯示結果一邊造出TEST.ST2至TEST.ST6等檔案。

由於整個Big5內碼系統總共有19782個字符,要將接近二萬組數據按次序排列是很花時間的,所以請耐心等候。當程式結束後請如下圖所示按鍵盤上任何一鍵反回QBASIC。

返回QBASIC後,如有需要可按Shift+F5再排列其它檔案,否則請按Alt-F再按X關閉QBASIC。當返回Dos Box後請輸入EXIT[Enter]關閉Dos Box。

註:

    • 由數字、合拼、排序程式所造出來的*.ST1至*.ST6是純文字格式檔案,但由於它們體積大,未必可以用Windows內置的記事本開啟,請用WordPad或MS Office的MS Word開啟。下圖是用WordPad開啟的一個總統計檔案:
    • 由於排序程式執行時會花很長時間,如非必要,請勿用排序程式將所有*.ST1排序,應先用合拼程式將所有*.ST1檔案合拼成MAIN.ST1,然後才用排序程式將MAIN.ST1排序。
    • 基於QBASIC的限制,利用本程式所做的統計,總字數及每個字符的使用次數都不可以超過9,999,999,不過這問題是可以克服的,下一版的統計程式將會修正這問題。
    • 如要做出一個準確的中文字使用率統計,必需對大量文章納入統計之內,單憑作者一人力量並不能統計大量文章,如閣下對中文字使用率有興趣的話,歡迎你將你所做的統計結果E-Mail給我[請用WinZip把*.ST1壓縮並列明所統計文章的類別(例如‥小說、新聞、學術文章……)],我收集了一定數目的統計結果後會在本網站內公佈總統計結果。