「瞬間」訂正中文SRT字幕檔中的錯字

經過SubToSrt辨識後的字幕檔會出現許多錯字

你還在逐句訂正錯字嗎?這太花時間了........

有沒有又快又有效的錯字訂正方法呢?

瞬間訂正中文SRT字幕檔的錯字方法:

方法一:使用ConvertZ    (不推薦使用!)

                             使用ConvertZ將原本是繁體字的字幕檔轉為簡體字,再用ConvertZ把簡體轉為繁體

                             字幕這樣經過ConvertZ「過水」,就可解決一部份的錯字

                             ConvertZ用來轉換簡體繁體很方便!但ConvertZ並不是特別針對SubToSrt的錯字校正而設計的

                             用ConvertZ並不能完全解決錯字的問題,不推薦使用!

方法二:使用EmEditor + 我提供的中文macro檔(cht.jsee)      (推薦使用!)

                             以前我一直都是用ConvertZ配和字串取代的方式來訂正錯字,但是這樣漏網之魚很多

                             後來我用EmEditor寫了一個中文訂正macro檔(cht.jsee)

                             可以瞬間訂正字幕檔的錯字,效果非常好!推薦使用!

                             其原理是用字串取代的功能替換錯別字,我會持續更新cht.jsee裡的字串,讓訂正功能更完善

                             網頁最底下有關於這個中文錯字訂正macro檔(cht.jsee)的補充說明

                             EmEditor是一個文字編輯器,可以說是簡化版的UltraEdit,但功能比Windows內建的notepad強太多了,可以完全取代

                             推薦使用EmEditor來開啟、編輯SRT字幕檔或是一般txt文字檔!(設定檔案關連性後,點選SRT檔 或一般文字txt檔就可直接以EmEditor開啟)

                             使用前先安裝EmEditor這文字編輯器,再下載我提供的中文macro檔(cht.jsee)

                             使用步驟:

                             1.以EmEditor開啟SRT字幕檔  (或設定檔案關連性,直接點選SRT字幕就可開啟EmEditor)

                             2.「巨集」→ 「選取」→ 選cht.jsee

                             3.「巨集」→ 「執行(R)cht.jsee」或直接按  「功能鍵F4」


2007.04.04 新增補充:

我一直都沒仔細看過SubToSrt原作者的說明檔

直到剛剛.......才突然發現SubToSrt有「詞組替換」功能   Orz.......

「詞組替換」主要是用來替換慣用語,如:冰激淩=冰淇淋,荷李活=好萊塢

其實「詞組替換」也可以用來訂正錯字,效果很好!

補充如下

方法三:使用SubToSrt內的「詞組替換」   (推薦使用!)

                          SubToSrt有設計字串replace功能(replace.sys)

                          原理跟方法二相同,也需要自己慢慢累積

                          開啟SubToSrt編輯「詞組替換設置」,或直接編輯replace.sys

                            注意:辨識繁體中文:replace.sys 需轉為Big5碼

                                    辨識簡體中文:replace.sys 需轉為GBK碼


「瞬間」訂正英文SRT字幕檔中的錯字

因為大寫的I 與小寫的L字型非常類似

使用SubRip將英文SUB轉為SRT字幕後會分辨不出來,需要作訂正

所以許多網路上的SRT英文字幕,大寫的 I 跟小寫的 L會混在一起

如何「瞬間」訂正英文SRT字幕裡的錯字呢?

補充說明:

1.有些網路上的英文SRT字幕會有大小寫LI不分的情形,那是因為當初在辨識時沒有使用SubRip的拼字訂正功能

2.[方法二]、[方法三]是用於開啟現有的英文SRT字幕做拼字訂正

3.[方法一]不論是自己轉SUB字幕或是開啟現有的英文SRT字幕,都可以訂正

4.[方法二]是我針對SubRip會將大寫的 I 誤辨識為小寫 L而設計的

                 可以自動判斷在句首、句中、句尾的小寫 L是否要修正為大寫的 I


方法一、使用SubRip本身的拼字訂正功能

                              SubRip本身就有「拼字訂正」功能

                           只是網路上很多教學根本沒有提到這一點

                              分為兩種情形:A.你要自己將英文SU字幕轉為SRT字幕 

                                                    B.已有現成的英文SRT字幕

                              A.如果你要將英文SUB字幕轉為SRT字幕:

                                  請看https://sites.google.com/site/twbarry/02#2 步驟6「拼字訂正」一定要做

                              B.如果你已有英文SRT字幕檔,想要訂正錯字:

                                  1.開啟SupRip,按下紅色框框內的按鈕,再「File 」→ 「Open」開啟你想要訂正錯字的SRT英文字幕

                                  2.https://sites.google.com/site/twbarry/02#2     步驟6:拼字訂正       步驟7:存檔

   

方法二、使用EmEditor + 我提供的英文macro檔(eng.jsee)

                              使用方式同前述的中文SRT字幕檔錯字訂正

                              1.以EmEditor開啟英文SRT字幕檔  (或設定檔案關連性,直接點選SRT字幕就可開啟EmEditor)

                              2.「巨集」→ 「選取」→ 選eng.jsee

                              3.「巨集」→ 「執行(R)eng.jsee」(或直接按  「功能鍵F4」)




方法三、使用Srt Learning media player

                               http://diaxmond.googlepages.com/index.htm  原始公布網站

                               相關討論:http://www.pcdvd.com.tw/showthread.php?t=696577

                               這軟體功能很強!除了訂正英文SRT檔錯字之外

                            還有看影片學語言功能(雙字幕、設定區域重複播放、字幕單句復讀、自動快速筆記、屏幕取詞、自動匹配時間碼、快速時間碼微調)

                            以下是使用Srt Learning media player來訂正大寫I及小寫L 的步驟:

                             1.開啟Srt Learning media player

                             2.按右鍵選「工具」→「ocr字幕之LI校正」→ 切換至「有問題的srt檔」

                             3.將欲訂正的英文SRT檔直接拖曳(drag)到綠色區域,按「開始轉換」就可完成訂正


下載EmEditorcht.jsee、eng.jsee巨集檔


EmEditor

srt、txt 文字編輯器


    http://brad-lin.blogspot.tw/   EmEditor (台灣式用語版)

1.推薦使用EmEditor這個文字編輯器,用來編輯文字、字幕、寫程式都很好用
    比Windows內建的NopePad強太多了!且可下載很多實用的plug-ins
    EmEditor還有自動偵測http:// 超連結功能(在純文字檔中可直接開啟網址連結)

2.EmEditor配合我提供的中英文SRT字幕檔自動訂正macro檔(cht.jsee及eng.jsee)

    用來編輯字幕、訂正中英文字幕檔錯字非常方便簡單

3.設定EmEditor的檔案關連性後,點選SRT檔或文字檔txt檔 就可直接以EmEditor開啟

4.軟體王有提供EmEditor的繁體中文化語系檔

5.EmEditor 官方內建的「繁體中文語系檔」是「中國式用語」

   這裡可找到「EmEditor台灣式用語」的中文化檔案 http://brad-lin.blogspot.tw/

6.EmEditor功能介紹:01  02


cht.jsee及eng.jsee

中英文SRT字幕檔

錯字自動訂正marco檔



 





私人提供

macro.rar (4.26KB)

最後更新日期:

2007-04-12

說明:

在「我的文件(My Documents)」新增一個My Marcos資料夾

再把下載的macro.rar解壓縮到My Marcos資料夾下

或是在EmEditor的巨集(Macro)功能中指定開啟路徑


其他字幕修改功能


  1.可把字幕內的半形標點符號( , ? ! )自動換成全形符號( ,?!)

   2.清除字幕內的對話符號 -

我提供的macro.rar 還有其他的功能:

1.有的SRT字幕檔內的標點符號是半形( ,? ! ),如果你不喜歡可以改成全形( ,?!)

修正前:

00:14:05,845 --> 00:14:08,609
聯邦調查局,舉手,別動!


00:20:48,480 --> 00:20:51,916
哈哈,你不知道我是誰嗎?

修正後:

00:14:05,845 --> 00:14:08,609
聯邦調查局,舉手,別動!


00:20:48,480 --> 00:20:51,916
哈哈,你不知道我是誰嗎?

2.同一個時間內若有兩個人對話,會出現這個對話符號 -     也可以自動清除

修正前:

00:14:05,845 --> 00:14:08,609
-你準備好了嗎?

-好了!

(可用清除小- .jsee來清除)

修正前:

00:14:05,845 --> 00:14:08,609
-  你準備好了嗎?

-  好了!

(可用清除大- .jsee來清除)

修正後:

00:14:05,845 --> 00:14:08,609
你準備好了嗎?

好了!

3.使用方式跟訂正中英文字幕檔錯字的方式一樣,很方便!


關於中文錯字訂正macro(cht.jsee)的補充說明:

使用SubToSrt將中文SUB字幕轉成SRT字幕檔很方便!但總會出現錯別字

原因除了輸入文字時打錯字存入字庫檔外,主要原因是SubToSrt字庫檔本身

我的SubToSrt繁體中文字庫檔,來源是中國網站的SubToSrt簡體字庫檔

透過ConvertZ將簡體字庫(word.sts、word.wrd)的GBK碼轉為Big5碼

再加上自己陸續轉了一百多部影片的字幕所累積而成



繁體字與簡體字有很多是共用的,如「幹」變成「干」,「鬥」變成「斗」.....

ConvertZ除了內碼轉換外,主要還有「字串」的判斷與取代,才能正確的轉換簡繁體字

SubToSrt的字庫檔排列方式是一字一行,使得ConvertZ無法根據前後文來正確替換,因此會出現簡體字慣用的字體


英文字母只有26個(頂多加上大小寫、斜體字),即使不同的字型變化組合沒多少

但中文字有數萬字之多,而PC最原始的Big碼(Big5-1984)有1萬3053字

後來陸續擴充的Big5+、Big-5E、Big5-2003又再增加數千字

且SUB字幕檔所用的中文字型有好幾種,加上斜體、粗體,變化組合實在驚人

所以SubToSrt的中文字庫檔遠遠比英文字庫檔龐大,中文OCR難度比英文OCR複雜很多


當初我原本想對SubToSrt的字庫檔(word.sts、word.wrd、word.ind)下手,想徹底解決錯字問題

SubToSrt的中文字庫檔不像SubRip的英文字庫檔那樣容易編輯修改

SubToSrt辨識後會把BMP圖檔存入暫存資料夾wordbmp,但圖檔只能存1000張,超過會自動刪除

如果不這樣做,整個軟體的大小會遠比現在還要龐大

沒有字體對應的圖檔可供比對的話,光憑圖檔轉成的數據資料來訂正字庫檔幾乎是不可能的事

除非你的SubToSrt字庫檔是自己一字一字慢慢輸入建立而成,完全沒有用到中國的簡體字庫檔

但這實在是天大的工程.....


原本我用EmEditor先轉簡體再轉繁體這招「過水」一次,再配合比較常出現的錯字字串作取代

但這樣很麻煩!最後寫了一個巨集檔cht.jsee來做字串取代的工作,順便也寫了一個eng.jsee來訂正英文字幕檔錯字

英文錯字的情形,依照英文的規則來判斷單字在句首、句中、句尾時,到底是大寫的I還是小寫的L,只要幾行就可以搞定


但訂正中文的巨集檔就無法那麼容易解決,簡繁體共通字的情形比英文訂正要複雜很多

我是採用「字串取代」的方式,以正確的字串取代錯誤的字串

因此訂正的成功率取決於字串的內容設計及數量


使用cht.jsee這巨集檔來訂正錯字,效果非常好!


如果你不是採用我提供的SubToSrt中文字庫檔,也可以使用我的cht.jsee巨集檔來訂正錯字

因為只要是正確的字就不會被訂正,可以放心使用



以下是我針對經SubToSrt辨識後,出現的簡繁體混雜錯字及錯別字

盡可能的列出所有可能的組合作為取代字串,我還會陸續更新cht.jsee檔內的字串 ,提高錯字訂正率

你也可以自行新增、修改「訂正字串」


「幹」變成「干」:干 、干,、干嘛、干什麼、干掉、干啥、干活、活干、開干、幹完、幹死、干勁、干你、干他、要干、不干、干不、樹干、

                             干道、干員、干的、干得、干到、樹干、干!、新干線、好好干、貴干、沒事干、能干、不用干、干過、
「乾」變成「干」:干淨、干脆、烘干、擰干、烤干、曬干、晒干、流干、餅干、干乳酪、一干、干杯、葡萄干、干燥、
「哩」變成「裡」:英裡、
「里」變成「裡」:公裡、克裡、裡斯、
「準」變成「准」:水准、准備、准時、瞄准、標准、准心、很准、
「鬆」變成「松」:松松、輕松、放松、松綁、松脫、松開、松餅、
「遊」變成「游」:游戲、游蕩、游走、出游、旅游、遨游、遊玩、環游、游客、夢游、遊行、
「髮」變成「發」:頭發、長發、短發、金發、紅發、黑發、白發、灰發、發型、剪發、理發、剃發、染發、發膠、發蠟、梳發、發夾、假發、
「鬍」變成「胡」:胡子
「鐘」變成「鍾」:點鍾、分鍾、時鍾、秒鍾、鍾響、鍾聲、鍾點、鬧鍾、弔鍾、鍾頭、
「賓」變成「寶」:貴寶、寶客、來寶、寶士、羅寶、
「麵」變成「面」:吃面、義大利面、泡面、面包、通心面、面粉、面食、千層面、
「範」變成「范」:范圍、模范、規范、范本、示范、風范、范例、
「隻」變成「只」:一只、兩只、有只、只身、好幾只、數只、槍只、只豬、只狗、只貓、只老鼠、哪只、整只、每只、
「託」變成「托」:拜托、托付、托給、信托、
「鬥」變成「斗」:戰斗、斗志、斗士、奮斗、斗牛、斗垮、斗爭、決斗、互斗、斗角、打斗、拼斗、
「衝」變成「沖」:沖進、前沖、沖向、沖動、沖突、沖鋒、沖勁、沖開、緩沖、俯沖、沖擊、
「讚」變成「贊」:很贊、好贊、讚啊、讚啦、贊賞、贊嘆、稱贊、超贊、贊耶、贊喔、這個贊、
「醜」變成「丑」:好丑、丑陋、丑女、丑人、丑斃、超丑、又丑、
「臟」變成「髒」:內髒、心髒、肝髒、
「製」變成「制」:制作、制片、制造、制成、調制、再制、制品、重制、特制、後制、錄制、
「餘」變成「余」:其余、剩余、業余、多余、余額、余興、有余、
「噁」變成「惡」:惡心、好惡、惡爛、惡斃、很惡、超惡、
「徵」變成「征」:征收、應征、征詢、特征、征求、征人、征信、征集、征召、象征、
「誌」變成「志」:標志、雜志、日志、號誌、
「採」變成「采」:采用、采收、采納、采取、采集、采信、采訪、采取、開采、
「彩」變成「采」:精采、
「舍」變成「捨」:營捨、宿捨、兵捨、
「餵」變成「喂」:喂食、喂飽、喂他、喂你、喂妳、喂我、喂它、喂牠、喂給
「蹟」變成「跡」:奇跡、神跡、事跡、
「膚」變成「夫」:皮夫、夫質、肌夫、夫淺、
「嚮」變成「向」:向導、向往、
「齣」變成「出」:一出、
「后」變成「後」:皇後、王後、太後、後冠、母後、
「後」變成「后」:后面、前后、后座、后方、后勢、后援、
「畫」變成「劃」:劃面、計劃、劃質、圖劃、劃像、劃圖、
「囉」變成「羅」:哈羅、羅!
「闆」變成「板」:老板、
「鬱」變成「郁」:憂郁、
「擋」變成「郲」
「螢」變成「熒」
「傢伙」變成「家伙」
「關係」變成「關系」
「瑪」變成「□」
「再...」變成「式KA」
「適...」變成「鴃KA」
「你...」變成「均KA」