便利なツール

正規表現 (基本編)

  • 正規表現集

  • 普通の文字列検索よりもかなり強力な検索ができます

COJADSの加工 (基本編)

  • 日本語諸方言コーパス (COJADS) はこちらからダウンロードできます。

  • 特にMacのテキストエディタで扱う際にこのままでは不便なので変換します。

    1. ダウンロードしたファイルをテキストエディタで開く。ここではVSCodeを使用。

    2. 右下の「UTF-8」と書いてあるところをクリック → エンコード付きで再度開く → Japanese (Shift JIS) を選ぶ

    3. オプション: 右下のCRLFをクリック → LF を選ぶ

文字コード変換 (応用編)

  • ターミナルで操作します

  • 同じディレクトリにあるファイルをShift-JISをUTF8に一括変換

    • Mac (UNIXも?) のみ。xxx_utf8.csv というファイル名になります。

    • nkfをインストール

> brew install nkf

  • スクリプトをダウンロードし、パスが通っているところに置く。

> chmod 755 sjis2utf8.sh

> sjis2utf8.sh * # 今いるディレクトリのすべてのファイルの文字コードをutf8に変換