ちょっとした便利知識

  • IPから国などを特定する

参考サイト

GeoMapLookup

  • 文字コード変換

nkfのインストール

sudo apt-get install nkf

現在の文字コードをチェック

$ nkf -g hoge.csv

Shift_Jis

s-jisからutf-8へ変換する

nkf -w --overwrite kinshi.csv

文字コードのチェック

$ nkf -g hoge.csv

UTF-8

j(省略可能) : JISコード(ISO-2022-JP)を出力

-e : EUCコードを出力

-s : Shift-JISコードを出力

-w : UTF-8コードを出力(BOM無し)

-Lu : unix改行形式(LF)に変換

-Lw : windows改行形式(CRLF)に変換

-Lm : macintosh改行形式(CR)に変換

-g(--guess) : 自動判別の結果を表示

--overwrite : 引数のファイルに直接上書き

--version : バージョン情報を表示(インストール済チェック)

参考サイト:ココ

    • 日本語をurllib2.quoteするとエラーが発生

ss = d.encode('UTF-8')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)

原因

 Unicode文字列から特定のエンコーディングにエンコード済みの文字列に対して更にencode()しようとしても例外が発生する。

対策

 いったんデコードする

d = s.decode('UTF-8')

ss = d.encode('UTF-8')

quo = urllib2.quote(ss)

参考サイト:ココ