ちょっとした便利知識
IPから国などを特定する
参考サイト
文字コード変換
nkfのインストール
sudo apt-get install nkf
現在の文字コードをチェック
$ nkf -g hoge.csv
Shift_Jis
s-jisからutf-8へ変換する
nkf -w --overwrite kinshi.csv
文字コードのチェック
$ nkf -g hoge.csv
UTF-8
j(省略可能) : JISコード(ISO-2022-JP)を出力
-e : EUCコードを出力
-s : Shift-JISコードを出力
-w : UTF-8コードを出力(BOM無し)
-Lu : unix改行形式(LF)に変換
-Lw : windows改行形式(CRLF)に変換
-Lm : macintosh改行形式(CR)に変換
-g(--guess) : 自動判別の結果を表示
--overwrite : 引数のファイルに直接上書き
--version : バージョン情報を表示(インストール済チェック)
参考サイト:ココ
日本語をurllib2.quoteするとエラーが発生
ss = d.encode('UTF-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe6 in position 0: ordinal not in range(128)
原因
Unicode文字列から特定のエンコーディングにエンコード済みの文字列に対して更にencode()しようとしても例外が発生する。
対策
いったんデコードする
d = s.decode('UTF-8')
ss = d.encode('UTF-8')
quo = urllib2.quote(ss)
参考サイト:ココ