OCR Software tips

wsl2 でOCR

==== poppler-utils とimagemagick のインストール ====

sudo apt install poppler-utils imagemagick

==== 起動と実行 ====

pdftoppm -tiff -tiffcompression lzw -r 600 input.pdf output

複合機でPDF で取り込んでしまった場合はCCITT 形式になっているのでTIFF に解凍して出力が必要

==== gscan2pdf のインストール ====

sudo apt update

sudo apt install -y gscan2pdf

==== 起動 ====

gscan2pdf

==== 必要なパッケージ ====

# 基本パッケージ（PDF処理 + Tesseract OCRエンジン）

sudo apt update

sudo apt install -y poppler-utils tesseract-ocr

# OCR専用ツール（一番簡単でおすすめ）

sudo apt install -y ocrmypdf

==== 言語パック ====

# 日本語

sudo apt install -y tesseract-ocr-jpn

# ドイツ語（必要なら）

sudo apt install -y tesseract-ocr-deu

# 中国語（簡体字）

sudo apt install -y tesseract-ocr-chi-sim

# 中国語（繁体字）

sudo apt install -y tesseract-ocr-chi-tra

==== 基本的な使い方 ====

# 日本語でOCR処理

ocrmypdf -l jpn input.pdf output.pdf

# 英語のみの場合（デフォルト）

ocrmypdf input.pdf output.pdf

# 日本語＋英語（おすすめ）

ocrmypdf -l jpn+eng input.pdf output.pdf

言語コード早見表:

==== その他の操作 ====

# 既存のテキストを保持（画像のみOCR）

ocrmypdf -l jpn --skip-text input.pdf output.pdf

# 圧縮を抑えて高品質

ocrmypdf -l jpn --optimize 1 input.pdf output.pdf

# 複数言語

ocrmypdf -l jpn+eng+chi_sim input.pdf output.pdf

Google Sites

Report abuse