==== poppler-utils とimagemagick のインストール ====
sudo apt install poppler-utils imagemagick
==== 起動と実行 ====
pdftoppm -tiff -tiffcompression lzw -r 600 input.pdf output
複合機でPDF で取り込んでしまった場合はCCITT 形式になっているのでTIFF に解凍して出力が必要
==== gscan2pdf のインストール ====
sudo apt update
sudo apt install -y gscan2pdf
==== 起動 ====
gscan2pdf
==== 必要なパッケージ ====
# 基本パッケージ(PDF処理 + Tesseract OCRエンジン)
sudo apt update
sudo apt install -y poppler-utils tesseract-ocr
# OCR専用ツール(一番簡単でおすすめ)
sudo apt install -y ocrmypdf
==== 言語パック ====
# 日本語
sudo apt install -y tesseract-ocr-jpn
# ドイツ語(必要なら)
sudo apt install -y tesseract-ocr-deu
# 中国語(簡体字)
sudo apt install -y tesseract-ocr-chi-sim
# 中国語(繁体字)
sudo apt install -y tesseract-ocr-chi-tra
==== 基本的な使い方 ====
# 日本語でOCR処理
ocrmypdf -l jpn input.pdf output.pdf
# 英語のみの場合(デフォルト)
ocrmypdf input.pdf output.pdf
# 日本語+英語(おすすめ)
ocrmypdf -l jpn+eng input.pdf output.pdf
言語コード早見表:
jpn → 日本語
eng → 英語(最初から入っている)
deu → ドイツ語
chi_sim → 中国語(簡体字)
chi_tra → 中国語(繁体字)
==== その他の操作 ====
# 既存のテキストを保持(画像のみOCR)
ocrmypdf -l jpn --skip-text input.pdf output.pdf
# 圧縮を抑えて高品質
ocrmypdf -l jpn --optimize 1 input.pdf output.pdf
# 複数言語
ocrmypdf -l jpn+eng+chi_sim input.pdf output.pdf