Arrivati sin qui si potrebbe pensare erroneamente di aver terminato. Invece il bello deve ancora venire.
Gli algoritmi OCR (Optical Character Read) ovvero algoritmi di lettura ottica dei caratteri sono oramai praticamente infallibili per i caratteri stampati (molti più problemi si hanno con la scrittura a mano libera).
Dunque una buona soluzione, che poi è quella che ho adottato, consiste nell'utilizzo di una libreria che faccia al caso nostro. A tal proposito segnalo l'ottimo Tesseract, rilasciato sotto licenza Apache (quindi freeware) è stato sviluppato a partire da metà degli anni 80' dalla HP, reso libero nel 2005. Negli ultimi anni Google si è presa cura di questo software ed in rete si possono trovare i sorgenti e tutte le istruzioni necessarie alla sua integrazione nel codice.
Cercare di scrivere un proprio OCR è qualcosa di decisamente complesso, ci sono delle tecniche che permettono di risolvere il problema in modo relativamente semplice ma di richiedono il training del tool di ricerca caratteri ed io volevo evitarlo.
Per le note operative su come ho integrato Tesseract nel programma vi rimando a questa pagina.