[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:24:58 CET

On 10/01/2012 14:13, PaulTT wrote:
>
> 3) riassemblare il contenuto in un unico file pdf o odt che sia
Il learning per lo OCR è necessario in quanto il testo è stato scritto 
più di 25 anni fa (credo con una ciclostile vista l'epoca),  non posso 
fare le correzioni per ogni pagina dato che sono 500.
L'ocr deve considerare il testo nella sua totalità in modo, da fare 
alcune correzioni e poi non sbaglia più, eccetto per quei font poco 
usati come nei titoli o nelle didascalie (ma se c'è un errore ogni tanto 
poco importa, basta che i numeri siano esatti).
Se partissi dallo stampato non ci sarebbero problemi, ma partire da una 
serie di TIFF o PDF composto da immagini, sembra un problema.

JJ