[Linux-Biella] PDF OCR
Jumping Jack
jumpingjack a mclink.it
Mar 10 Gen 2012 14:24:58 CET
On 10/01/2012 14:13, PaulTT wrote:
>
> 3) riassemblare il contenuto in un unico file pdf o odt che sia
Il learning per lo OCR è necessario in quanto il testo è stato scritto
più di 25 anni fa (credo con una ciclostile vista l'epoca), non posso
fare le correzioni per ogni pagina dato che sono 500.
L'ocr deve considerare il testo nella sua totalità in modo, da fare
alcune correzioni e poi non sbaglia più, eccetto per quei font poco
usati come nei titoli o nelle didascalie (ma se c'è un errore ogni tanto
poco importa, basta che i numeri siano esatti).
Se partissi dallo stampato non ci sarebbero problemi, ma partire da una
serie di TIFF o PDF composto da immagini, sembra un problema.
JJ
Maggiori informazioni sulla lista
Linux