[Linux-Biella] PDF OCR

Mar 10 Gen 2012 13:55:47 CET

On 10/01/2012 13:20, Jumping Jack 說:
> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF 
> con il testo in caratteri invece che digitalizzato, mantenendo le 
> immagini presenti nelle varie pagine. Ho provato molte soluzioni, ma 
> quello che fanno tutti è l'indicizzazione del testo, mentre per la 
> conversione non ho ricavato nulla di buono.
> Linux Win open closed gratis pagamento va tutto bene.
>

lo puoi importare in libreoffice e poi salvarlo da li'
cerca l'estensione pdf import

alternativamente puoi trasformare il testo del pdf in testo con 
pdftotext (nel pacchetto poppler-utils)
(te lo trasforma in formato testo unix)

tutto cio' se ovviamente il pdf e' fatto bene, quindi salvato come 
testo+immagini e non esportato solo come immagini, e non e' scrambled
se hai il pdf in immagini, invece, puoi cercare di farne l'ocr come se 
fosse da scansione, ma dovresti esportarti tutte le immagini e poi 
ocrare quelle
(dovrebbe leggerle senza problemi, se sono cmq con font di stampa)

per estrarle puoi usare direi ghostscript e per farne l'ocr puoi usare gocr

-- 
Stallman's Law: under corporatocracy, every advance in technology
is an opportunity for corporations to reduce, in practice,
the rights of human beings.