[Linux-Biella] PDF OCR
PaulTT
paultt a bilug.linux.it
Mar 10 Gen 2012 13:55:47 CET
On 10/01/2012 13:20, Jumping Jack 說:
> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF
> con il testo in caratteri invece che digitalizzato, mantenendo le
> immagini presenti nelle varie pagine. Ho provato molte soluzioni, ma
> quello che fanno tutti è l'indicizzazione del testo, mentre per la
> conversione non ho ricavato nulla di buono.
> Linux Win open closed gratis pagamento va tutto bene.
>
lo puoi importare in libreoffice e poi salvarlo da li'
cerca l'estensione pdf import
alternativamente puoi trasformare il testo del pdf in testo con
pdftotext (nel pacchetto poppler-utils)
(te lo trasforma in formato testo unix)
tutto cio' se ovviamente il pdf e' fatto bene, quindi salvato come
testo+immagini e non esportato solo come immagini, e non e' scrambled
se hai il pdf in immagini, invece, puoi cercare di farne l'ocr come se
fosse da scansione, ma dovresti esportarti tutte le immagini e poi
ocrare quelle
(dovrebbe leggerle senza problemi, se sono cmq con font di stampa)
per estrarle puoi usare direi ghostscript e per farne l'ocr puoi usare gocr
--
Stallman's Law: under corporatocracy, every advance in technology
is an opportunity for corporations to reduce, in practice,
the rights of human beings.
Maggiori informazioni sulla lista
Linux