[Linux-Biella] PDF OCR
Jumping Jack
jumpingjack a mclink.it
Mar 10 Gen 2012 14:11:47 CET
On 10/01/2012 13:55, PaulTT wrote:
> On 10/01/2012 13:20, Jumping Jack 說:
>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF
>> con il testo in caratteri invece che digitalizzato, mantenendo le
>> immagini presenti nelle varie pagine. Ho provato molte soluzioni, ma
>> quello che fanno tutti è l'indicizzazione del testo, mentre per la
>> conversione non ho ricavato nulla di buono.
>> Linux Win open closed gratis pagamento va tutto bene.
>>
>
> lo puoi importare in libreoffice e poi salvarlo da li'
> cerca l'estensione pdf import
>
> alternativamente puoi trasformare il testo del pdf in testo con
> pdftotext (nel pacchetto poppler-utils)
> (te lo trasforma in formato testo unix)
>
> tutto cio' se ovviamente il pdf e' fatto bene, quindi salvato come
> testo+immagini e non esportato solo come immagini, e non e' scrambled
> se hai il pdf in immagini, invece, puoi cercare di farne l'ocr come se
> fosse da scansione, ma dovresti esportarti tutte le immagini e poi
> ocrare quelle
> (dovrebbe leggerle senza problemi, se sono cmq con font di stampa)
>
> per estrarle puoi usare direi ghostscript e per farne l'ocr puoi usare
> gocr
>
Il problema è che se separo le immagini, poi devo comunque considerare
come un doc unico, come se stessi facendo una scansione in sequenza su
un software digit+ocr.
JJ
Maggiori informazioni sulla lista
Linux