[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:11:47 CET

On 10/01/2012 13:55, PaulTT wrote:
> On 10/01/2012 13:20, Jumping Jack 說:
>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF 
>> con il testo in caratteri invece che digitalizzato, mantenendo le 
>> immagini presenti nelle varie pagine. Ho provato molte soluzioni, ma 
>> quello che fanno tutti è l'indicizzazione del testo, mentre per la 
>> conversione non ho ricavato nulla di buono.
>> Linux Win open closed gratis pagamento va tutto bene.
>>
>
> lo puoi importare in libreoffice e poi salvarlo da li'
> cerca l'estensione pdf import
>
> alternativamente puoi trasformare il testo del pdf in testo con 
> pdftotext (nel pacchetto poppler-utils)
> (te lo trasforma in formato testo unix)
>
> tutto cio' se ovviamente il pdf e' fatto bene, quindi salvato come 
> testo+immagini e non esportato solo come immagini, e non e' scrambled
> se hai il pdf in immagini, invece, puoi cercare di farne l'ocr come se 
> fosse da scansione, ma dovresti esportarti tutte le immagini e poi 
> ocrare quelle
> (dovrebbe leggerle senza problemi, se sono cmq con font di stampa)
>
> per estrarle puoi usare direi ghostscript e per farne l'ocr puoi usare 
> gocr
>
Il problema è che se separo le immagini, poi devo comunque considerare 
come un doc unico, come se stessi facendo una scansione in sequenza su 
un software digit+ocr.

JJ