[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:13:29 CET

On 10/01/2012 14:11, Jumping Jack 說:
> On 10/01/2012 13:55, PaulTT wrote:
>> On 10/01/2012 13:20, Jumping Jack 說:
>>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF 
>>> con il testo in caratteri invece che digitalizzato, mantenendo le 
>>> immagini presenti nelle varie pagine. Ho provato molte soluzioni, ma 
>>> quello che fanno tutti è l'indicizzazione del testo, mentre per la 
>>> conversione non ho ricavato nulla di buono.
>>> Linux Win open closed gratis pagamento va tutto bene.
>>>
>>
>> lo puoi importare in libreoffice e poi salvarlo da li'
>> cerca l'estensione pdf import
>>
>> alternativamente puoi trasformare il testo del pdf in testo con 
>> pdftotext (nel pacchetto poppler-utils)
>> (te lo trasforma in formato testo unix)
>>
>> tutto cio' se ovviamente il pdf e' fatto bene, quindi salvato come 
>> testo+immagini e non esportato solo come immagini, e non e' scrambled
>> se hai il pdf in immagini, invece, puoi cercare di farne l'ocr come 
>> se fosse da scansione, ma dovresti esportarti tutte le immagini e poi 
>> ocrare quelle
>> (dovrebbe leggerle senza problemi, se sono cmq con font di stampa)
>>
>> per estrarle puoi usare direi ghostscript e per farne l'ocr puoi 
>> usare gocr
>>
> Il problema è che se separo le immagini, poi devo comunque considerare 
> come un doc unico, come se stessi facendo una scansione in sequenza su 
> un software digit+ocr.
>
eh?
passi:
1) esportare il pdf in tante immagini
2) ocr delle immagini
3) riassemblare il contenuto in un unico file pdf o odt che sia

??

-- 
Stallman's Law: under corporatocracy, every advance in technology
is an opportunity for corporations to reduce, in practice,
the rights of human beings.