[Linux-Biella] PDF OCR
Jumping Jack
jumpingjack a mclink.it
Mar 10 Gen 2012 14:07:23 CET
On 10/01/2012 13:25, Daniele Segato wrote:
> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF con
>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>> fanno tutti è l'indicizzazione del testo, mentre per la conversione non
>> ho ricavato nulla di buono.
>> Linux Win open closed gratis pagamento va tutto bene.
>
> non è possibile fare ciò che vuoi
>
> è come convertire un'immagine in un documento word
>
> c'è la stessa complessità
Ma ho trovato dei PDF di altre cose, che sono chiaramente digitalizzati
da un libro e con il testo convertito, lo si capisce dal fatto che,
quando il testo si sovrappone ad un immagine, lo sfondo del testo è
bianco e cancella l'immagine.
A mano è sicuramente fattibile tipo con adobe indesign ma non credo che
abbiano convertito dei libri interi a mano.
Ho notato che i programmi che indicizzano i PDF (composti da pagine
puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il
passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a
caso e pagina per pagina si fa, ma non ho continuità con i font, ci
vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo
faccia in quasi automatico?
Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr e
ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma come lo
divido? Anche questa può andare bene, se c'è un modo per dividerlo
automaticamente.
JJ
Maggiori informazioni sulla lista
Linux