[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:07:23 CET

On 10/01/2012 13:25, Daniele Segato wrote:
> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF con
>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>> fanno tutti è l'indicizzazione del testo, mentre per la conversione non
>> ho ricavato nulla di buono.
>> Linux Win open closed gratis pagamento va tutto bene.
>
> non è possibile fare ciò che vuoi
>
> è come convertire un'immagine in un documento word
>
> c'è la stessa complessità
Ma ho trovato dei PDF di altre cose, che sono chiaramente digitalizzati 
da un libro e con il testo convertito, lo si capisce dal fatto che, 
quando il testo si sovrappone ad un immagine, lo sfondo del testo è 
bianco e cancella l'immagine.
A mano è sicuramente fattibile tipo con adobe indesign ma non credo che 
abbiano convertito dei libri interi a mano.
Ho notato che i programmi che indicizzano i PDF (composti da pagine 
puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il 
passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a 
caso e pagina per pagina si fa, ma non ho continuità con i font, ci 
vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo 
faccia in quasi automatico?
Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr e 
ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma come lo 
divido? Anche questa può andare bene, se c'è un modo per dividerlo 
automaticamente.

JJ