[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:10:48 CET

On 10/01/2012 14:07, Jumping Jack 說:
> On 10/01/2012 13:25, Daniele Segato wrote:
>> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF 
>>> con
>>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>>> fanno tutti è l'indicizzazione del testo, mentre per la conversione non
>>> ho ricavato nulla di buono.
>>> Linux Win open closed gratis pagamento va tutto bene.
>>
>> non è possibile fare ciò che vuoi
>>
>> è come convertire un'immagine in un documento word
>>
>> c'è la stessa complessità
> Ma ho trovato dei PDF di altre cose, che sono chiaramente 
> digitalizzati da un libro e con il testo convertito, lo si capisce dal 
> fatto che, quando il testo si sovrappone ad un immagine, lo sfondo del 
> testo è bianco e cancella l'immagine.
> A mano è sicuramente fattibile tipo con adobe indesign ma non credo 
> che abbiano convertito dei libri interi a mano.
> Ho notato che i programmi che indicizzano i PDF (composti da pagine 
> puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il 
> passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a 
> caso e pagina per pagina si fa, ma non ho continuità con i font, ci 
> vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo 
> faccia in quasi automatico?
> Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr 
> e ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma 
> come lo divido? Anche questa può andare bene, se c'è un modo per 
> dividerlo automaticamente.

si' ti fai uno script, appena arrivano le mie mail vedi

-- 
Stallman's Law: under corporatocracy, every advance in technology
is an opportunity for corporations to reduce, in practice,
the rights of human beings.