[Linux-Biella] PDF OCR
PaulTT
paultt a bilug.linux.it
Mar 10 Gen 2012 14:10:48 CET
On 10/01/2012 14:07, Jumping Jack 說:
> On 10/01/2012 13:25, Daniele Segato wrote:
>> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF
>>> con
>>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>>> fanno tutti è l'indicizzazione del testo, mentre per la conversione non
>>> ho ricavato nulla di buono.
>>> Linux Win open closed gratis pagamento va tutto bene.
>>
>> non è possibile fare ciò che vuoi
>>
>> è come convertire un'immagine in un documento word
>>
>> c'è la stessa complessità
> Ma ho trovato dei PDF di altre cose, che sono chiaramente
> digitalizzati da un libro e con il testo convertito, lo si capisce dal
> fatto che, quando il testo si sovrappone ad un immagine, lo sfondo del
> testo è bianco e cancella l'immagine.
> A mano è sicuramente fattibile tipo con adobe indesign ma non credo
> che abbiano convertito dei libri interi a mano.
> Ho notato che i programmi che indicizzano i PDF (composti da pagine
> puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il
> passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a
> caso e pagina per pagina si fa, ma non ho continuità con i font, ci
> vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo
> faccia in quasi automatico?
> Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr
> e ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma
> come lo divido? Anche questa può andare bene, se c'è un modo per
> dividerlo automaticamente.
si' ti fai uno script, appena arrivano le mie mail vedi
--
Stallman's Law: under corporatocracy, every advance in technology
is an opportunity for corporations to reduce, in practice,
the rights of human beings.
Maggiori informazioni sulla lista
Linux