[Linux-Biella] PDF OCR
Daniele Segato
daniele.bilug a gmail.com
Mar 10 Gen 2012 14:17:56 CET
On 01/10/2012 02:07 PM, Jumping Jack wrote:
> On 10/01/2012 13:25, Daniele Segato wrote:
>> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un PDF con
>>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>>> fanno tutti è l'indicizzazione del testo, mentre per la conversione non
>>> ho ricavato nulla di buono.
>>> Linux Win open closed gratis pagamento va tutto bene.
>>
>> non è possibile fare ciò che vuoi
>>
>> è come convertire un'immagine in un documento word
>>
>> c'è la stessa complessità
> Ma ho trovato dei PDF di altre cose, che sono chiaramente digitalizzati
> da un libro e con il testo convertito, lo si capisce dal fatto che,
> quando il testo si sovrappone ad un immagine, lo sfondo del testo è
> bianco e cancella l'immagine.
> A mano è sicuramente fattibile tipo con adobe indesign ma non credo che
> abbiano convertito dei libri interi a mano.
> Ho notato che i programmi che indicizzano i PDF (composti da pagine
> puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il
> passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a
> caso e pagina per pagina si fa, ma non ho continuità con i font, ci
> vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo
> faccia in quasi automatico?
> Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr e
> ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma come lo
> divido? Anche questa può andare bene, se c'è un modo per dividerlo
> automaticamente.
scusa ma il tuo problema mi sembrava essere, per come lo descrivevi:
PDF -> PDF
dove il primo è senza le informazioni testuali e tu vuoi ottenere un PDF
che contenga tali informazioni
io ho pensato che tu volessi ottenere un PDF "identico" da vedere ma
molto più snello perché ottimizzato per avere testo e bitmap separate
non è ciò che vuoi quindi
Maggiori informazioni sulla lista
Linux