[Linux-Biella] PDF OCR

Jumping Jack jumpingjack a mclink.it
Mar 10 Gen 2012 14:44:20 CET


On 10/01/2012 14:35, Daniele Segato wrote:
> On 01/10/2012 02:30 PM, Jumping Jack wrote:
>> On 10/01/2012 14:31, Daniele Segato wrote:
>>> On 01/10/2012 02:24 PM, Jumping Jack wrote:
>>>> Se partissi dallo stampato non ci sarebbero problemi, ma partire da 
>>>> una
>>>> serie di TIFF o PDF composto da immagini, sembra un problema.
>>>
>>> in realtà è la stessa cosa
>>>
>>> io però dubito di aver capito da cosa parti / a cosa vuoi arrivare
>>
>> Da un PDF composto da immagini digitalizzate ad un PDF con la stessa
>> struttura ma solo grafici e disegni digitali e il testo in caratteri.
>
> ok allora confermo la mia risposta
>
> è molto difficile da ottenere se vuoi riprodurre anche tipologia di 
> carattere (font), dimensioni, grassetti ecc...
>
> non è impossibile farlo ma ottenere un risultato "sovrapponibile" 
> senza notare la differenza a colpo d'occhio è un'altro discorso
>
> ad ogni modo pernso che dovrai scriverti un software per farlo
Scrivere il software lo ritengo complesso, realisticamente mi costa meno 
pagare uno schiavo che digiti tutto il testo a mano, solo che lo faccio 
per me e nessuno mi paga, per cui mi devo accontentare se non ci riesco.
Ho notato anche un PDF (mi pare di un gioco di ruolo o qualcosa del 
genere) con il testo interamente su immagini, ma ingrandendo molto si 
notava che i font erano ricavati dal testo stesso. Alcuni caratteri 
inoltre erano l'immagine originale ma indicizzati (probabilmente con il 
carattere sbagliato), per cui si può fare anche questo, ma con cosa?
Tecnicamente i programmi che indicizzano riconoscono le aree immagine, 
tabella e testo, in base a questo analizzano la porzione e creano 
l'indice, con qualcosa, non ricordo più cosa, sono riuscito ad ottenre 
un pdf con l'immagine di sfondo e il testo in caratteri sopra, solo che 
non potevo scegliere il font, per cui il programma ne metteva uno più 
piccolo e difficile da leggere dell'originale, per cui il PDF diventare 
più grande e più difficile da leggere.

JJ


Maggiori informazioni sulla lista Linux