[Linux-Biella] PDF OCR

Mar 10 Gen 2012 14:17:02 CET

On 10/01/2012 14:17, Daniele Segato wrote:
> On 01/10/2012 02:07 PM, Jumping Jack wrote:
>> On 10/01/2012 13:25, Daniele Segato wrote:
>>> On 01/10/2012 01:20 PM, Jumping Jack wrote:
>>>> Vorrei convertire un manuale di 500 pagine, che ho in PDF, in un 
>>>> PDF con
>>>> il testo in caratteri invece che digitalizzato, mantenendo le immagini
>>>> presenti nelle varie pagine. Ho provato molte soluzioni, ma quello che
>>>> fanno tutti è l'indicizzazione del testo, mentre per la conversione 
>>>> non
>>>> ho ricavato nulla di buono.
>>>> Linux Win open closed gratis pagamento va tutto bene.
>>>
>>> non è possibile fare ciò che vuoi
>>>
>>> è come convertire un'immagine in un documento word
>>>
>>> c'è la stessa complessità
>> Ma ho trovato dei PDF di altre cose, che sono chiaramente digitalizzati
>> da un libro e con il testo convertito, lo si capisce dal fatto che,
>> quando il testo si sovrappone ad un immagine, lo sfondo del testo è
>> bianco e cancella l'immagine.
>> A mano è sicuramente fattibile tipo con adobe indesign ma non credo che
>> abbiano convertito dei libri interi a mano.
>> Ho notato che i programmi che indicizzano i PDF (composti da pagine
>> puramente grafiche digitalizzate) lo fanno abbastanza bene, da li il
>> passo non dovrebbe troppo lungo, ma non ho trovato nulla. Con un ocr a
>> caso e pagina per pagina si fa, ma non ho continuità con i font, ci
>> vuole un po' (tanto) lavoro manuale. Non c'è davvero niente che lo
>> faccia in quasi automatico?
>> Si può anche convertire il tutto in unico mega tiff, passarlo all'ocr e
>> ridividerlo. Ignorando il fattore memoria che dovrei reggere, ma come lo
>> divido? Anche questa può andare bene, se c'è un modo per dividerlo
>> automaticamente.
>
> scusa ma il tuo problema mi sembrava essere, per come lo descrivevi:
>
> PDF -> PDF
>
> dove il primo è senza le informazioni testuali e tu vuoi ottenere un 
> PDF che contenga tali informazioni
>
>
> io ho pensato che tu volessi ottenere un PDF "identico" da vedere ma 
> molto più snello perché ottimizzato per avere testo e bitmap separate
>
> non è ciò che vuoi quindi

E' giusto voglio ottenere un pdf snello, facile da leggere e, di già che 
c'è, ricercabile (ma questo punto è l'unico che viene fatto da tutti).