[Linux-Biella] HTML ASCII to UTF-8

vallini.daniele a bilug.linux.it vallini.daniele a bilug.linux.it
Sab 29 Ago 2009 21:21:05 CEST


Sat, Aug 29, 2009 at 11:27:59AM +0200  Federico Pistono ha scritto: 

> Ciao,
> ho una file HTML, scaricato da wget, che visualizza i nomi con
> caratteti speciali cosě:
> 
> Kôkaku kidôtai
> 
> Se vengono letti da un browser tutto ok, ma se voglio darli in pasto
> ad uno script in bash, come faccio a fare in modo che io veda "Kôkaku
> kidôtai"? C'č uno programma che mi fa la conversione dei codici HTML
> in caratteri UTF-8? Ho cercato un po' in giro ma non ho trovato nulla,
> se fare uns ed di tutti i caratteri mi sembra un po' stupido...

che programma o script usi per convertire l'html in txt?
questi li ho provati:

html2text
lynx -dump

ho pero' preferito questa semplice stringa di comando per un mio programma
in perl che acquisisce files html mediante wget,< e > dell'HTML devono
pero' essere sulla stessa linea

s/<.*?>//g

Non ho mai avuto problemi pero' non ho mai incontrato caratteri inconsueti.


Maggiori informazioni sulla lista Linux