[Linux-Biella] HTML ASCII to UTF-8
vallini.daniele a bilug.linux.it
vallini.daniele a bilug.linux.it
Sab 29 Ago 2009 21:21:05 CEST
Sat, Aug 29, 2009 at 11:27:59AM +0200 Federico Pistono ha scritto:
> Ciao,
> ho una file HTML, scaricato da wget, che visualizza i nomi con
> caratteti speciali cosě:
>
> Kôkaku kidôtai
>
> Se vengono letti da un browser tutto ok, ma se voglio darli in pasto
> ad uno script in bash, come faccio a fare in modo che io veda "Kôkaku
> kidôtai"? C'č uno programma che mi fa la conversione dei codici HTML
> in caratteri UTF-8? Ho cercato un po' in giro ma non ho trovato nulla,
> se fare uns ed di tutti i caratteri mi sembra un po' stupido...
che programma o script usi per convertire l'html in txt?
questi li ho provati:
html2text
lynx -dump
ho pero' preferito questa semplice stringa di comando per un mio programma
in perl che acquisisce files html mediante wget,< e > dell'HTML devono
pero' essere sulla stessa linea
s/<.*?>//g
Non ho mai avuto problemi pero' non ho mai incontrato caratteri inconsueti.
Maggiori informazioni sulla lista
Linux