[Linux-Biella] HTML ASCII to UTF-8

Daniele Segato daniele.bilug a gmail.com
Sab 29 Ago 2009 21:42:43 CEST


Il giorno sab, 29/08/2009 alle 21.21 +0200,
vallini.daniele a bilug.linux.it ha scritto:
> Sat, Aug 29, 2009 at 11:27:59AM +0200  Federico Pistono ha scritto: 
> 
> > Ciao,
> > ho una file HTML, scaricato da wget, che visualizza i nomi con
> > caratteti speciali così:
> > 
> > Kôkaku kidôtai
> > 
> > Se vengono letti da un browser tutto ok, ma se voglio darli in pasto
> > ad uno script in bash, come faccio a fare in modo che io veda "Kôkaku
> > kidôtai"? C'è uno programma che mi fa la conversione dei codici HTML
> > in caratteri UTF-8? Ho cercato un po' in giro ma non ho trovato nulla,
> > se fare uns ed di tutti i caratteri mi sembra un po' stupido...

tale programma si chiama browser se non sbaglio..
e puoi copiare e incollare direttamente dal browser su un altro file di
testo.

> che programma o script usi per convertire l'html in txt?
> questi li ho provati:
> 
> html2text

questo può essere
non ho provato

> lynx -dump

hum.. questo non penso

> ho pero' preferito questa semplice stringa di comando per un mio programma
> in perl che acquisisce files html mediante wget,< e > dell'HTML devono
> pero' essere sulla stessa linea

non è ciò che ha chiesto Federico, rileggi meglio.

> s/<.*?>//g

azz.. sbagliatissima!
così rimuovi anche roba "buona"

esempio
<p>qualcosa</p>

rimuovi tutto con quella stringa. compreso "qualcosa"



Maggiori informazioni sulla lista Linux