[Linux-Biella] HTML ASCII to UTF-8
Daniele Segato
daniele.bilug a gmail.com
Sab 29 Ago 2009 21:42:43 CEST
Il giorno sab, 29/08/2009 alle 21.21 +0200,
vallini.daniele a bilug.linux.it ha scritto:
> Sat, Aug 29, 2009 at 11:27:59AM +0200 Federico Pistono ha scritto:
>
> > Ciao,
> > ho una file HTML, scaricato da wget, che visualizza i nomi con
> > caratteti speciali così:
> >
> > Kôkaku kidôtai
> >
> > Se vengono letti da un browser tutto ok, ma se voglio darli in pasto
> > ad uno script in bash, come faccio a fare in modo che io veda "Kôkaku
> > kidôtai"? C'è uno programma che mi fa la conversione dei codici HTML
> > in caratteri UTF-8? Ho cercato un po' in giro ma non ho trovato nulla,
> > se fare uns ed di tutti i caratteri mi sembra un po' stupido...
tale programma si chiama browser se non sbaglio..
e puoi copiare e incollare direttamente dal browser su un altro file di
testo.
> che programma o script usi per convertire l'html in txt?
> questi li ho provati:
>
> html2text
questo può essere
non ho provato
> lynx -dump
hum.. questo non penso
> ho pero' preferito questa semplice stringa di comando per un mio programma
> in perl che acquisisce files html mediante wget,< e > dell'HTML devono
> pero' essere sulla stessa linea
non è ciò che ha chiesto Federico, rileggi meglio.
> s/<.*?>//g
azz.. sbagliatissima!
così rimuovi anche roba "buona"
esempio
<p>qualcosa</p>
rimuovi tutto con quella stringa. compreso "qualcosa"
Maggiori informazioni sulla lista
Linux