[Linux-Biella] HTML ASCII to UTF-8

vallini.daniele a bilug.linux.it vallini.daniele a bilug.linux.it
Dom 30 Ago 2009 07:00:42 CEST


Sat, Aug 29, 2009 at 09:42:43PM +0200  Daniele Segato ha scritto: 

> Il giorno sab, 29/08/2009 alle 21.21 +0200,
> vallini.daniele a bilug.linux.it ha scritto:

> > ho pero' preferito questa semplice stringa di comando per un mio programma
> > in perl che acquisisce files html mediante wget,< e > dell'HTML devono
> > pero' essere sulla stessa linea
> 
> non è ciò che ha chiesto Federico, rileggi meglio.
> 
> > s/<.*?>//g
> 
> azz.. sbagliatissima!
> così rimuovi anche roba "buona"
> 
> esempio
> <p>qualcosa</p>
> 
> rimuovi tutto con quella stringa. compreso "qualcosa"

Non direi sbagliata, uso da anni il programma di cattura con quella
stringa di elaborazione perche' si e' mostrata perfetta per l'html dei
siti che collego.

Modificando l'espressione regolare Federico Pistono dovrebbe riuscire
ad ottimizzare l'estrazione dati dal suo html.  


Maggiori informazioni sulla lista Linux