[Linux-Biella] Interrupt impazziti, freeze totale random e altri fenomeni paranormali..
Daniele (Mastro)
daniele.bilug a gmail.com
Mer 13 Dic 2006 20:40:07 CET
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1
mi scuso in anticipo, questo è un topic lungo e che mette assieme
diverse cose.. il punto è che credo ci possa essere una correlazione tra
di esse...
qualcuno ricorderà che all'ultima riunione ho esposto un problema con il
mio portatile (asus a4k)
lo riassumo brevemente per gli assenti...
un giorno dopo un riavvio (tra l'altro quell'avvio è stato fatto al
linux day) la scheda di rete ha smesso di funzionare (la mia scheda di
rete funziona con il driver skge)
per fortuna che mi è successo lì perché altrimenti non avrei mai trovato
una soluzione "temporanea"
comunque all'avvio dmesg riportava un backtrace che diceva irq nobody cared
o qualcosa di simile e di provare irqpoll come opzione di avvio
irq 10: nobody cared (try booting with the "irqpoll" option)
[<c01031af>] show_trace_log_lvl+0x5b/0x172
[<c01037b3>] show_trace+0xf/0x11
[<c010383d>] dump_stack+0x15/0x17
[<c012e42e>] __report_bad_irq+0x36/0x7d
[<c012e60c>] note_interrupt+0x197/0x1d3
[<c012dd55>] __do_IRQ+0x75/0xa4
[<c010426c>] do_IRQ+0x6e/0x7e
[<c0102cda>] common_interrupt+0x1a/0x20
DWARF2 unwinder stuck at common_interrupt+0x1a/0x20
Leftover inexact backtrace:
handlers:
[<c0333f51>] (ohci_irq_handler+0x0/0x713)
[<c03466b3>] (usb_hcd_irq+0x0/0x4f)
[<f98838ea>] (skge_intr+0x0/0x342 [skge])
[<f98ab49e>] (snd_intel8x0_interrupt+0x0/0x17d [snd_intel8x0m])
[<f9da0944>] (sdhci_irq+0x0/0x530 [sdhci])
Disabling IRQ #10
quindi si suppone che vengano sollevati degli irq che nessun driver si
preoccupa di gestire (corretto no?)
comunque era 1 settimana che non riavviavo.. e non so dire di preciso
cosa posso aver modificato...
comunque
da quel giorno sono iniziati dei freeze completi del mio portatile.. a
random (può succedere dopo pochi minuti che è acceso o dopo giorni)
quel che accade è all'incirca questo:
qualunque immagine ci sia a schermo in quel momento ci resta.. compresa
freccettina del mouse totalmente immobile (Se era presente)
unica cosa a cui reagisce il computer: premere il tasto di spegnimento x
più di 3 secondi / staccare la spina (tengo la batteria sempre staccata)
non ho idea se queste 2 cose siano correlate o meno...
ma nel syslog non vedo mai nulla di strano... (anzi /var/log/messages
perchè ho syslog-ng [si possono installare 2 syslogger nello stesso
sistema?])
forse è un caso ma ho notato che queste 2 righe sono sempre le ultime
prima di un blocco:
Dec 13 02:40:10 mastro syslog-ng[5980]: syslog-ng version 1.6.11 starting
Dec 13 02:40:10 mastro syslog-ng[5980]: Changing permissions on special
file /dev/tty12
Dec 13 02:40:10 mastro Linux version 2.6.18-gentoo-r2 (root a mastro) (gcc
version 4.1.1 (Gentoo 4.1.1-r2)) #5 Wed Nov 22 20:35:20 CET 2006
come vedete subito dopo c'è un avvio del sistema..
allora alla riunione ho discusso il problema con Piero Triverio e un
poco con il PaulTT
l'IRQ in questione era il 10
sull'IRQ 10 ci stanno diverse periferiche:
# cat /proc/interrupts
CPU0
0: 200872 XT-PIC timer
1: 4678 XT-PIC i8042
2: 0 XT-PIC cascade
4: 15 XT-PIC ehci_hcd:usb1
5: 530 XT-PIC NVidia nForce3
7: 48 XT-PIC parport0
8: 2 XT-PIC rtc
9: 0 XT-PIC acpi
10: 46402 XT-PIC ohci1394, ohci_hcd:usb2, NVidia nForce3
Modem, skge, sdhci:slot0
11: 4806 XT-PIC ohci_hcd:usb3, yenta, fglrx
12: 663 XT-PIC i8042
14: 8258 XT-PIC ide0
15: 7008 XT-PIC ide1
NMI: 0
ERR: 2
come potete vedere:
porta fireware, host usb, modem56k, scheda di rete.. sdhci:slot0 non so
cos'è
suppongo che il numero nella colonna CPU0 sia il numero di interrupt
bene senza l'opzione irqpoll all'avvio quel numero è un tondo tondo
10000000000 subito dopo l'avvio (il numero di zeri non me lo ricordo)
ma era un numero "tondo" cioè "1" seguito da un numero che non ricordo
di "0"
mi pare avessimo provato a togliere il modem56k constatando che non
risolveva il problema
ad ogni modo l'unica differenza apportata è stato sostituire irqpoll
all'avvio con irqfixup
irqpoll prova con ogni interrupt tutti i gestori
irqfixup fa la stessa cosa ma solo con gli interrupt che non vengono
"reclamati" da qualcuno
i blocchi totali non sono finiti...
ho chiesto su IRC e mi hanno detto che quando nei log non si trova nulla
e si crasha così è probabilmente un problema hardware.. mi piacerebbe
però andare a scoprire dove sta il problema..
posso escludere la ram e il disco credo (ho fatto un test della ram e un
fsck.ext3 sul disco da un livecd)
si era giunti alla conclusione che anche il problema agli irq fosse
hardware..
ebbene.. su quest'ultimo sono sicuro che non lo sia, per il semplice
motivo che su qualunque livecd la scheda di rete funziona benissimo
senza alcuna opzione irqpoll/fixup all'avvio
ultimamente vedo spesso anche questo messaggio (o prima non c'era o non
l'ho mai notato):
Dec 13 02:44:52 mastro hdc: cdrom_pc_intr: The drive appears confused
(ireason = 0x01). Trying to recover by ending request.
nei log... non so cosa significhi :/
non so se ha a che fare con i blocchi/il problema degli interrupt
però è un'altra cosa strana...
tanto per..
Linux mastro 2.6.18-gentoo-r2 #5 Wed Nov 22 20:35:20 CET 2006 i686
Mobile AMD Athlon(tm) 64 Processor 3200+ AuthenticAMD GNU/Linux
spero che in tutto questo voi ci capiate qualcosa o almeno sappiate
spiegarmi qualcosa di più per capire dove orientarmi
quando ne avrò il tempo se non sarà riuscito a risolvere altrimenti
reinstallerò tutto il sistema (anche se non è una soluzione)
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.5 (GNU/Linux)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org
iD8DBQFFgFcWi33/AIKoeisRAtQyAJ9eJRTSr/kYmWHDSjSnj71sXGoh2QCffcJI
hm4p6fBaERBPFXj6Y/zU9oE=
=mk1h
-----END PGP SIGNATURE-----
Maggiori informazioni sulla lista
Linux