Paul Muster
2020-03-30 17:41:08 UTC
Hallo zusammen,
mir ist eine DomU, d.h. eine virtuelle Maschine (VM), meiner virtuellen
Umgebung eingefroren. Dies steht als erste, meiner Einschätzung nach
kritische Meldung in den Logs, danach noch diverse andere Tasks mit
demselben Problem.
xvda ist dabei das Blockdevice, das der VM von der
Virtualisierungumgebung Xen bereitgestellt wird. "Physisch" (aus Sicht
der Dom0, des Virtualisierungs-Hosts) ist es ein Logical Volume einer
LVM-Volume Group. Andere DomU, die mit derselben Volume Group arbeiten,
funktionieren problemlos.
[98720.732086] INFO: task jbd2/xvda-8:162 blocked for more than 120 seconds.
[98720.732124] Not tainted 4.9.0-12-686-pae #1 Debian 4.9.210-1
[98720.732130] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[98720.732137] jbd2/xvda-8 D 0 162 2 0x00000000
[98720.732147] 00000246 000053f1 00000000 eb967c00 e9983cd4 c15c31b3
c44d1800 f51d8b40
[98720.732159] f51d8b40 e9983ce0 00000001 ebb40504 eb924100 eb924100
ed0bbb00 ebb40100
[98720.732170] c1055e4f ebb40100 7fffffff 7fffffff e9983ce0 c15c36ee
00000000 e9983d2c
[98720.732183] Call Trace:
[98720.732201] [<c15c31b3>] ? __schedule+0x263/0x770
[98720.732208] [<c1055e4f>] ? pvclock_clocksource_read+0x8f/0x140
[98720.732215] [<c15c36ee>] ? schedule+0x2e/0x80
[98720.732222] [<c15c6435>] ? schedule_timeout+0x1a5/0x340
[98720.732229] [<c101a3f1>] ? xen_clocksource_get_cycles+0x11/0x20
[98720.732236] [<c10e42ca>] ? ktime_get+0x4a/0x110
[98720.732243] [<c15c2eee>] ? io_schedule_timeout+0x8e/0xf0
[98720.732249] [<c15c3e15>] ? bit_wait_io+0x15/0x50
[98720.732255] [<c15c3a60>] ? __wait_on_bit+0x50/0x80
[98720.732261] [<c15c3e00>] ? bit_wait+0x50/0x50
[98720.732270] [<c116d997>] ? wait_on_page_bit+0x67/0x80
[98720.732282] [<c10ad670>] ? wake_atomic_t_function+0x70/0x70
[98720.732295] [<c116da84>] ? __filemap_fdatawait_range+0xd4/0x130
[98720.732306] [<c116db02>] ? filemap_fdatawait_range+0x22/0x40
[98720.732318] [<c116db63>] ? filemap_fdatawait+0x43/0x60
[98720.732339] [<edaaf68c>] ?
jbd2_journal_commit_transaction+0x64c/0x1500 [jbd2]
[98720.732356] [<c10b8c36>] ?
__raw_callee_save___pv_queued_spin_unlock+0x6/0x10
[98720.732371] [<c15c76a9>] ? _raw_spin_lock_irqsave+0x19/0x50
[98720.732381] [<c10b8c36>] ?
__raw_callee_save___pv_queued_spin_unlock+0x6/0x10
[98720.732395] [<c10d9995>] ? try_to_del_timer_sync+0x45/0x70
[98720.732407] [<edab4808>] ? kjournald2+0xa8/0x230 [jbd2]
[98720.732417] [<c10ad5c0>] ? prepare_to_wait_event+0xd0/0xd0
[98720.732431] [<c1088bb7>] ? kthread+0xb7/0xd0
[98720.732444] [<edab4760>] ? commit_timeout+0x10/0x10 [jbd2]
[98720.732454] [<c1088b00>] ? kthread_park+0x50/0x50
[98720.732464] [<c15c7a40>] ? ret_from_fork+0x30/0x3c
[note to self: 30.03.2020, 12:43:29]
Es war noch eine ssh-Session offen, auf der ich "top" zwar eingeben
konnte - tat aber nicht. "echo r > /pr<TAB>" war eine dumme Idee, denn
nun hängt die SSH-Session...
Blöd, dann versuchen wir es halt über die "virtuelle Konsole" von Dom0 aus:
***@Dom0 ~ # xl console DomU
Debian GNU/Linux 9 DomU hvc0
DomU login: root
[Ctrl-5, weil kein Prompt für das Passwort kommt]
***@Dom0 ~ # xl sysrq DomU r
***@Dom0 ~ # xl console DomU
[119784.006582] xen:manage: sysrq_handler: Error -13 writing sysrq in
control/sysrq
[Ctrl-5, Schade, dass das nicht geht]
***@Dom0 ~ # xl reboot DomU
Rebooting domain 50
[Nix passiert....]
Ideen, was der VM zugestoßen sein könnte, ob/wie ich sie ohne harten
Reset wiederbeleben könnte und wie ich den Zustand für die Zukunft
verhindern könnte?
Sollte ich mich für Punkt 3 (für die Zukunft verhindern) mit
vm.dirty_ratio und vm.dirty_background_ratio beschäftigen?
Sind die Platten zu langsam für die Last der VMs?
Bitte ggf. Followup-To: setzen, abhängig von der richtigen Gruppe!
Vielen Dank & viele Grüße
Paul
mir ist eine DomU, d.h. eine virtuelle Maschine (VM), meiner virtuellen
Umgebung eingefroren. Dies steht als erste, meiner Einschätzung nach
kritische Meldung in den Logs, danach noch diverse andere Tasks mit
demselben Problem.
xvda ist dabei das Blockdevice, das der VM von der
Virtualisierungumgebung Xen bereitgestellt wird. "Physisch" (aus Sicht
der Dom0, des Virtualisierungs-Hosts) ist es ein Logical Volume einer
LVM-Volume Group. Andere DomU, die mit derselben Volume Group arbeiten,
funktionieren problemlos.
[98720.732086] INFO: task jbd2/xvda-8:162 blocked for more than 120 seconds.
[98720.732124] Not tainted 4.9.0-12-686-pae #1 Debian 4.9.210-1
[98720.732130] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"
disables this message.
[98720.732137] jbd2/xvda-8 D 0 162 2 0x00000000
[98720.732147] 00000246 000053f1 00000000 eb967c00 e9983cd4 c15c31b3
c44d1800 f51d8b40
[98720.732159] f51d8b40 e9983ce0 00000001 ebb40504 eb924100 eb924100
ed0bbb00 ebb40100
[98720.732170] c1055e4f ebb40100 7fffffff 7fffffff e9983ce0 c15c36ee
00000000 e9983d2c
[98720.732183] Call Trace:
[98720.732201] [<c15c31b3>] ? __schedule+0x263/0x770
[98720.732208] [<c1055e4f>] ? pvclock_clocksource_read+0x8f/0x140
[98720.732215] [<c15c36ee>] ? schedule+0x2e/0x80
[98720.732222] [<c15c6435>] ? schedule_timeout+0x1a5/0x340
[98720.732229] [<c101a3f1>] ? xen_clocksource_get_cycles+0x11/0x20
[98720.732236] [<c10e42ca>] ? ktime_get+0x4a/0x110
[98720.732243] [<c15c2eee>] ? io_schedule_timeout+0x8e/0xf0
[98720.732249] [<c15c3e15>] ? bit_wait_io+0x15/0x50
[98720.732255] [<c15c3a60>] ? __wait_on_bit+0x50/0x80
[98720.732261] [<c15c3e00>] ? bit_wait+0x50/0x50
[98720.732270] [<c116d997>] ? wait_on_page_bit+0x67/0x80
[98720.732282] [<c10ad670>] ? wake_atomic_t_function+0x70/0x70
[98720.732295] [<c116da84>] ? __filemap_fdatawait_range+0xd4/0x130
[98720.732306] [<c116db02>] ? filemap_fdatawait_range+0x22/0x40
[98720.732318] [<c116db63>] ? filemap_fdatawait+0x43/0x60
[98720.732339] [<edaaf68c>] ?
jbd2_journal_commit_transaction+0x64c/0x1500 [jbd2]
[98720.732356] [<c10b8c36>] ?
__raw_callee_save___pv_queued_spin_unlock+0x6/0x10
[98720.732371] [<c15c76a9>] ? _raw_spin_lock_irqsave+0x19/0x50
[98720.732381] [<c10b8c36>] ?
__raw_callee_save___pv_queued_spin_unlock+0x6/0x10
[98720.732395] [<c10d9995>] ? try_to_del_timer_sync+0x45/0x70
[98720.732407] [<edab4808>] ? kjournald2+0xa8/0x230 [jbd2]
[98720.732417] [<c10ad5c0>] ? prepare_to_wait_event+0xd0/0xd0
[98720.732431] [<c1088bb7>] ? kthread+0xb7/0xd0
[98720.732444] [<edab4760>] ? commit_timeout+0x10/0x10 [jbd2]
[98720.732454] [<c1088b00>] ? kthread_park+0x50/0x50
[98720.732464] [<c15c7a40>] ? ret_from_fork+0x30/0x3c
[note to self: 30.03.2020, 12:43:29]
Es war noch eine ssh-Session offen, auf der ich "top" zwar eingeben
konnte - tat aber nicht. "echo r > /pr<TAB>" war eine dumme Idee, denn
nun hängt die SSH-Session...
Blöd, dann versuchen wir es halt über die "virtuelle Konsole" von Dom0 aus:
***@Dom0 ~ # xl console DomU
Debian GNU/Linux 9 DomU hvc0
DomU login: root
[Ctrl-5, weil kein Prompt für das Passwort kommt]
***@Dom0 ~ # xl sysrq DomU r
***@Dom0 ~ # xl console DomU
[119784.006582] xen:manage: sysrq_handler: Error -13 writing sysrq in
control/sysrq
[Ctrl-5, Schade, dass das nicht geht]
***@Dom0 ~ # xl reboot DomU
Rebooting domain 50
[Nix passiert....]
Ideen, was der VM zugestoßen sein könnte, ob/wie ich sie ohne harten
Reset wiederbeleben könnte und wie ich den Zustand für die Zukunft
verhindern könnte?
Sollte ich mich für Punkt 3 (für die Zukunft verhindern) mit
vm.dirty_ratio und vm.dirty_background_ratio beschäftigen?
Sind die Platten zu langsam für die Last der VMs?
Bitte ggf. Followup-To: setzen, abhängig von der richtigen Gruppe!
Vielen Dank & viele Grüße
Paul