いつのまにかネットワークが落ちてる [Server hardware]
Zabbixを入れているサーバがいつの間にか止まっている。
よくよく見てみると、サーバが落ちているわけではなく、ネットワークだけが
停止している模様。
May 25 14:46:28 ws kernel: [39037.980020] ------------[ cut here ]------------
May 25 14:46:28 ws kernel: [39037.980039] WARNING: at /build/buildd/linux-2.6.32/net/sched/sch_generic.c:261 dev_watchdog+0x262/0x270()
May 25 14:46:28 ws kernel: [39037.980046] Hardware name: To Be Filled By O.E.M.
May 25 14:46:28 ws kernel: [39037.980051] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
May 25 14:46:28 ws kernel: [39037.980056] Modules linked in: snd_hda_codec_nvhdmi snd_hda_codec_realtek fbcon tileblit font bitblit softcursor vga16fb vgastate snd_hda_intel snd_hda_codec snd_hwdep nouveau snd_pcm snd_timer ttm snd soundcore drm_kms_helper snd_page_alloc drm i2c_nforce2 i2c_algo_bit psmouse shpchp serio_raw lp parport usbhid hid usb_storage r8169 mii ahci
May 25 14:46:28 ws kernel: [39037.980128] Pid: 0, comm: swapper Not tainted 2.6.32-21-server #32-Ubuntu
May 25 14:46:28 ws kernel: [39037.980134] Call Trace:
May 25 14:46:28 ws kernel: [39037.980139] <IRQ> [<ffffffff81066d1b>] warn_slowpath_common+0x7b/0xc0
May 25 14:46:28 ws kernel: [39037.980157] [<ffffffff81066dc1>] warn_slowpath_fmt+0x41/0x50
May 25 14:46:28 ws kernel: [39037.980167] [<ffffffff81489e42>] dev_watchdog+0x262/0x270
May 25 14:46:28 ws kernel: [39037.980177] [<ffffffff8101a0e3>] ? native_sched_clock+0x13/0x60
May 25 14:46:28 ws kernel: [39037.980187] [<ffffffff8108aeb5>] ? sched_clock_local+0x25/0x90
May 25 14:46:28 ws kernel: [39037.980196] [<ffffffff81489be0>] ? dev_watchdog+0x0/0x270
May 25 14:46:28 ws kernel: [39037.980205] [<ffffffff81077447>] run_timer_softirq+0x197/0x340
May 25 14:46:28 ws kernel: [39037.980215] [<ffffffff810944e0>] ? tick_sched_timer+0x0/0xc0
May 25 14:46:28 ws kernel: [39037.980224] [<ffffffff8108f193>] ? ktime_get+0x63/0xe0
May 25 14:46:28 ws kernel: [39037.980233] [<ffffffff8106e257>] __do_softirq+0xb7/0x1e0
May 25 14:46:28 ws kernel: [39037.980242] [<ffffffff810940ca>] ? tick_program_event+0x2a/0x30
May 25 14:46:28 ws kernel: [39037.980250] [<ffffffff810142ec>] call_softirq+0x1c/0x30
May 25 14:46:28 ws kernel: [39037.980258] [<ffffffff81015cb5>] do_softirq+0x65/0xa0
May 25 14:46:28 ws kernel: [39037.980266] [<ffffffff8106e0f5>] irq_exit+0x85/0x90
May 25 14:46:28 ws kernel: [39037.980276] [<ffffffff8155c701>] smp_apic_timer_interrupt+0x71/0x9c
May 25 14:46:28 ws kernel: [39037.980284] [<ffffffff81013cb3>] apic_timer_interrupt+0x13/0x20
May 25 14:46:28 ws kernel: [39037.980289] <EOI> [<ffffffff8101b551>] ? mwait_idle+0x71/0xd0
May 25 14:46:28 ws kernel: [39037.980305] [<ffffffff8155a2ea>] ? atomic_notifier_call_chain+0x1a/0x20
May 25 14:46:28 ws kernel: [39037.980315] [<ffffffff81011e63>] ? cpu_idle+0xb3/0x110
May 25 14:46:28 ws kernel: [39037.980324] [<ffffffff8154f580>] ? start_secondary+0xa8/0xaa
May 25 14:46:28 ws kernel: [39037.980331] ---[ end trace 3d197f75c8ec0014 ]---
May 25 14:46:28 ws kernel: [39038.032853] r8169: eth0: link down
syslog的には、だいたいこんな具合で、その後落ちています。
そもそも、
$ lspci
04:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller (rev 02)
と、Realtekの8168Bなのに、8169がロードされています。
これが原因かどうかわかりませんが、6時間くらいで定期的に落ちてしまいます。
Realtekのサイトから8168B用のドライバをダウンロードして、これを適用します。
が、本家からダウンロードできないので、こちらからダウンロードしました↓
ダウンロードしたファイルを展開して、
# autorun.sh
で、ドライバのインストールは終わりです。
コンパイルできる環境が入っていないと失敗するので、事前に整えて。
このあと、
# rmmod r8169
# rmmod mii
# modprobe r8168
# modprobe r8168
# depmod -a
# update-initramfs -u
# echo "blacklist r8169" >> /etc/modprobe.d/blacklist.conf
ちなみに、
# depmod -a
# update-initramfs -u
このあたりを忘れると、lsmodしても亡霊のように r8169 が現れます。
# lspci -v
04:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller (rev 02)
Subsystem: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller
Flags: bus master, fast devsel, latency 0, IRQ 30
I/O ports at e800 [size=256]
Memory at febff000 (64-bit, non-prefetchable) [size=4K]
Memory at f9ff0000 (64-bit, prefetchable) [size=64K]
Expansion ROM at febc0000 [disabled] [size=128K]
Capabilities: <access denied>
Kernel driver in use: r8168
Kernel modules: r8168
大丈夫ですね。
これでネットワークが落ちないかしらばらく様子をみます〜