SSブログ
エステ

いつのまにかネットワークが落ちてる [Server hardware]

Zabbixを入れているサーバがいつの間にか止まっている。

よくよく見てみると、サーバが落ちているわけではなく、ネットワークだけが
停止している模様。

May 25 14:46:28 ws kernel: [39037.980020] ------------[ cut here ]------------
May 25 14:46:28 ws kernel: [39037.980039] WARNING: at /build/buildd/linux-2.6.32/net/sched/sch_generic.c:261 dev_watchdog+0x262/0x270()
May 25 14:46:28 ws kernel: [39037.980046] Hardware name: To Be Filled By O.E.M.
May 25 14:46:28 ws kernel: [39037.980051] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
May 25 14:46:28 ws kernel: [39037.980056] Modules linked in: snd_hda_codec_nvhdmi snd_hda_codec_realtek fbcon tileblit font bitblit softcursor vga16fb vgastate snd_hda_intel snd_hda_codec snd_hwdep nouveau snd_pcm snd_timer ttm snd soundcore drm_kms_helper snd_page_alloc drm i2c_nforce2 i2c_algo_bit psmouse shpchp serio_raw lp parport usbhid hid usb_storage r8169 mii ahci
May 25 14:46:28 ws kernel: [39037.980128] Pid: 0, comm: swapper Not tainted 2.6.32-21-server #32-Ubuntu
May 25 14:46:28 ws kernel: [39037.980134] Call Trace:
May 25 14:46:28 ws kernel: [39037.980139]  <IRQ>  [<ffffffff81066d1b>] warn_slowpath_common+0x7b/0xc0
May 25 14:46:28 ws kernel: [39037.980157]  [<ffffffff81066dc1>] warn_slowpath_fmt+0x41/0x50
May 25 14:46:28 ws kernel: [39037.980167]  [<ffffffff81489e42>] dev_watchdog+0x262/0x270
May 25 14:46:28 ws kernel: [39037.980177]  [<ffffffff8101a0e3>] ? native_sched_clock+0x13/0x60
May 25 14:46:28 ws kernel: [39037.980187]  [<ffffffff8108aeb5>] ? sched_clock_local+0x25/0x90
May 25 14:46:28 ws kernel: [39037.980196]  [<ffffffff81489be0>] ? dev_watchdog+0x0/0x270
May 25 14:46:28 ws kernel: [39037.980205]  [<ffffffff81077447>] run_timer_softirq+0x197/0x340
May 25 14:46:28 ws kernel: [39037.980215]  [<ffffffff810944e0>] ? tick_sched_timer+0x0/0xc0
May 25 14:46:28 ws kernel: [39037.980224]  [<ffffffff8108f193>] ? ktime_get+0x63/0xe0
May 25 14:46:28 ws kernel: [39037.980233]  [<ffffffff8106e257>] __do_softirq+0xb7/0x1e0
May 25 14:46:28 ws kernel: [39037.980242]  [<ffffffff810940ca>] ? tick_program_event+0x2a/0x30
May 25 14:46:28 ws kernel: [39037.980250]  [<ffffffff810142ec>] call_softirq+0x1c/0x30
May 25 14:46:28 ws kernel: [39037.980258]  [<ffffffff81015cb5>] do_softirq+0x65/0xa0
May 25 14:46:28 ws kernel: [39037.980266]  [<ffffffff8106e0f5>] irq_exit+0x85/0x90
May 25 14:46:28 ws kernel: [39037.980276]  [<ffffffff8155c701>] smp_apic_timer_interrupt+0x71/0x9c
May 25 14:46:28 ws kernel: [39037.980284]  [<ffffffff81013cb3>] apic_timer_interrupt+0x13/0x20
May 25 14:46:28 ws kernel: [39037.980289]  <EOI>  [<ffffffff8101b551>] ? mwait_idle+0x71/0xd0
May 25 14:46:28 ws kernel: [39037.980305]  [<ffffffff8155a2ea>] ? atomic_notifier_call_chain+0x1a/0x20
May 25 14:46:28 ws kernel: [39037.980315]  [<ffffffff81011e63>] ? cpu_idle+0xb3/0x110
May 25 14:46:28 ws kernel: [39037.980324]  [<ffffffff8154f580>] ? start_secondary+0xa8/0xaa
May 25 14:46:28 ws kernel: [39037.980331] ---[ end trace 3d197f75c8ec0014 ]---
May 25 14:46:28 ws kernel: [39038.032853] r8169: eth0: link down

syslog的には、だいたいこんな具合で、その後落ちています。

そもそも、

$ lspci

04:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller (rev 02)

と、Realtekの8168Bなのに、8169がロードされています。

これが原因かどうかわかりませんが、6時間くらいで定期的に落ちてしまいます。


Realtekのサイトから8168B用のドライバをダウンロードして、これを適用します。

が、本家からダウンロードできないので、こちらからダウンロードしました↓



ダウンロードしたファイルを展開して、

# autorun.sh

で、ドライバのインストールは終わりです。
コンパイルできる環境が入っていないと失敗するので、事前に整えて。

このあと、

# rmmod r8169
# rmmod mii
# modprobe r8168
# modprobe r8168
# depmod -a 
# update-initramfs -u
# echo "blacklist r8169" >> /etc/modprobe.d/blacklist.conf

ちなみに、

# depmod -a 
# update-initramfs -u

このあたりを忘れると、lsmodしても亡霊のように r8169 が現れます。

# lspci -v

04:00.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller (rev 02)
Subsystem: Realtek Semiconductor Co., Ltd. RTL8111/8168B PCI Express Gigabit Ethernet controller
Flags: bus master, fast devsel, latency 0, IRQ 30
I/O ports at e800 [size=256]
Memory at febff000 (64-bit, non-prefetchable) [size=4K]
Memory at f9ff0000 (64-bit, prefetchable) [size=64K]
Expansion ROM at febc0000 [disabled] [size=128K]
Capabilities: <access denied>
Kernel driver in use: r8168
Kernel modules: r8168

大丈夫ですね。

これでネットワークが落ちないかしらばらく様子をみます〜


この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。