こんにちは、m//t です。
あちこちで大雪ですね。コロナは大丈夫ですか?
東名阪でまた緊急事態宣言が出るとか出たとか……
くれぐれも人にうつさない、もらわない 、ように心がけましょう。
目次
本当にあった怖い話
今回は昔々体験した、怖い話をご紹介します。
それは一本の電話から始まった。
かれこれ15年以上前になるでしょうか。
とあるお正月。三が日を過ぎて、四日だったでしょうか。
一本の電話で起こされます。
「データセンタまで来てくれないか」
先輩の声。当番者からの要請で障害対応をしているらしい。
当時はまだ24時間サポート体制になっていなく、年末年始の緊急対応要員として交代で1名が昼間の勤務をしていました。
お客様のサーバで障害が発生し、エスカレーションコールを受けた先輩がデータセンタで対応中でした。
事情を聞くと「手に負えない」とのこと、支度して到着するまで3時間ぐらいかかりますがと伝えると、それでもいいから来てほしい、と。
何が起きているのか??
先輩の話によると
- とあるサーバが応答不能となった。
- データセンタに駆けつけて、確認すると電源が入らない。
- 現地に用意してあった予備機と交換し、電源を投入してサービス再開を確認した。
ここまでは通常のオペレーション。
頻度は少ないですが、想定内です。
問題はここから。
- 障害対応を完了して様子見していると、別のサーバが同様の症状でダウン。
- これも交換して、サービス再開。
- そしてまた別の子が……
そうです。
サーバを交換して電源を入れると他のサーバが壊れる。
これをいつまで繰り返すのか、予備機は足りるのか、そもそも何が起きているのか……
現地では……
同型のサーバで次々と発生していきます。
私も事務所に立ち寄り、可能な限りの予備機を集めてデータセンタに向かいます。
現地では予備機のRAID(ハードディスク冗長化)構成を確認後、故障機から1本だけハードディスクを載せかえて起動確認、NIC調整などをした上でサービス再開し、問題がなければもう1本のハードディスクも組み込んで完了、という作業を繰り返しています。
早朝から始まったこの事件は予備機をほぼ使いきって夕方近くまで続いたのでした。
なんだったの?
持ち帰った機材を開けてみると、マザーボード上の電解コンデンサが「お漏らし」をしていました。
他にも頭頂部がトンガリ頭になっているものもあったり。
ネット上でも話題になっていたようで、搭載されている台湾製電解コンデンサに使用された電解液の不良が原因のようでした。
すぐにサーバの供給元と連絡を取り、交換部材の手配を行いました。
故障が連鎖したのは、機器交換後の電源投入で同一コンセントバーの電圧が変動したために虫の息だった他の子たちが次々と逝ってしまったからではないかと考えられます。
善後策
故障機器と交換して設置した予備機たちにも不安が残ることから、供給元から送付された当該不具合のないマザーボードに置き換えた元の機材を再設置し、予備機を回収していきます。
そしてこれらもまた対象部品の交換を行い、予備機に戻しました。
繰り返さないために……
この時利用していたサーバはショップブランドによるものでした。多くの実績があるブランドでしたが、オンサイト対応などの保守プランがなく、自前ですべて行うことの大変さを実感したのでした。
この一件から、よりしっかりと調査が行え、予備機を持たずとも迅速に部品交換を含む保守対応をして貰えるハードウェアを優先的に選択する方針にシフトしていきました。
そして、当社も 24時間365日常駐対応へと向かうわけですが、それはまた別のお話……
以上、昔話担当の m//t でした。
参考URL
不良電解コンデンサ問題 wikipedia
COBOL系SE,PG から NetNews(nntp)配送管理者(tnn.netnews.stats集計担当) を経て現職。
社内業務改善(「やりたくない」がモチベーション)でいろいろ社内ツールを作ってきました。
ネットワーク系の機器をいじることも多いので、それらの管理や制御に関するツールもちらほら。
perlで書くことが多いですね。(COBOLやFORTRAN、Pascal でもいいですけど……)
どれだけ読みやすく書けるか、10年後の自分に手紙でも書くような気持ちで。
最近はDNSを少しかじったりしてますが、いろいろ悩ましいことが多すぎます (>_<)
好きなポート番号は53、119、123です。
LINK
クラウドベリージャム:プロフィールページ