先従隗始・温故知新

はてダからの引っ越し(http://d.hatena.ne.jpのURLからここへ自動転送されます)。元サイト:アニメイレコムhttp://kasumin7.web.fc2.com/ire/

IT技術者が予測する、yahoo!メール障害の顛末

The 2nd
ヤフーメール障害、自分も選ばれし民に該当…HW原因というが機械故障じゃないな
アップデートデータにバグがあって一斉更新直後に多数のメールサーバが一斉に狂ったとかそんなオチか…NTTなどメガキャリアによくある話
ローテ組んで終日障害対応はしてるんだろうが追いつかないようで


いまヤフーメール障害対応で行われてるかもしれないこと (サーバ障害の場合)
http://itpro.nikkeibp.co.jp/article/COLUMN/20090317/326777/?ST=system#3
… メール・サーバー障害編


続:たいていは大規模アクセス障害が起きるときはアップデート作業、システム更新作業中に発生
銀行でも統合作業中が多い
http://japan.cnet.com/news/business/35031332/
KDDIauの2日半にわたるメール障害を謝罪--設備や人的ミスが原因
手順書ミスによるコマンドの誤り


終:ちなみにヤフーは過去にもWEBサーバ向けのロードバランサーで故障障害を出している
もし同じメーカーの製品を同じぐらいの導入時期で使っていればおなじ障害が起きている可能性も
http://japan.cnet.com/news/business/20421416/
… 原因はロードバランサーの物理障害 2010/10/14


ぼやき:ただまぁサーバ屋の言い分としたらたかがロードバランサーでメールサーバ向けなんてちっぽけなもんで、それが壊れたぐらいで3日間も不通になりようがない
よってヤフーメールの障害はメールサーバ側の更新ミスが広範囲拡大してるのだと思う=リストアが膨大で地獄絵図




The 2nd
ヤフーメールの突然のHW障害はおそらく
今年6月の一斉・新インターフェース移行が関連してる
システム屋が大規模障害の勘所とするのは常にバージョンアップや統合だ http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10128525540
あくまで妄想と計算だけで設計してるので
バグやボトルネックが残ってたか


続:新I/Fって重くなるのが常…JAVAだIFRAMEだとスペックでガシガシ動かさせ表示させるから
今まで旧来のHTMLだのが幅を利かせてて軽かったI/Fが
急に重さ満点の新I/Fに「全員ID一斉に」切り替えた場合…
突然のダウン連鎖というのはありえる
問題はなぜ3ヶ月後発生か


翌日の詳報について、考察…
【新機材投入】ってことは
・現役機材が、老朽化や初期不良などで、パンクまたは不動
この場合はロードバランサーの可能性が含まれてくる。ただ…
【データの保全性を維持できない】ともあるので、これはロードバランサーでは起こりえないDBエラーだ。


現役機を数年運用する中で、利用者数も急増するなどして、
性能的なキャパを超えるかギリギリだったのかなあとも思う。
規模的膨張を続け、負荷も高まり続けるようなシステムを、同じ安定度で維持するのは結構大変なことだ。策定的にも予算的にも。
保守チーム側の見積もりが甘かったか、そっち側は甘くはないが営業的に新規客を受け入れすぎて無理してしまったか。
ギリギリ大丈夫という判断が時には裏目に出るのは原発事故でもわかるとおりだ。


今はおそらくベンダーから大急ぎで新機材を納品させた直後のセッティング・チューニング作業の最中だろう。KBたたくたたくたたく…サーバルームに黒服の人だかり、全員の目が真っ赤…エージェント・スミスみたいな人たちが超高速で手を動かして設定や検証を重ね、足腰をひねってラックに設営したりしている…


なんせ400万IDもあるので、たとえ環境整備が済んでも、「全員安定化」する、それが確認できる、までは時間がかかる。
いわば「100%で開始」が原則的だ、規模や条件に拠っては「順次復帰」もあり得るが…トータルシステム運用的にはむしろ100%復旧状態(100%負荷)での完璧な稼働が確認できないと怖いのである。

http://docs.yahoo.co.jp/info/notice/140930.html
(10月2日10時30分 第4報)

お客様にご迷惑をおかけしておりますことを、深くおわび申しあげます。
また、本日午前9時の報告が遅れましたことを重ねておわび申しあげます。

9月30日(火)午前9時20分頃より、Yahoo!メールのシステムにおいて、システムの冗長性やデータの保全性を維持できないレベルのハードウエア障害が発生し、3,794,777IDの方々にサービスを提供できない状況が続いています。

現在も原因は特定できておりませんが、サービスの復旧に向けてシステム安定化やデータ保全を優先的に行っております。

現時点においてシステムは次第に安定化してきておりますが、今後さらに十数時間程度、安定化を確認していく必要があります。

システムが安定した後に予期せぬ事態が発生しないよう、機材の再点検や新たな機材を投入し、明日10月3日中をめどに再開の準備作業を進めております。

The 2nd
たぶんyahoo メール障害についてわかってない人が多い…
・自分へ送信されたメールは一切ヤフーのサーバは受信せず(死んでる間は…受信サーバは複数あり瞬間的に生き返る可能性あり)相手側メールソフトの方でエラー出て戻ってきてる
戻ってこない奴もサーバデータ消失で消えてる可能性がある


続:ちなみにうちはヤフメアカ4つだけど2つ死んでる いきてるほうからしんでるほうへ送るとエラーで帰ってこないので うちのアカを担当してる受信サーバは死んでないっぽい ただデータ消失が今後も起きればいま送った奴も消えてるかもしれないし 今までデータ消失があったならそいつらも消えてる


続2:あと「フリーメールを商用で使うなんて信じられない〜」って書き込みが多いけど べつに有料ならデータ保全してくれたり絶対障害起こしませんというわけじゃないからね…?信仰にすぎないよ 零細中小やフリーランスヤフーメール使ってるとこ多い、ヤフオクやショッピングがらみだったりして


続3:有料ホスティングサービスが商用で有効というのはたとえば 商業規模が大きい企業が、障害によってホスト側の過失が大きい時に賠償請求できるとか、帯域を金で買えるとか、そういうこと そういうレベルのサービスは高額すぎて零細やフリーランスには現実的じゃない


続4:結局、無料有料問わず障害で損害が出た時に要なのは「資本的体力」 だからたとえフリーメールだろうが資本力や保守体制が充実してる六本木のヤフーってまだ、かなり恵まれてる方ですよ?


有料だろうが無料だろうが完璧はない。手間を掛けることでトラブルを減らすことは可能。
おおむねダウンするのは受信側サーバーが多いのだが、まれに送信サーバーが落ちることはあるかもしれない…

The 2nd
ヤフーメール障害に懲りた人へ対策を伝授
・メールソフトで受信(ダウン中でも過去分の閲覧が可能)
・2メアドを教えて両方を「送信先」で送信してもらう
・そこまでお手数かけてもらえない場合、予め自分の名乗り欄に「不通の際の予備メアド」を書き添えとく
・転送機能で取りこぼしを減らす


The 2nd
ヤフーもGmailも、ブラウザはやめてメールソフト受信にしよう…障害発生しても、受信済みがバックアップ・閲覧できる、送信できる
Yahoo!メールに障害発生!規約を読み直してみたら「やっぱり」だった - NAVER まとめ http://matome.naver.jp/odai/2141215922624406201