先従隗始・温故知新

はてダからの引っ越し(http://d.hatena.ne.jpのURLからここへ自動転送されます)。元サイト:アニメイレコムhttp://kasumin7.web.fc2.com/ire/

ヤフーメール障害について、一般ユーザ(完全素人レベル)が知るべき知識

厳密にはPOPとIMAPがあるけど意識しなくていいよ。

【yahooヤフーメール利用者の皆さんへ 大事なお話】
ITエンジニアが要点を教えます
・受信POPサーバは、ダウンしてる間は「受け取らない」=4日間のメールは全てパー
・その間も、送信SMTPサーバは生きてたので実は送信は出来た(なので普段からメールソフトを使いましょう)


The 2nd
続3:サーバとは
・ハードウェアサーバ:プログラムをインストールし動かすための大型パソコン
・Webサーバプログラム:インストールして動かすと、PC内の特定フォルダ内だけウェブページとして公開できる
・メールサーバプログラム:送信or受信だけ担当、データバックアップはHDDが担当


やや専門レベル

The 2nd
@kikai_2追記
5千万ID規模の無料有料メールサービスで、受信サーバプログラムの稼働してるサーバにもメールデータDBストレージにも、HWミラーリングまでしてるサービスは多分ない


小規模の構築はともかく大規模商用メールシステムの運用はタッチしたことないんで頭の整理
・受信送信済みデータ=アーカイブはDBサーバ=ストレージへ
・受信と送信はそれぞれのサーバプログラムが担当
RAIDしてるストレージが遅延やバグしまくったヤバイというので受信サーバを落としたと


続:でっかいストレージお化けを数台に分けているはずなので
たまたまその400万ID分を担当するストレージ群が異常を起こしたんでサービス提供できない状態っていう判断で、受信サーバも落とした
大したことのないエラーでも400万対応となるとめっさ面倒になる法則で時間だけはかかったと


続2:だからもしHDD吹っ飛んだ障害が起きていれば、一部ユーザの過去の受信送信ゴミ箱履歴すら吹っ飛んでいるはず
それが起きてないんだとすれば、動作異常とか異常遅延ぐらいの水際の異常なんだけど、すでにサービス提供レベルではないので停止させて交換作業 おそらく製品寿命ですな


続4:https://twitter.com/ka2nd/status/518208544831582209 …時間がかかる理由はおそらくこれ…故障ストレージにあるデータを別の健康なストレージへ移すとかいった作業が、400万ID分だとすごく時間かかる、終了後は稼動テストも欠かせない
http://itpro.nikkeibp.co.jp/article/COLUMN/20090317/326777/?ST=system#3
メール・サーバー障害編


続5:むろんヤフーメールのストレージはフルミラーリングされ、そのうえで「一部が完全に吹っ飛んだけど予備側にぜんぶ残ってたぜひゃっはー!」 だった可能性もある。
ただその場合運用チーム判断としては、サービスを止めずに復旧作業する可能性がある…ホットスワップで抜いて交換するだけだから


とりあえず結論:いかなデータセンター出身のエンジニアでも 現場見ないとよくわからんわ、実機とか構成図とか運用体制とか美人の受付嬢とか




The 2nd 10月2日

ヤフーメールの突然のHW障害はおそらく
今年6月の一斉・新インターフェース移行が関連してる
システム屋が大規模障害の勘所とするのは常にバージョンアップや統合だ
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10128525540
あくまで妄想と計算だけで設計してるので
バグやボトルネックが残ってたか


続:新I/Fって重くなるのが常…JAVAだIFRAMEだとスペックでガシガシ動かさせ表示させるから
今まで旧来のHTMLだのが幅を利かせてて軽かったI/Fが 急に重さ満点の新I/Fに「全員ID一斉に」切り替えた場合…
突然のダウン連鎖というのはありえる
問題はなぜ3ヶ月後発生か


続2:あと「フリーメールを商用で使うなんて信じられない〜」って書き込みが多いけど
べつに有料ならデータ保全してくれたり絶対障害起こしませんというわけじゃないからね…?信仰にすぎないよ
零細中小やフリーランスヤフーメール使ってるとこ多い、ヤフオクやショッピングがらみだったりして


続3:有料ホスティングサービスが商用で有効というのはたとえば 商業規模が大きい企業が、障害によってホスト側の過失が大きい時に賠償請求できるとか、帯域を金で買えるとか、そういうこと そういうレベルのサービスは高額すぎて零細やフリーランスには現実的じゃない

ちいさいとこは復旧作業はすぐだが、壊れてもなおす体力がない、補償体力もない、
で突然のサービス終了ばっくれもありえる。


以下、決定打
まぁ5千万ID有料無料が混合のサービスじゃ、RAID50なんてコスト的にやってられんということかな。
今まで大丈夫だったから15年間ずっとそのままの仕様だったんだろうか。
けど「重い」新インターフェースに全ID一新すると激重になったので総負荷が跳ね上がって、一新後3ヶ月でストレージサーバが音を上げた。CPUはどうにかなってもHDDはもう限界だった。

The 2nd

あー んじゃやっぱRAID5しかやってなくてふっ飛ばしたんだな
http://docs.yahoo.co.jp/info/notice/140930.html
7 IDのお客様のデータの一部に破損を示すエラーが発生し、そのエラーを解消することができませんでした。該当のお客様へは、すでにおわびとご連絡をさせていただいております。


http://docs.yahoo.co.jp/info/notice/140930.html
(10月4日 午後4時30分 第8報)

9月30日午前9時20分頃からYahoo!メールのアクセス障害が発生しておりましたが、本日午前6時57分頃に解消いたしましたのでお知らせいたします。

お客様には長期間にわたり、ご迷惑ならびにご不便をおかけいたしましたことを深くおわび申しあげます。

障害発生期間中にお客様宛に送信されてきたメールは、受信されずにエラーメールとして送信元に戻っております。そのため、お客様にはお手数をおかけし大変申し訳ございませんが、お心当たりがある場合は送信元にご確認いただきますようお願い申しあげます。

また、障害の対象となった3,794,777 IDのうち7 IDのお客様のデータの一部に破損を示すエラーが発生しており、そのエラーを解消することができませんでした。該当のお客様へは、すでにおわびとご連絡をさせていただいております。
※上記7 ID以外のお客様のデータには、破損を示すエラーは検出されませんでした

RAIDのお勉強はこちらで
http://dataok.jp/raid-recovery/material-documents/002.html


 ◇


突然のHW不良動作でも、リスクの高い更新や統合の作業でも
データの不整合や消失はあり得る。
ハードが異常をきたしていて使えないとなれば面倒でも交換、データ移行作業するのはご家庭のPCと同じ。
システム更新作業で書いたバッチにバグがあってデータがおかしくなればこれも、一斉にばら撒いた先の膨大なデータを復旧作業せねばならない。
いずれも手間と時間が掛かる、待ちの作業。


前のエントリー
http://d.hatena.ne.jp/geasszero/20141001/1412089793
IT技術者が予測する、yahoo!メール障害の顛末