年末年始のさくらクラウドのトラブルをまとめてみた(後日来たメールも記載済)

サーバ

まあやってくれましたわ。


年末年始にかけて、さくらクラウドさんのご対応含めて時系列含めて障害があったんだぜということを記録しておいてやろうということです。
(さくらクラウドさんは是非これで対応含めて改善いただけることを当然期待しての投稿です)


なお、フォロー等のつもりではないですが、さくらのVPSサービスや専用サーバサービスで不満は一切ありません。価格帯の割には落ちないし良い&(共用サービスは除きますが)SSH等も使わせてくれて便利で助かるわーと、いわゆる「高評価」でした。

それゆえに、今回のさくらクラウドの不安定さおよび対応には遺憾であります。


全体通すと大きく3つの事案になります。()内は影響範囲。

  1. 12月の初旬からずっと重たい件(さくらクラウド全体)
  2. 12/22に実装された自動起動が動かない件(弊社アカウントのみと思う)
  3. 1/5にHDDの中身を消去する件(53アカウント) ←1/8訂正 HDDぶっ飛ばすと書いていたため誤解があるので。

では、時系列に沿ってまとめます。


2011/11/08

さくらインターネットさんがクラウドサービスを開始(さくらクラウド)


2011/11/15

15時から受付、私も法人契約で期待感満載で申し込み。
(後からわかったことですが、即効申込した人が[3]に当たったっぽい)


2011/12/26

以下メールが届く(一部割愛してます)。[1]

———————————————————————-
「さくらのクラウド」ストレージネットワーク障害に関するご報告
———————————————————————-

平素よりさくらインターネットに格別のご愛顧を賜り、誠にありがとうございます。

今回の「さくらのクラウド」の障害により、お客様には多大なご迷惑をお掛けいたしましたこと、謹んでお詫び申し上げます。

本障害について、以下にて概要および対策、そして「さくらのクラウド」をご利用中のお客様を対象とした料金のお支払いに関してご報告いたします。


■障害発生日時
12月9日(金)~12月24日(土)

■障害内容説明
12月9日以降、「さくらのクラウド」における複数回の障害発生につきまして障害の原因と実施いたしました障害対策についてご報告をいたします。

この事象は、「さくらのクラウド」にて使用しておりますストレージシステムに関連するものであり、ご利用中のお客様におかれましては、ホストサーバがダウンし収容されたお客様のサーバにアクセスできなくなる現象や、ディスクに対する読み込み・書き込み処理が不定期に失敗し、ご利用中にサーバのエラーログおよびコンソール画面にその症状が出力される現象が発生いたしました。

原因としては、特定パターンの通信がストレージネットワーク用のインターフェースに影響し、通信障害が発生しておりました。

■障害対策
ホストサーバとストレージシステム間の通信において悪影響を及ぼすパターンを特定し、以下の対策を講じました。

・通信障害を起こすパターンを検出し、その発生を未然に防ぐ構成および設定の導入

・関連するKernelパラメーターチューニングによるストレージシステムの耐障害性向上

12月25日現在、上記の対策を完了し、ホストサーバとストレージへシステム間の通信障害の発生を防止しております。

■お客様への課金につきまして
12月1日から12月25日までに「さくらのクラウド」をご利用いただいたお客様に対して、ご利用料金を無料にさせていただきます。

この対応については弊社にて実施いたしますので、お客様によるお手続きはございません。

今回の障害により、ご利用中のお客様には多大なご迷惑をお掛けいたしましたこと、重ねてお詫び申し上げます。
まあ12月頭からずっと重くてごめん。その期間、料金無料にするので許して。という内容です。


2011/12/27[2]

さくらクラウドがダウンしてる。ダウンしたからサポートに連絡したら本日は終了しましたと。どうなってんの? #sacloud
立ち上がったと思ったら「CentOS入れるぜ」ってどういうこっちゃ。。。まさか全データ飛んだの? #sacloud
対応も全然連絡こないし、こりゃちょっとひどいな。。。期待してたのに残念。大変残念 #sacloud
というツイートを私はしました。
自動起動タグの実装が22日に行われており、それの設定を行ったのに自動起動しませんでした。


2011/12/28[2]

さくらさんからお客様全体ではなく私宛に連絡がきました。[2]

平素より「さくらのクラウド」をご利用いただき、誠にありがとうございます。
さくらインターネット 運用部の山田と申します。

お客様がご利用されているサーバが収容されているサーバについてハードウェアの不具合が発生いたしました。

こちらの不具合の関係上、お客様のサーバが現在停止した状態になっております。
不具合により停止しているサーバのサーバIDは以下のものとなります。

・アカウント: ID=*********
   └ サーバ: ID=********* (********) ***.***.***.***

これらのサーバにつきましては再度、起動していただければ通常通りご利用になられます。

この度はご迷惑をおかけして大変申し訳ございませんでした。
どうぞ、今後とも「さくらのクラウド」をよろしくお願いいたします。
おいおい、自動起動はどうした?wwww
(笑い事じゃねーんだけど)

とりあえず指示どおり起動する。


なぜか「CentOSインストールするぜ!いい?」という見覚えのある画面
当然、即、問い合わせするためTELをかける。

「本日の営業は(ry
・・・。

んもうぅ!ってなりながらとりあえずディスクをアンマウントしてみたらなんとかなった。
一応問い合わせメールの続きで、
さくらインターネット 運用部 山田様

ディスクのアンマウントで解決しました。
オートリブート設定が機能しなかった理由は
OSイメージディスクがマウントされてた為でしょうか?

以上、宜しくお願い致します。
なんていうメールを送って帰宅。


2011/12/28[2]

翌日レスポンスが来る

お問い合わせいただきまして、誠にありがとうございます。
さくらインターネット カスタマーセンターの籔田と申します。
弊社山田に代わりご返信差し上げます。

ご迷惑をおかけし、誠に申し訳ございません。

この度のメールにてご連絡いたしました不具合に関しましては、自動起動が行われない事象を確認しており、原因につきましては現在調査中となります。

不具合につきましては現在対策を進めておりますが、もし同様の不具合が発生しました場合は自動起動用のタグを設定されておりますサーバにつきましては弊社にてできる限り起動を行わせていただきます。

しかしながら、不具合の影響範囲により起動に時間がかかる可能性がございますことを何卒ご理解賜りますようお願い申し上げます。

今後ともさくらインターネットをよろしくお願いいたします。
まさかの手動wwwww


2011/12/31[1]

「さくらのクラウド」ストレージネットワークへの継続的な負荷に関しましてにもありますが、ネットワークトラフィックの増大に伴いという公知がでました。


2012/01/05[1]

「さくらのクラウド」ストレージネットワーク障害に関するご報告(1月5日更新)が公知されました。とりあえず年末分まで無料にしますわという。


同日(2012/01/05)[3]

いろいろデータ入れてあったサーバを公開するため作業を始めようとした矢先に「さくらクラウド」さんからメールが届く。

平素より「さくらのクラウド」をご利用いただき、誠にありがとうございます。
現在ご利用中の以下サーバにおいて、ディスク障害が発生いたしました。

■対象アカウントID
*************

■対象ディスクID(サーバID)
*************(接続先サーバID:*************)

・この影響により対象サーバは稼動を継続していますが、ディスクへ読み込み書き込みが出来ない症状が確認されております。
・データ復旧作業を進めておりますが目途が立っておらず、データ復旧できない見込みが大変高くなっております。


この度はご迷惑をおかけしており大変申し訳ございません。
本障害につきましては現在対応中となります。追って経過ご報告致します。
ん・・・?
データ復旧作業を進めておりますが目途が立っておらず、データ復旧できない見込みが大変高くなっております

なんだってー(MMRより)
二度見しました。


案の定、データは消えておりました。

平素より「さくらのクラウド」をご利用いただき、誠にありがとうございます。

先にお知らせ致しましたディスク障害に関しまして、調査の結果、クラウドシステムの不具合である事が判明いたしました。
この不具合については原因が究明されており、対策を講じておりますので、再発する事はございません。

ご迷惑をお掛けしましたことを深くお詫び申し上げます。


お客様のデータに関しまして、復旧に努めておりましたが、不具合によりデータを完全に失っていることが判明しました。
また、スナップショット機能でバックアップをしていただいている場合にもデータが削除されているため、復旧していただくことができません。
お客様の大切なデータを失ってしまい、誠に申し訳ございません。

サーバの復旧手順につきましては、以下をご参照くださいますようお願い申し上げます。

■該当サーバの復旧手順
現在ディスクデータが消えた状態になっており、動作中のサーバに障害が発生しています。以下の手順でサーバを再インストールをお願いいたします。

1.コントロールパネルのサーバリストから、該当のサーバを選択します。
2.メニューから停止を選択し、サーバを停止します。
3.コントロールパネルのディスクリストから、該当のディスクを選択します。
4.メニューから再インストールを選択します。
5.再インストールの方法を選択します。
 テンプレートを利用するか、ISOイメージから再インストールを選んでください。

■当障害に対するお詫びについて
2012年1月1日から1月31日までの「さくらのクラウド」ご利用料金を無料にさせていただきます。
この対応については弊社にて実施いたしますので、お客様によるお手続きは必要ございません。

この度は多大なご迷惑をおかけいたしましたことを重ねてお詫び申し上げます。
今後とも「さくらのクラウド」をよろしくお願い申し上げます
あちゃー。。。やってくれましたわ。
データ全飛び。It’s clear view.でございます。


金額じゃねーんだよ。


TELがきたので「きちんとなんでそんなことが起こったのか説明せぇよ」と伝えました。
その上で来た書面が以下内容です(ご挨拶部分などは省略してます)

1. 発生経緯および原因について

「さくらのクラウド」では、お客様のディスクデータをストレージ上に保管しています。
サーバのご利用、停止に伴いストレージには不要なデータが発生します。
弊社管理システムでは不要なデータを定期的に削除処理しております。
現在ストレージシステムにおいて負荷が高まる問題があり、その対策および改善を進めておりますが、その影響で不要データの削除処理プログラムが正常に動作しない不具合が発生しました。
不要データの増加はストレージのパフォーマンスに影響を与えるため、ただちに対処必要と判断し、削除ルーチンを変更し対処を行いました。この対処過程でご利用中のお客様ディスクデータを誤って選択し削除してしまうバグが生じました。
これにより先のメールにてご報告いたしましたとおり、ディスクのデータを失い、復旧も行うことができませんでした。
また、ディスクとスナップショットは関連状態にあるため、スナップショットデータも同様に失う結果となりました。


2. 発生時刻および対象範囲について

発生時刻: 1月 5日 14時40分ごろ
対象範囲: 本障害のご報告をさせて頂いたお客様の一部のディスク(対象ディスク総数 53件)


3. 対策について

現在、削除処理を行うプログラムについて、誤ってデータを削除することがないよう、バグを完全に修正する作業を実施しました。

4. 予防策について

4-1.削除処理プログラムのみでデータが完全消去されず、段階的な処理となるようプログラムの構成についても見直しを行います。
4-2.ストレージのバックアップの実施を予定しています。

本障害は管理システム開発過程で生じたバグ、ならびに実行前に問題を確実に検出できなかったことによるものであると猛省しております。
今後は同様の事象含め再発が無き様、万全の体制で運営すべく全社を挙げて尽力いたします。何卒ご容赦いただけますよう心よりお願い申し上げます。


と、まぁそんなこんなで個人的な大事件がありました。


冒頭にも書かせていただきましたが、さくらクラウドさんは是非これで対応含めて改善していただけることを期待しての投稿です。

ネガティブキャンペーンのつもりはありません。
是非改善していただければ幸いと思いますし、期待しておりますので、是非よろしくお願いしたいものです。




後日来たメール(1/11にメール)

平素より「さくらのクラウド」をご利用いただき、誠にありがとうございます。

先にご連絡いたしましたディスク障害に伴う1月度無償提供について、お知らせいたします。

1月度の無償提供につきましては、1月5日18時時点に存在していたアカウントが対象となります。
そのため、アカウントを1月5日18時以降に作成された場合、またはこれから作成される予定がございましたら、お手数ではございますが追加したアカウント名と作成日を弊社へご連絡ください。
1月30日18時までにご連絡いただきましたアカウントを追加で無償とさせていただきます。

なお、システムの関係上、クレジットカードの与信枠確認は無償期間中も行われますため、限度額を超えた場合にはクラウドサービスのサービス追加等で制限がかかる可能性がございます。
あらかじめご承知おきくださいますようお願い申し上げます。

この度のディスク障害につきましては多大なご迷惑をおかけいたしましたことを重ねてお詫び申し上げます。

今後とも「さくらのクラウド」をよろしくお願い申し上げます。

つまり「どんだけアカウント作ろうとサーバを作ろうと無料でございます。」ってことでございました。
無駄にハイスペックマシンを用意して、試したりしよーっとw

※1/10追記 件名修正。トラブルという単語いれておきました。
※1/16追記 後日来たメールも掲載。

機械忍者

某SEO会社(?)勤務。 多分日本語よりHTMLの方が得意です。 最近はRubyとかいうキラキラな言語も勉強中です。 SEOはもう標準スキルになってきてると思うので正直もうあんまり昔ほどの熱意は感じません。 新たに躍動してる人も多いですしね。 だれか強化骨格コスプレあったら教えてください。

コメント

  1. ちょきん より:

    クラウドの一番恐ろしい部分を垣間見たような気がしました。
    参考にさせていただきますありがとうございました。