富士通クラウドテクノロジーズのクラウドサービス「ニフクラ」で障害が発生。オブジェクトストレージのサービスが利用できなくなった。原因はアプライアンス製品のソフトの不具合。全面復旧に1カ月以上を要した。障害への対応に利用企業から不満の声も挙がった。
ニフクラオブジェクトストレージに大容量のファイルを送り付ける方法 . All Rights Reserved.日経BPの記事で知った。ニフクラでオブジェクトストレージ障害が発生していたのか。最近は、ハードウェアよりソフトウェアがインテリジェンスになっていって、ハードウェアが壊れていなくてもソフトウェアの不具合でトラブルが起きるというケースは多い。その場合、ソフトウェアを修正しないと同じ条件が起きれば必ず再現してしまう。ハードウェア破損であれば代替部品を交換すればいいがソフトウェアだと修正パッチもしくはアップデートを行わないといけない。1カ月に渡る対応というのはなかなか大きな話なので深掘りしてみたい。ニフクラ オブジェクトストレージで使用しているディスク装置のソフトウェア不具合。 ソフトウェアの不具合によりオブジェクト管理情報のアクセス性能が低下し、プロセスダウンおよびシステム全体の処理能力低下を引き起こしました。インターネット社会の可能性を切り開いてきたニフティ。同社はIoT時代のニーズに応えるべく、2016年6月29日から容量無制限、GB単価5円の「ニフティクラウド オブジェクトストレージ」のサービスを開始しました。サービスの基盤にはOSSの分散ストレージ技術Ceph採用のETERNUS CD10000 S2を導入。実際は報告書の通り、現象発生から修正パッチの作成まで8日かかっている。おそらく関係者(特に富士通)は不眠不休で取り組んだろうと思う。私はOSSであることはかえってリスクであると考えており結局はベンダー保守が非常に大事だと考えている。製造者責任という言葉まで落とし込めばわかりやすいと思う。私はOSSよりベンダークローズドなコードの方が安心だと思っている。運用設計に組み込んでいたシステムはこの期間かなり対応を迫られただろう。また障害が復旧したからといってすぐに元に戻せたりもしないだろう。■影響範囲:ニフクラ オブジェクトストレージ 東日本リージョン(障害お知らせ通知番号:T002396)富士通クラウドテクノロジーズのクラウドサービス「ニフクラ」で障害が発生。オブジェクトストレージのサービスが利用できなくなった。原因はアプライアンス製品のソフトの不具合。全面復旧に1カ月以上を要した。障害への対応に利用企業から不満の声も挙がった。また、ストレージについては、修正パッチ適用からリカバリーまで20日ほどかかっていることからわかる通りいくらソフトウェアが修正されてもすぐに利用可能にならない怖さがある。ストレージとは本当に厄介であるとともに無くてはならぬサービスで、私個人としては二度とオンプレミスのストレージサーバーに関わりたくない。データはこわい。この状況のもと、システム構築において、ストレージサーバーの選択は命を握る選択だと思う。どんなシステムでも捨てるデータはどんどんなくなっている。消すぐらいならオブジェクトストレージに転送し、ビッグデータとして活かすという発想はもはやエンジニアのみならず経営者まで考えるようになった。この器として選択する機器は、私個人の意見としては、OSSではなく、実績・シェアのあるベンダーの既製品を時間をかけて採用していったほうがいいと思っている。ニフクラにしてみれば富士通一択しかなかったとは思うけれども。ニフクラのオブジェクトストレージがどの製品を使っていたかについては、レポートには記載されていないが調べればすぐにわかる。クラウドではたらくインフラエンジニアのorangeitemsが日々気になったことを気まぐれに書いています。10日間はオブジェクトストレージに何もできなくなり、そこから1カ月は読み取りしかできない状態だったということだ。※西日本のオブジェクトストレージを代替機としたらしい。上記の通りFUJITSU Storage ETERNUS CD10000 S2 ハイパースケールストレージである。特にこのページの導入事例の項目は教材となると思う。ということになると思う。冒頭の日経BPの記事に、不満に思うというユーザーの声があったが、何とも中のエンジニアのことを思うといたたまれないと思った今回の件だ。CephがOSSであることも重要なポイントでした。「お客様に提供するサービスに対して自分たちで責任を持つことを大切にしています。システム障害が発生したときブラックボックスではベンダーに任せるしかありませんが、OSSであれば当社で原因を追求することが可能です。またCephのコミュニティは活発に活動しており将来性も期待できます」オンプレミスにしろパブリッククラウドにしろ、ストレージと名のつくサービスを安定的に運用するということは、非常に社会的責任が重い仕事だと思う。ペタバイト級のデータ、と簡単には言うが、この情報資産としての価値が日々日々高まっていると言わざるを得ない。 FJCTでは2016年くらいからSlackを導入し、コミュニケーションの円滑化だけでなく、各種自動化やChatOpsを推進しています。現状ではこれによりインフラ作業の約80%が自動化されていて、ヒューマンエラーによる作業ミスはほぼなくなっています。障害対応支援、サポート対応支援、対外広報支援など7名のメンバーで構成されており、障害発生時に担当部門を支援することで対応に集中できる環境を整えるのが主な役割となっています。復旧対応の支援や復旧後の根本原因究明などの活動を行っています。仮想基盤や仮想サーバーの構築、日々のメンテナンスなど、運用で自動化できるものはコードに落とし込みを行うことで手作業は極力実施しないようにしています。GitLabやJenkinsなどのツールを用い、インフラエンジニアもコーディングを実践することで、普段の運用をどんどんコード化するフローと体制ができあがっています。ニフクラの運用では「同じ作業を二度実施しない」、「再利用可能にする」を徹底し、Web開発のCI/CDフローをインフラ運用にも適用しインフラのCI/CDを実現しています。1月に発生したオブジェクトストレージの大規模障害を教訓に、障害対応支援・情報連携を迅速に行うための専門チームとしてSATが設置されました。すべてをご紹介できないのが残念ですが、これ以外にも数多くの細かい取り組みが各チームで実践されていて、ニフクラの品質向上や効率化に大きな役割を果たしています。 ニフクラに登録したSSHキーと手元のキーが一致しているか確認する. インターフェイスとしてREST APIの提供、そしてAPIを活用して作成されたブラウザー経由のオブジェクトストレージエクスプローラーをご利用いただけます。権限設定による細やかな閲覧制限や冗長化により、大事なデータを保護します。また大容量のデータを分割して効率的にアップロードすることも可能です。マルチアップロード機能により、GB、TBクラスの大容量データについても分割して送信が可能となるため、インフラへの負荷軽減、作業効率化につながります。ストレージ容量の計算は、リージョン毎のTB単位での課金となります。REST API(Amazon S3互換)の利用により、Webアプリケーションを利用したブラウザーやモバイル環境からの操作、ハードウエアへの組み込み連携などが容易にできます。直接配信やAPIによるアプリケーション連係、アクセス権限管理によるデータ共有や冗長化によるコンテンツ保護など、クラウドならではの特長を活かしたサービス提供が可能です。APIでの利用だけでなく、エクスプローラーメニューにより、ウェブのコントロールパネルから直感的にストレージ領域を管理することもできるため、お客様自身ですぐに操作できます。コントロールパネルおよびオブジェクトストレージAPIからご利用いただけます。気になるセキュリティやデータ保護については、SSL(https)対応やデータの冗長化により安全性に力を入れています。バケットやオブジェクトの情報の取得はストレージの使用料には含まれませんが、データ転送料金(10TBまで無料)には計上されます。 まずは公式発表を確認する。オブジェクトストレージ障害復旧のお知らせ - ニフティクラウド Informationこの記事の中に報告書がある。 10日間はオブジェクトストレージに何もできなくなり、そこから1カ月は読み取りしかできない状態だったということだ。※西日本のオブジェクトストレージを代替機としたらしい。運用設計に組み込んでいたシステムはこの期間かなり対応を迫られただろう。また障害が復旧したからといってすぐに元に戻せたりもしないだろう。最近は、ハードウェアよりソ … ニフクラファイアウォール パフォーマンスチャート Splunk オブジェクトストレージ goofys ニフクラCLI アクティビティログ ベンチマーク・検証 ※本記事で利用しているAPIのエンドポイントは 2019年1月31日にクローズ予定の(nifty.com)を利用した 記事になっています。 Copyright (C) 2020 orangeitems's diary. オンラインでのコミュニケーションの特性を押さえた上で、上手に話すためのノウハウを解説するオンライ...受講で使用するBIツールインストール済みのパソコンとテキストは、受講日前に受講者の方宛にお届け。...アフターデジタル社会になると市場のルールが変わると考えたほうがいい。社会の変革は避けようがないな...企業のDXへの取り組みが加速する中、データをいかにうまく活用できるかがその成否を左右します。本書...日経NETWORKに掲載した無線LANに関連する主要な記事をまとめた1冊です。無線LANの基礎知...アフターコロナでも働き方の一つとして定着するのがテレワーク。ただ、管理者にとってはこれまでと勝手...本書は、複数企業のDXプロジェクトの運営を手掛けてきた筆者が、DXプロジェクトをうまく進めるためのノウハウを豊富な経験を基に解説します。2020年のIT Japanはオンラインセミナー形式で8/26~28に開催します。参加は無料。「IT Japan 2020」のサイトで事前登録してください。富士通クラウドテクノロジーズのクラウドサービス「ニフクラ」で障害が発生。オブジェクトストレージのサービスが利用できなくなった。原因はアプライアンス製品のソフトの不具合。全面復旧に1カ月以上を要した。障害への対応に利用企業から不満の声も挙がった。自動車、IT、建設など主要9業界を徹底取材し新型コロナの影響を分析。非接触技術の最新情報、オフィスの未来、制約条件下での新たなイノベーションなど7つのトレンドを徹底解説。30人の論客による予測も。新技術だけではなく、既存のシステムをネットに対応させていくこともDXの基盤として極めて重要なこと...改善といえば「なぜなぜ分析」。なぜなぜ分析の理解を深め、自分自身がチームを率いて実践できるように...オンラインで売れる営業トークを分析して分かった商品説明ノウハウを解説する講座です。フレームワーク...「社員が行方不明」「ハンコが押せない」――。3000人に調査した現在のテレワークの実態や、先進企業に学ぶ業務改革、ITツールの便利な活用法などを紹介。次代を担うビジネスパーソン必携の1冊。ネットにスマホ、SNSが普及したことで「情報過多社会」になりました。本書は、ソーシャルメディアが...「日経コンピュータ」定期購読者もログインしてお読みいただけます。Copyright © Nikkei Business Publications, Inc. All Rights Reserved. 営業とエンジニアを経験した今、仕事の幸せについて考える . ニフクラが実施済みの対応やお客様自身で必要な対応を取りまとめています。 重大障害即応チームsatの設置.