ヘルプで見つからない情報は、サポートにお問い合わせください。お問い合わせ

2023年10月24日(火)Knowledge Suite障害のご報告 12/8 17:45更新

いつもKnowledge Suiteをご利用いただき、誠にありがとうございます。

2023年10月24日(火)より発生したKnowledge Suiteの障害につきまして以下のとおりご報告申し上げます。
ご利用のお客様には多大なるご迷惑をおかけいたしましたことを、深くお詫び申し上げます。


1.障害概要および発生期間
Knowledge Suite(https://gridy.jp)をご利用いただいているすべてのお客様において、以下のとおりKnowledge Suiteがご利用できない状況が発生しました。また、復旧対応においてKnowledge Suiteの一部機能のご利用を制限させていただいておりました。

・お客様がKnowledge Suiteにアクセスできない問題が発生しました。
 期間:2023年10月24日 08:45 ~ 2023年10月25日 07:02
・マイページ(新着情報および週スケジュールの表示)の表示を停止しました。
 なお、各個別機能は制限せずに提供しております。
 期間:2023年10月25日 08:52 ~ 2023年11月7日 09:45
・ピーク時間帯(*1)にKnowledge Suiteの各画面の表示に著しい遅延が発生しました。
 期間:2023年10月26日~2023年11月1日
 (*1) ピーク時間帯:午前(8:00~11:00)、夕方(16:30~18:30)
・ログインがしにくくなり、Knowledge Suiteにアクセスができない問題が発生しました。
 期間:2023年11月6日 08:55~09:45

※本障害によるセキュリティ上の問題(外部からの攻撃やウイルス等)は発生しておりません。

2.障害の状況について
2023年10月24日 8時45分にKnowledge Suiteの複数台サーバでハードウェア(以下HW)障害を確認しました。冗長化構成となっていた高性能なハイパーコンバージド(以下HCI)複数台に影響が出たため、ピーク時間帯のアクセスに対処することが難しい状況となりました。

【2023年10月24日~11月1日にかけて】
 対象のサーバはメーカー独自の部分が多く自社だけで復旧は難しい状態を確認しました。
 メーカー/保守契約している企業とも早期復旧について検討しましたが、多くの時間がかかることが
 見えたため、早期解消に向け「グループ内の即時利用可能なサーバの活用」「短期で手配可能な
 新規サーバの増設」を最優先で実施しました。
【2023年11月1日~2023年11月2日にかけて】
 サーバの設定/調整を実施しました。
 11月2日の対策にて、アクセス負荷の問題については解消できたことを確認いたしました。
【2023年11月6日】
 アクセス負荷が解消した影響で、ボトルネック(負荷が集中する場所)が移動し、キャッシュサーバへ
 影響が発生したため、環境の調整を実施いたしました。
【2023年11月7日】
 朝のピークの時間帯も安定稼働の状況を確認し、9時45分のマイページ制限解除をもってお客様
 への影響は解消しております。
【2023年11月14日】
 11月7日からの継続監視によりアクセス負荷を安定的に捌くことを一定期間確認できましたので、
  復旧とさせていただきました。

3.経緯詳細
2023/10/24(火) 08:45 Webサーバに高負荷となる事象を検知、調査開始
2023/10/24(火) 08:45 マイページの機能制限を実施
2023/10/24(火) 14:46 復旧対策を実施していたが、HW障害の筺体が完全に停止
2023/10/24(火) 14:46 影響を受ける全サーバ機能を自社保有するサーバにてリプレイス作業開始
2023/10/24(火) 16:02 メンテナンスモード開始
2023/10/25(水) 07:02 メンテナンスモード解除
2023/10/25(水) 18:55 マイページ機能制限解除
2023/10/25(水) 19:30 自社保有する追加サーバにて環境増強作業実施
2023/10/26(木) 02:39 グループ企業まで範囲を広げ利用可能なサーバの緊急手配を実施
2023/10/26(木) 08:37 繋がりづらい状況が発生、マイページの機能制限を実施
2023/10/27(金) 国内別拠点で稼働中のサーバを停止、解体、発送を実施
2023/10/28(土) 19:00 国内の別拠点よりサーバ筺体が到着、サーバ移設作業を開始
2023/10/29(日) 13:00 メンテナンスモード開始、サーバ追加および構成変更を実施
2023/10/29(日) 04:40 メンテナンスモード解除
2023/10/30(月) 18:30 グループ内で並行して調整していた追加サーバの増設作業を実施
2023/10/31(火) 新規サーバのOS設定およびデータセンターでの設置作業を開始
2023/10/31(火) 22:56 新規サーバの環境構築、接続作業および動作検証が完了
2023/11/01(水) 各種設定の最適化に向けた調査と一部の設定変更を実施
2023/11/01(水) 16:30 一定の改善を確認
2023/11/02(木) 10:00~13:00 各種設定の最適化を実施
2023/11/02(木) 13:00 レスポンスの改善を確認
2023/11/03(金) 20:00 メモリ増強および環境の構成/設定の最適化を実施
 -定期的な状況の監視を実施-
2023/11/06(月) 08:55キャッシュサーバに負荷が発生
2023/11/06(月) 8:55~9:40 Knowledge Suiteにアクセスができない状況が発生
2023/11/06(月) 09:40 緊急メンテナンスを実施、キャッシュサーバを増強
2023/11/06(月) 09:45 問題の解消を確認
2023/11/07(火) 09:45 マイページの機能制限を解除、終日安定稼働を確認
 -定期的な状況の監視を実施-
2023/11/14(火) 06:58 アクションログの書き込み時のエラーによりログインがしづらい状況が発生
2023/11/14(火) 08:09 原因となる処理の停止を実施し、問題の解消を確認
2023/11/15(水) 16:00 サーバ状況の継続的な監視により、11/7の機能制限解除をもって復旧判断

4.原因
Knowledge SuiteのHW障害が発生し、当該HW筺体が完全に停止しました。

<HW故障につながった原因>
【原因①】
24日ピーク時間帯の継続的なアクセス負荷により、複数台でクラスタリング(*2)していたHCIに問題が発生しました。
該当HCI専用のミドルウェアで管理されていた仮想サーバ間の通信が停止したことで、クラスタリングにより冗長化、負荷分散されていた構成が機能しなくなり、複数台のHWが停止に陥りました。
(*2) 複数のコンピューターを結合したシステム
HW停止する前の調査状況から、HCIファームウェアのエラーが発生し、VLAN(*3)に過負荷が発生していることを確認しました。
エラーの内容からHCIのファームウェア問題に起因していると想定しております。
現在、電源は入るがサーバとして起動しない状態となっており、根本原因につきましてはメーカーに調査を依頼している状況になります。
(*3) 仮想的に分割されたLAN接続

<復旧に時間がかかった原因>
【原因②】
HWの手配による時間がかかりました。
完全復旧に向けたサーバ構成を目指すために、HWの手配に10月31日までの時間がかかりました。
・自社のサーバ手配(10月24日、10月25日設置)
・グループ企業を含めたサーバ手配(10月29日、10月30日設置)
・新規購入サーバの手配(10月31日設置)
【原因③】
環境の総入替によるチューニングは構成が揃ってから実施する必要がありました。
HWの手配により復旧目標のサーバ構成が揃って初めて最適化の着手ができる状況でした。
新たに導入したサーバは性能(CPU、メモリ)が統一されたものではないため、環境が揃ってからメモリ追加やそれぞれの設定を最適化する必要がありました。この作業は11月1日、2日に実施しております。

5.再発防止策
自社で十分なメンテナンス・運用が難しいHCIを利用した構成ではなく、現在運用されている通常サーバ構成の環境に完全シフトする方向で整理いたします。
通常サーバ環境を利用する理由は、今回のような問題が起きた場合にお客様影響を最小限に抑える体制を自社だけで取れることを最優先とした判断になります。
通常サーバの複数構成にすることで、代替ハードでスナップショットを利用した早期復旧が可能になります。
今回発生したHW影響についてはメーカーサポートが必須であり、対応に長時間を要することが今回の事象で判明しため、早期復旧を優先するための判断となります。

6.恒久対応について
再発防止策のとおり、「現在のサーバ構成をベースとした環境の維持」をもとにサービスを提供し、環境のモニタリング数値に対して段階的な基準を設け、早期に環境増設の意思決定をできる体制を構築しました。

 

Powered by Zendesk