いつもKnowledge Suiteをご利用いただき、誠にありがとうございます。
2020年12月7日(月)に発生したKnowledge Suite(https://gridy.jp)のアクセス障害につきまして以下のとおりご報告申し上げます。
ご利用のお客様には多大なるご迷惑をおかけいたしましたことを、深くお詫び申し上げます。
1.障害概要
Knowledge Suite(gridy.jp)において、老朽化したサーバ機器を刷新するために、新サーバを構築し、12月6日に本番環境へのリリースを実施しました。新サーバは、高負荷を回避し、ダウンタイムを極力減らすために、ハイスペックなHA構成で構築しています。しかし、今回のリリースの影響により、レスポンスが返りづらい状況となり、Knowledge Suiteの全てのサービスがご利用しにくい(非常に時間が掛かる、またはタイムアウトする)状況が発生しました。
2.発生時期
2020年12月7日 8時50分 ~ 2020年12月7日 17時30分
3.影響範囲
Knowledge Suite(https://gridy.jp)をご利用いただいている全てのユーザ様
4.経緯
12/7(月) 08:50 エラー検知、初動開始
12/7(月) 09:02 パラメータ変更実施
12/7(月) 09:15 サーバ増強①準備開始
12/7(月) 09:45 サーバ増強①完了
12/7(月) 09:46 一部機能制限開始 → 経過観察
12/7(月) 13:00 サーバ増強②準備開始
12/7(月) 17:00 サーバ増強②完了、復旧
12/7(月) 17:30 動作確認完了
12/7(月) 18:30 一部機能制限解除
5.原因
12月6日にKnowledge Suiteを提供しているサーバのCPUの処理能力やメモリ容量等の増強を目的として、新サーバの導入を実施しました。導入した新サーバのパフォーマンスが十分に発揮され、想定以上のアクセスを処理したためボトルネックがDiskIOへ移ってしまいました。
同時接続で処理可能なコネクションは増加しましたが、データベースへの書込処理や読込処理に負荷がかかり、レスポンス時間が長くなり接続が難しい状況へ陥りました。
多重度を増加させ、DiskIOの負荷を分散させる必要がありましたが、多重度を増加させる準備ができておらず、接続が難しい状況を長引かせる結果となってしまいました。
6.対応
臨時のメンテナンスを実施し、DiskIOの負荷を分散させるために、一部の構成の多重度を増加させました。若干は軽減されましたが、十分では無いため、更に多重度の増加対応を実施しました。
7.再発防止策
新サーバの導入に際して、多重度の増加が可能なよう準備を実施します。
