この度は長時間に渡る障害により、加盟店様各位に多大なご迷惑をおかけしましたことを深くお詫び申し上げます。
下記の通り、障害の詳細についてご報告させていただきます。
時刻 | 状況 |
---|---|
2022/3/25 18:58 | 障害発生 |
2022/3/25 19:58 | 原因の特定 |
2022/3/25 20:04 | 問題箇所の修正 |
2022/3/25 20:07 | エラーの終息確認、事後監視 |
2022/3/25 21:32 | 事後監視終了 |
決済を伴うAPIのタイムアウト
当日は18時ごろよりAWSネットワーク設定の整理、棚卸し作業を行っておりました。
当該作業の一部として、不要となったセキュリティグループの設定を削除した際、想定外の通信まで遮断される事象が発生いたしました。
その結果、決済の重要な部分で参照されるミドルウェアへのアクセスが不通となり、決済リクエストがタイムアウトする障害に繋がりました。
削除対象のセキュリティグループの一つが誤った設計になっており、セキュリティグループ名に関係のない重要なポートの開放に関するルールが記載されていました。
作業は2名体制で行い、削除対象のダブルチェックは都度行われていましたが、削除の趣旨が「効果がないと思われるセキュリティグループの整理、効率化」であったこと、および前述の通り名前から想像されない機能が含まれていたことから、削除前に気づくことができませんでした。
以降の作業対象に関して、改めて削除対象の実際の設定内容・趣旨・用途等をレビューし直した上で実施するよう作業計画を修正いたしました。
より根本的には、本整理・棚卸し作業を安全に完了させ、セキュリティグループを含めたシステム構成を適切かつ見通しの良い状態に改善することが、本件のような事故を防止することに繋がると考えております。