2022-03-25 API接続がエラーとなる状況
Incident Report for PAY.JP
Postmortem

この度は長時間に渡る障害により、加盟店様各位に多大なご迷惑をおかけしましたことを深くお詫び申し上げます。
下記の通り、障害の詳細についてご報告させていただきます。

障害タイムライン

時刻 状況
2022/3/25 18:58 障害発生
2022/3/25 19:58 原因の特定
2022/3/25 20:04 問題箇所の修正
2022/3/25 20:07 エラーの終息確認、事後監視
2022/3/25 21:32 事後監視終了

障害内容、影響範囲

  • 決済を伴うAPIのタイムアウト

    • 主に支払い作成やトークン作成など、新規に決済が発生するものが大きく影響を受けていました。
    • 遅延の影響により、非決済系APIについてもリソースが圧迫され、遅延や不達が発生していました。
    • 同様の原因により、定期課金の更新も障害復旧まで遅延しました。

発生経緯

当日は18時ごろよりAWSネットワーク設定の整理、棚卸し作業を行っておりました。

当該作業の一部として、不要となったセキュリティグループの設定を削除した際、想定外の通信まで遮断される事象が発生いたしました。

その結果、決済の重要な部分で参照されるミドルウェアへのアクセスが不通となり、決済リクエストがタイムアウトする障害に繋がりました。

原因分析

削除対象のセキュリティグループの一つが誤った設計になっており、セキュリティグループ名に関係のない重要なポートの開放に関するルールが記載されていました。

作業は2名体制で行い、削除対象のダブルチェックは都度行われていましたが、削除の趣旨が「効果がないと思われるセキュリティグループの整理、効率化」であったこと、および前述の通り名前から想像されない機能が含まれていたことから、削除前に気づくことができませんでした。

今後の対策

以降の作業対象に関して、改めて削除対象の実際の設定内容・趣旨・用途等をレビューし直した上で実施するよう作業計画を修正いたしました。

より根本的には、本整理・棚卸し作業を安全に完了させ、セキュリティグループを含めたシステム構成を適切かつ見通しの良い状態に改善することが、本件のような事故を防止することに繋がると考えております。

Posted Mar 26, 2022 - 20:23 JST

Resolved
再発がないことが確認できたため、監視を終了いたします。
この度は長時間に渡りご不便をおかけし、誠に申し訳ありませんでした。

本障害のご報告につきましては、当ページ上のPostmortem欄にて後ほどご報告させていただきます。
Posted Mar 25, 2022 - 21:32 JST
Monitoring
2022-03-25 20:03 に原因が判明しましたので復旧作業を行い、 20:04 からエラー率が低下していることを確認しています。現在監視を続けております。
Posted Mar 25, 2022 - 20:14 JST
Update
2022-03-25 18:58 から発生中のAPIタイムアウトエラーについて、現在も断続的に遅延が発生する状況が続いております。引き続き解消に向けて調査しております。
Posted Mar 25, 2022 - 19:49 JST
Investigating
2022-03-25 18:58 ごろより、API接続がタイムアウトエラーとなる障害が発生しています。現在状況を確認しております。
Posted Mar 25, 2022 - 19:08 JST