ここから本文です

AWS東京リージョンの大規模障害--制御システムにバグ、「パージ」移行に失敗

8/26(月) 13:32配信

ZDNet Japan

 Amazon Web Services(AWS)の東京リージョンで8月23日に「Elastic Compute Cloud(EC2)」サービスの障害が発生した。同社は障害の発生した経緯と現在の対応状況について明らかにしている。

 AWSによると、東京リージョンの一部のEC2サーバーが停止した原因は、データセンター制御システムに障害を発端に、冷却システムの制御がうまく機能せず、サーバーの温度が許容限度を超えてしまったためだという。

 制御システムには、ファン、冷却装置、温度センサーなどのサードパーティー製のコードが含まれており、直接または組み込みプログラマブルロジックコントローラ(PLC)を介して、実際のデバイスと通信する仕組みになっていた。複数ホストで実行する高可用性設計となっており、今回の障害発生の直前には、制御ホストの1つを外す処理を行っていた。

 新しい制御ホストがデータセンターの最新状況を保持するためには、他の制御システムと制御するデータセンター機器と情報を交換する必要がある。この処理において、サードパーティー製の制御システムにおけるロジックにバグがあり、情報交換が制御システムとデータセンターのデバイス間で過度に発生。最終的には制御システムが応答しなくなってしまったという。

 AWSによると、同社のデータセンターでは、制御システムに障害が発生した場合、機能が回復するまで冷却システムが最大出力になるよう設計されているという。だが、データセンターのごく一部でこの冷却構成に正しく移行できず、冷却システムが停止。追加策として、データセンター制御システムを迂回し、冷却システムを「パージ」モードにすることで熱風を素早く排出しようとしたが、これも失敗した。

 この時点で、データセンターの一部のエリアで温度が上昇し始め、サーバーの温度が許容限度を超え、電源が停止し始める。この状況を改善するためには、オペレーターが影響を受ける全ての機器を手動でリセットし、冷却モードを最大にする必要があった。

 その対応時に一部の空調ユニットを制御するPLCも応答しないことが分かり、またこの障害によりデフォルトの冷却モードと「パージ」モードが正常に動作していないことも確認した。これらのコントローラーがリセットされると、影響のあったデータセンターのエリアへ冷却が行われ、室温が低下し始めたという。

 AWSでは、現在もサードパーティーのベンダーと協力し、制御システムとPLCの不応答を引き起こしたバグと、バグによる影響の詳細な調査を進めている。また、再発防止のため、バグを引き起こした制御システムのフェールオーバーモードを無効にするとともに、オペレーターにこの障害の検知方法と復旧方法のトレーニングを実施した。同様の障害が発生しても、顧客システムに影響が生じる前に、システムのリセットが可能になっているとしている。その他にも、「パージ」モードがPLCを完全にバイパスできるよう、空調ユニットを制御する方法を変更するよう作業を進めているという。

最終更新:8/26(月) 13:32
ZDNet Japan

こんな記事も読まれています

あなたにおすすめの記事