ANA。データベースの不具合パッチ当てなくても大丈夫でしょ。→ [896590257]
■ このスレッドは過去ログ倉庫に格納されています
ANAシステム障害の原因判明、DB並列参照時にパッチ未適用の既知バグでフリーズ
2023.04.07 日経コンピュータ
全日本空輸(ANA)の国内線旅客系基幹システム「able-D」で2023年4月3日午後に発生したシステム障害の原因が判明した。
周辺システムからable-Dのデータベース(DB)を参照する際、データベース管理システム(DBMS)のバグをきっかけにDBがフリーズしていた。
バグは既知のものでパッチもリリースされていたが、同社はシステム構成上パッチ未適用でも問題ないとみて適用を見送っていた。
同社が2023年4月7日に開いた記者会見によると、詳しい経緯はこうだ。
able-Dの周辺システムの1つにマーケティング部門が使用する「予約管理支援システム」があり、同システムはable-Dから予約データを30分ごとに抽出している。
国内線の旅客系基幹システム「able-D」のデータベースから、「予約管理支援システム」が定期的にデータを抽出している
その際、複数のデータを短時間で処理できるよう、抽出を並列処理(パラレルクエリー)で実装していた。
このDBMSでは、同時に複数のクエリーを投げるとまれにエラーが発生するバグが発見されており、2018年にはパッチもリリース済みであった。
ただ同社はDBについて「DB1」「DB2」という2系統でクラスタリング構成を組んでいた。
このことから、エラーが発生してもどちらかのサーバーに片寄せすることで継続稼働できるとにらみ、パッチの適用を見送っていた。
ただ今回の障害では、バグによるフリーズの影響が同社の想定を超える範囲に及ぶ結果となった。
https://xtech.nikkei.com/atcl/nxt/column/18/00001/07915/
https://cdn-xtech.nikkei.com/atcl/nxt/column/18/00001/07915/ph01.jpg
https://cdn-xtech.nikkei.com/atcl/nxt/column/18/00001/07915/ph02.jpg どっかの新聞社で毎回shutdown abortしてたら不具合で止まった事があった
20年近く前 パッチあてるにはテスト環境作ってテストしなきゃならんからな
コスト削減のために余計に金のないかかったな パッチ当てだって、テストしたりして精査しなきゃならんから大変だわな。
家のPCと違うし。今まで問題おきてなきゃ見送る判断もありだろ。 ウチのOracleもパッチ当ててないわ・・・(ガクブル
テストする余裕が無い(涙
猿なんだからウインドウズだまっていじってろよ
ウインドウズウィンウィンwwwwwwww
>>7
いま安定稼働してるなら、支障が出るまでパッチなんて当てたくないよね よくわからないけど今まで大丈夫だったんだから大丈夫だろ パッチを当ててないからダウンしたのかはわからんからな パッチ当てなくても問題無く動いてるからヨシッ!
よくある現場猫案件だな。 >>20
クラウドかてネットワーク障害で落ちたりはするで パッチ当てても当てなくても、システムダウンしたら責任取らされる
当てるよりは何もしない方が責められるリスクが減る あれ?ChatGPTが何でも解決してくれる世の中になったんじゃないんスか? 検収なんかめったにやらないから
派遣で検収チームを構成して検収の研修をやって
タイミングが悪いとOSがアップデートされてOSの検収から遣り直し
だからまとめてやるんだと言いながらセクション廃止まで粘る戦術 >>25
それはまだ分からない
アナリストの分析を待て パッチなんて小賢しい事しないで不具合部分は作り直せって 日本企業のパッチ当てなさは異常
きっと無能なんだと思う できれば当てたくないもんなパッチなんて
お気の毒様 >>1
これは穴があったら入りたいほど恥ずかしいな 昔なら鬼のように叩くのに現場の苦労が浸透しているのか、システム屋が多いからなのか
みんなの反応がやさしいのがほっこりする。 パッチあてで客からお金もらえるの?
環境作ってテストして復元準備してテストして当日は夜間作業でしょ?
結構費用かかりそうだけど エラーで落ちること自体は二重化で対応してたなら
DB1の復旧に想定より時間がかかったのか
処理件数が想定より多くてDB2だけじゃ捌き切れなくなったのか
どっちの問題なんじゃろな >>30
なんか異常と言えるまでに停止やメンテを嫌がるね
アレイ装置のディスクがフォルト出ててもデグレ起こすまで交換させてもらえないとか普通にあるからなぁ パッチの都度そんな作業させられたら溜まったもんじゃない ANAはちょくちょくシステム障害起こしてるよね。2016年にもDB周りで障害起きてたような 仮想環境上でMariaDB使ってるシステム作ってるんだけど、
不定期にクエリが戻るまで一秒くらいかかるときある。何これ教えて >>38
DB1が特定データ喰ってバグでフリーズ、レプリケーション先のDB2がマスター昇格したけど同じデータ喰ってフリーズ
って風に見える 俺もアップデータの不具合でDB壊したことあるからな
小さいシステムで実行前に丸ごとイメージを取ってあったんですぐに復旧できて事なきを得たけど
パッチとかアップデートってその適用自体がリスクだし、ホストとかの作業だと関連する業務全部止めなきゃならなかったりするから
いま問題なく動いてるんならむしろいじらずにそのまんまってとこも多いだろね >>7
ANAクラスなら検証、開発環境くらいあるんじゃねーの? >>47
アメリカでも昭和システムのところがあったし
そんなもんだよ たとえパッチを当ててなかったとしても
データベースが落ちるとかおかしいよな
もともとバグがあるんだろ 責任者は責任を取るために金をもらってる。
金ももらえない責任者になるくらいなら、
下っ端の方がマシ。
ざっくりシステム概要をきいて、
ヤバイ箇所と知らない箇所は避ける。
下手すると、コピペでシステム概要をつくって、
つくった連中が中身を知らない場合がある。
最後まで責任を取ってもらわないと。 DB1はたまたま当たりを引いたけど
DB2に処理が集中することによって確実に当たりを引く もうそろそろ、落とせないシステムってもの自体見直そうぜ パッチあてたからといって泊らなかったかというとそうともいいきれないからな
ワクチンみたいなもんだろ、ワクチンでほぼ確実に副反応があって翌日はまともに動けなくなる
しかし、ワクチンをうたないと、感染した時にダメージがでかい
どちらのリスクを取るかはそれぞれが判断することになる
つまり、ANAのシステム管理者は反ワク信者でかつQあのん信者のネトウヨってことだな 現場 「これ、ヤバくね? 責任者から指示くるまで待ちやな」
責任者 「バグ?良う分からん。 動いとるから大丈夫やろ。放置や」
トラブル発生
責任者 「おい現場!どないなとんや」
現場 (知らんがな。それはお前の仕事や!) ソニーも昔サーバーのパッチ全くあてずに運用してたからな
インフラ担当が知識持ってない事が多い そもそもOracleがCPUのコア数分だけライセンスよこせとかヤクザ地味た金の取り方しなきゃみんな検証環境作って幸せになれるんだよ >>5
神戸新聞社だな
俺もDBエンジニアだからわかるがあれは相当な恐怖だったと思う
なんせリカバリ手順が何も効かないんだから ベンダーがアホなんやけど現実問題として難しいからなあ
客もそんな金くれねえし 事実今まで発生してなかったからな
あとは確率の問題 >>69
SE(60万)廃止してSE2(190万)にしたのにも切れそうだったわ
使いたい機能は全部EEのオプションだしほんともう嫌 無限にリリースされるパッチを当て続ける方がリスク高い パッチ当ててないのも悪いけどそもそも②でうまく倒れてないのがダメじゃない?フェイルオーバー機能してないじゃん >>77
毎週止まってるガルーダとか三日に一回止まる大韓とかよその悪口を言うのは感心しないな >>47
基幹システムやデータベースのシステムの新しいのって次から次にエラーも出てバグだらけだけども 2系統あるんで安心です
↓
1系統でも落ちるともう片方も落ちますけどね
↓
??? おそらく開発側から提案あったけど予算さかないで大丈夫とか思ってたんだろ このパターンOracleだろ
パッチ当てるのも大仕事 >>47
外部システムへの移管が決定済みの古いシステム
(JALはすでに移管済みでこの前の騒ぎの時の復帰遅れの一因)
パッチ当てなかったのもこれが影響した可能性が >>98
ユニシス(今なんて名前だっけ?)がDB2使うイメージないな さんおくろせんまんえんの内
一人三万までの宿泊費含まれてるんだろ?w Oracleだとライセンス料半端無い
MySQLかPostgreSQLへ移行すべき むかしDBベンターいたときパッチ当てたら落ちない保証してくれんの?とか聞いてくる大手ユーザがいてガキかお前はって思ったわ
保証なんてあるわけねーだろを丁寧に説明したら逆切れされたw 酷いなジャイアンツのケツANA坂本
早く自殺しろよ システム管理の部署潰したから、リスク評価できないんだろ
どうせ、システムを止めたくないって営業上の理由だろうし
パッチ当てたら一通りの動作確認は必要だからな セキュリティのパッチとかなら落ちないけど、システムライブラリとかだと影響は多岐に渡るんだよな ここもシステムがみずほ同様に富士通だった気がする
みずほマイレージ系で提携してるし >>105
なんだかんだ補償してるらしいとか噂では聞くけど、本当にトラブル時に補償してないの? >>115
さすがに8iは無いだろ笑
12cあたりだろ 現実問題としてさ、常に最新のパッチを片っ端から適用してるミッションクリティカルなシステムとか、何処かに存在するのかな? うちのとこも安定版って言ってるのに全然アプデしないな 通常の使い方しているて不具合がないならそのままでも問題はないはずだからな
負荷が強すぎたり、何らかの状況がいつもと違って落ちた
その原因は結局のところわからないんだよ。
そういうもん。だからパッチのせいにしただけ >>85
3日に1回止まるというソースを出して
まさか朝日新聞みたいなキミの捏造じゃないよな? もう、エラー原因特定するAIщ(゚д゚щ)カモーン >>39
連携システム多いと資料の確認と資料が正しいかの確認から始めないといけない
最近はシステムが数珠繋ぎみたいになってるから影響範囲が半端ない
パッチ適用の時間と問題あった場合の切り戻しの資料を作らないといけない
パッケージならベンダにも相談しないとだし費用も発生する可能性がある
社内SEでも複数システムの運用保守しながら複数プロジェクト抱える時代にこんな保守対応無理無理
社外の人も使うようなシステムならともかく、社内システムで大きな問題にならなそうなら今動いてるから大丈夫って言い聞かせてスルーだわ 富士通のシンフォウェア使えばこんなバカな事象回避できたのにwww うまく動いてるときはケーブル1本も抜けないもんなー
わかるわ >>1
こういう純正のパッチほど自分のDNAを持つガン細胞のように何の痛みもないまま
確実に死に至らしめることがあるから同業他社の様子を見てからパッチを当てることはある。 従業員を安値で買い叩いて、優秀な人材がどんどん辞めていたことが原因だったりしてw
もしくはコスト削減でパートや外国人、障害者にシステムの保守管理丸投げしてたことが真因だったりしてなw
さすがに大企業ではそんなことはないかww >>138
あるよ。滅多に起きない障害のようだからね。
その代わり、コレみたいに事故ったら自分で責任を取る覚悟が必要。
一方、パッチの問題ならメーカーに責任なすりつけられる。 パッチ当てずに起きた障害よりパッチが原因で起きた障害の方が多いのが現実・・・
それでもWUは毎月当ててるけどさ とまったらオラクルが責任とれるのか
保証なしでパッチはあてられんぞ 落ちないデータベース
メンテしながら稼働できる
そんなものないの? ■ このスレッドは過去ログ倉庫に格納されています