【悲報】富士通「メモリーを物理的に破壊する試験を行なっていなかった」
■ このスレッドは過去ログ倉庫に格納されています
東京証券取引所は5日、1日に起きたシステム障害の原因を公表した。取引システムで基本情報を保存するメモリーが故障した際に、バックアップが有効に機能しない不具合があった。
東証を傘下に持つ日本取引所グループ(JPX)の社外取締役でつくる調査委員会を立ち上げ、原因をさらに追求して再発防止策を取りまとめる。
システムを担当する富士通の時田隆仁社長も同日の記者会見で陳謝した。
問題が生じたのは、高速取引システム「アローヘッド」で銘柄名や基準値段などの基礎的な情報を格納しているディスク。
その中にあるメモリーが故障し、ディスクの1号機が機能不全となった。
予備の2号機に自動で切り替わるはずができず、株価などの情報を送る情報配信システムがストップした。
東証によると、1号機が何らかの理由でダウンした場合に2号機に自動で切り替わることは、システム稼働前のテストで設計・開発した富士通とともに確認していた。
しかし今回、障害の原因を調べたところ、メモリー故障を理由として1号機が機能不全となった場合に、2号機に自動で切り替わらないことが分かったという。
テストは富士通が主体となって実施しており、メモリーそのものを物理的に破壊するような実験はせず、
「疑似的に1号機の機能を喪失させるテストを実施し、2号機に切り替わることは確認していた」(東証の田村康彦・IT開発部トレーディングシステム部長)。
なぜメモリー故障の際に2号機に切り替わらなかったのか、今後検証を進める。
東証障害、システム設定に不備 調査委を設置
https://www.nikkei.com/article/DGXMZO64626220V01C20A0I00000/ 掃除のオバサンが引っ掛けたときのこと考えてないの?
電圧だろうな、多分ここに気付くまであと2週間はかかる
>>11 だから検知できなくてフェールオーバーできなかったんでしょ
>>8 メモリはずして切り替わるかテストするんじゃないの よく知らんけど
宇宙線がメモリに振りかかった時の試験をやっていなかった!
とはレベルが違うけど、メモリエラー時の対応か。
ハードウエアの故障のほうが報告書を書きやすいからね
典型的な日本企業のやり方だな
無意味な解決策を提示して問題解決したかのように装う
というか、そろそろアローヘッド自体がリプレース時期来てんじゃないの?
今回はメモリだけど、それ以外も故障頻発するぞ
>>20 おう、再発防止策としてチェックリスト作るんだぜ★
>>22 ダブルチェックをした上で上長に確認いただきます!
なまってのらりくらり動いたんだよ
これは難しかったかもな
たまに優しいDV夫みたいな感じの挙動をして離婚できない感じでずるずるいったと思われる
>>15 毎日壊れてるならともかく1年近く以上正常稼働してたんならメモリが壊れた理由なんてどうでもいいわけ
どうせまたそのうち壊れるんだから
正常に切り替わらなかったことが問題
>>17 通電中にメモリ外そうとしたら死人が出るぞ
物理的破壊のテストとか言い出したらもうキリないよね
当時の設計担当者とか転職してて居なさそうだな
というか日本の心臓部が動いているだけでプレッシャーだわ
俺なら間違いなくアトヨロ転職してる
1号機が機能しなくなった状態はどうやって作り出したんだ?
>>25 おう、押印欄もちゃんと作るんだぜ★
あと念の為部長にも見てもらうんだぜ★
物理障害の試験なんて怖くてできない
前にRAID構成のディスクをオンラインで抜く試験を行なって、本当にディスクが壊れた時は始末書レベルでは済まなかった
とりあえず手動フェイルオーバーで乗り切らなかったんはなぜだ
適切なテストしてないのも問題だが
そもそも適切な設計してない問題
だから日系メーカーは避けて外資のストレージにしておけと
>>41 外資なんて任せたらもっと酷いぞ
バグがあっても全く認めようとしない
>>37 それはメモリークラッシュじゃなくてメモリーグラス
>>23 システムエラーなら改善点を示す
ヒューマンエラーなら担当者のクビが飛ぶ
>>38 手動で一部システムを再起動して切り替えたけど、そういう状態での稼働はテストしてなくて怖くて動かせなかったんだよ
そのへんは記者会見で説明してた気がする
仕様書に故障モードの想定がなければテストが行われるはずもなくそのまま納品される
あたりまえ体操
>>43 AWSも結構ひどいからな
強制的にアップデートさせといて今まで動いてたのクラッシュしまくってても調査してまーすで放置だし
実際そこまで試験するものなのか?
俺はしたことない
>>25 A「ヨシ!」(確認)
B「よかった?」
A「ヨシ!」
B「ヨシ!」
A○B○
現場責任者「よかった?」
AB「「ヨシ!」」
現場責任者「ヨシ!」
工場責任者「これ本当によかったの?」
現場責任者「ダブルチェックを徹底した上で双方から確認とりました!」
工場責任者「ヨシ!」
偉い人「弊社のチェック体制は完璧です!」
>>47 「全電源喪失は起こらないからマニュアルは必要ない」みたいなアレか……
ほんまなんで日本はこうなんだろ
事が事だけに品質管理部長の首だけでは済まんな。
事業本部長や役員レベルの責任問題だわ。
これ結局パソコン本体のバックアップがなかっただけ?
パソコンAのディスク1からディスク2に切り替えたけど
パソコンAのメモリー自体が壊れてたから動かなかっただけと?
>>47 standby系で動かすことためらったってこと?
切替後の稼働テストすらしとらんのか
適当な言い訳してれば一週間後には追及されない作戦
企業はもうそう言うの学んじゃってる
>>1 もしかして富士山が大爆発して火山だんが直撃したときのテストもしてなさそう
システム設計の経験不足だな
きっと他にも想定外のモードが山積みなんだろう
恥ずかしいことだ
ディスク以外が物理的に壊れる事を想定してなかったとしか読めないなこれ
>>65 システムの一部分だけ再起動してディスクシステムを手動で切り替えた状態での稼働だよ
普通のシステムなら要らんけど東証レベルなら必要なんじゃないか?
>>43 マジでこれ、台湾からあるライブラリ買ったらなぜか客先デモ中に繰り返しクラッシュ
社内に帰って1ヶ月くらいいろんな条件与えて、クラッシュする条件の傾向を商社に送ったが1ヶ月以上なしのつぶて
最終的に自分で100%クラッシュする条件を見つけて、再現条件をまとめて送りつけたら一週間で修正してきた
くそが
メモリの故障かどうかなんてどうでも良い事で
バックアップに切り替わらなかったのが問題だろ
どうなんだろう、証券システムレベルなら当然やるべきなのかな
>>43 でもこのままじゃ日本企業は何も成長しない
Googleのサービス全般、Microsoft Azureにも障害が起こってたから強めの宇宙放射線でも来てて、メモリエラーが発生したのかな?
>>47 テストしてなくてというか担当者にやった経験がなくて自信がなかったんじゃないかな。
自動切り替えを代わりに手動でやるだけだから理屈では大丈夫なはずだが、このシステムの場合こことここを注意、
とかそういうことを古くからシステムに携わってきた生き字引みたいな人が言ってくれてたらできた、みたいな。
こんなチョークポイントを作らない設計の方が必要なんじゃないの?
昔の日本はハードウェアが強かったのに
今はソフトウェアにこだわってハードウェアがダメになった典型
急に隕石が落ちてくる場合も想定してテスト項目作れよ
物理的にって
だれがハンマーでメモリ壊したんよ(´・ω・`)
>>88 インシデント発生が10月1日だからベテランが異動してて、経験浅い人らばかりになってたのかな?
1号機の電源OFF! 2号機に切り替わったぜテスト成功!
だったのかな。メモリだけ微妙に壊れたけど電源入ってるから1号機が事実上死んだことが分からず、何が壊れたかも分からずみたいな
>>34 電源落とすなりケーブル引っこ抜くなりしたんだろう
メモリの物理故障とかって話になるとハード側の問題だろうからシステム構築時の試験としてはなかなかできんわ
>>76 当たり前だろ
いくらテストしようが100%なんてならない。
テストにはコストも時間もかかる
>>87 オンゲーじゃあるまいし、ユーザーにデバッグさせんじゃねーよw
メモリ上にしか存在しない情報があるってことだろ
その情報が無いとバックアップへの切り替えも、再起動後の情報の保証もできないってことでは
そうでなければメモリ破壊テストが必要な理由にならない
>>88 >担当者にやった経験がなくて
そのためのテストだろうが
メモリって、壊れても完全に動作停止するとは限らないからなぁ
おそらく、メモリに異常が出ても中途半端にエラー吐きながら動き続けて、
切り替えシステム側も故障とは判定しなかった、
てな感じかな
でも、日本の中枢部なんだから、そんな場合に対処できるようにシステムくんどけよ
てか、手動で切り替えれるシステムは組み込まれてなかったんかい
昔ならサーバー用ならECC 1ビットエラーで検出で 2ビットエラーで使い物にならんとかあったけど今どうなんかな。NAND なら Wear leveling で bad block 定量的にわかるけどメモリ不良って地味に面倒い気がしたんだけど
>>96 と言うかシステム屋にできる試験はそこまででしょ
ハード内部の故障での切り替えとかはハード側の問題である可能性のほうが高い
まあ今回はそのハードもETERNUSらしいから富士通のせいではあるんだろうけど東証のシステム担当よりもハード側の担当が責任
取らされるんじゃないかね
物理的な故障に関する試験の問題じゃないでしょ
物理的に壊れた時にどのような動作をするか想定していない設計の問題だよ
設計が間違えているから必要な試験が出来ていなかっただけで、そもそも設計が間違えてるんでしょ
>>103 でもそれってむずくないか
手動で切り替えられる様にしとけは確かに
これからは構築したらハンマーでぶち壊して冗長系に切り替わるかどうかテストせなあかんのかなあ。
勿体ないなあ。
「この部分を斜め45度から叩き潰すと切り替わりましたが、それより鋭角だとどうなるかは試験してませんでした。」
「擬似的」ってのがショボいか、ホントに壊れた時と違う作動をして「擬似的が擬似的じゃない」んじゃない?
>>103 手動で切り替えられるようにはしてるだろうよ
ただ手動で切り替えて本当に問題がないトラブルなのかとか色々あるわけで
共有ストレージの障害で無理やり切り替えた結果障害発生したストレージ上のデータに欠損が発生したりみたいなケースを考えたら
何らかの形でストレージ自体を復旧させたほうがトータルのダメージは少ない、みたいな話もあるし
>>104 1ビットのエラーを特定回数検出したら故障してなくてもそろそろ交換しろってアラートが出るんじゃないか?
フェイルオーバーできることのテストはどうやったんだろうね?メモリー破壊とかするはずもないから擬似的にフェイルオーバーさせたんだろうけどさ
>>107 多分「物理的に壊れたらこういう形でアラートがあがります」みたいな仕様をベースにその前提での試験はしてるんだと思うよ
メモリ故障時にストレージ側でそれをシステム側に通知できてなかったりって話なんじゃないかね
ハード監視で異常発生したら切り替える仕組みがあってもハード自体が異常あげなきゃ切り替わるはずがないわけで
東証くらいなので同じ側のシステムでの多重化やそれを踏まえてのフェールオーバーなんて当然用意していたと思うし
そのどれも機能しなかった状況というのはどこにあるのかな
相当なお金が動いてると思うんだが、こんなざるで許されるんやねえ
あとは redis とか使って部分的に Exception 出まくっただけでメモリ故障が分かったらなかったとか。
壊れ加減が中途半端でフェールオーバーしなかったとかなのかな
切り替えのテストって主系の電源切るとか線を引っこ抜くとかで完全に機能停止前提でやってるんだろうから
主系が生存してるように見えてるけどメモリ故障で機能不全って状態だとちょっと酷だな
クラスタソフトで切り替えできない原因は何だったんだ?
>>112 手動切り替えできなくてこの事態だからな
>>122 ストレージ側の問題なんじゃないかって気がするよなあ
あるいはストレージの監視ソフトか
どちらにしてもシステム担当よりもストレージの方に問題ありそう
まあ普通はメモリ壊れたときの障害試験なんかせんよ
パーツレベルの障害試験なんてやったらいくら金と時間がきるのかと。
ここで騒いでるバカ共には悪いけどこれは富士通が正論
そんなテスト聞いた事ねぇ。
・・・メインフレームとかだとやるの?
よし、マザーボード叩き壊す実験もやろう
掃除のおばちゃん切れて、たたき壊すかもしれんし
半死でうまく切り替わってくれないのはごく稀に発生するが基本的にそこまで考慮するとコストがかかりすぎるしそもそも網羅なんてしようがない
メガバンクとかでも発生し得るけど東証レベルの影響力ならならコスト度外視でテストやるべきなのかね
テストしてないってことですよね
物理的に壊すなんて、現場では無理
>>124 東証の障害のちょい前にGoogleやMicrosoftも大規模障害やらかしてるんで…
>>131 通電しないときの対応だとしたらバーチャルでできそうですよ。
しかし高い授業料になっちまったな
冗長化の初歩的な部分でミスったのだから担当したSEは完全に馬鹿にされるだろ
メモリエラーシグナル送ればシステムが切り替わるってのは確認したけど、
実際にメモリが壊れたときにメモリエラーを吐くのかを確認してなかったって感じなんかな
>>131>>141
というかその辺はストレージ側で担保する話だからな
そのストレージ自体も富士通製なんじゃないかとは思うが
製品トラブルかどうかって公開されてたっけ?
あーこれやらねーよな
ソフト屋もハード屋もお互いのせいにして何もしない
例えばさ、東証は要求してなくても、
動かないと困るからこっちでこっそり試験するとかそういう文化はないの?
USB killerみたいなもんがあったらスグ破壊できるだろうに
なんの対策もしてないんか?(´・ω・`)
>>57 あらゆる不具合に備えてたらコストも期間も無限
>>146 メモリ剥き出しで稼働させといてペンチでメモリ割るとか?
このコメントは富士通は何も作ってない何も設計してないって分かるエビデンスだな
ベンダーに設計も設計検証も丸投げ
富士通は受入試験のみw
昔レジ作ってた時、ターンテーブルにレジ乗っけてなんか電波当てるテストしてるのはみた事あるけどな
>>101 生き字引みたいな人がいないとやるべきテストをやってないことなんかも多々発生したりするんよ
>>149 F社さんに「あーあ、なんで壊しちゃったんですか?w」とか言われるから、恥ずかしいじゃん
>>146 そりゃあそうかもしれんがこの手のシステムだとクラスタソフトを開発するのではなく開発済みのクラスタソフトを使用して
システムを構築するわけだからな
ある程度の動作検証はしてもクラスタソフトでの検知に関しては基本は仕様を信用することになるからそこまでの試験はしないよ
つーか、アドレス線とかデータ線をショートさせりゃテストできそうやけどな。
何社か共同で開発させて、各社に互いの粗探しさせりゃよかった
>>160 でも共有ストレージ自体がF製の可能性が高いからそうだとするとシステム担当には同情するけど富士通が悪いことは変わらんのよな
メモリは壊れるから壊れる前提で予備用意してんだろ。
切り替わらなかったのはシステムウェアなのか、ハードウェア側に予期せぬ要因が入った(サージ、スパイク、振動、ゴミ)なのか。
誰か腹立ってて電源辺り蹴っ飛ばしたりしてねー?
>>156 メモリスロットの回路にスイッチつけるだけでできるよ
>>162 クラスタソフト富士通製でしょ・・・
そのメモリつかってバックアップに
切り替えようとしたのか?
>>165 それやっても結局別会社が担当した部分は中身まで詳細に分からなくて突っ込んだ試験をしきれなくて意味がないよ
「作った奴とは別のやつが試験しろ」と言われるものの結局そんな第三者に詳細な仕様や作りを把握するまでのコストはかけられなくて
期待したほどの結果は得られない
電車で富士通のスマホの広告を見た時は
こいつらマジかと思ったわ
東証の社長が、責任はすべて我々にあり訴えるつもりはないと言っていたけど、
あれは契約上そうなってるから言ったんだろうな
ただ実際は納入されたハードが想定通り切り替わらなかった
東証側も納品されたものを全通りテストするわけにもいかんだろうし
契約上どうであれ、恨み節は聞こえてくるよな
切り替えのトリガーを拾えなかった原因がなんなんだよ
ETERNUSはよく触ってたけど、
メモリの擬似障害試験なんて発想すらしなかったわね
>>170 だからクラスタソフトやストレージ側の問題ならそれはハードやら作る部署の問題であって今回のシステム構築とは別の話であって
システム構築に付随する試験とは全く別のレイヤーの問題なんじゃないの?
社として富士通が悪いことと東証システムの試験としてどこまでやるかって話は別でしょ
ときどきメモリ壊れる
略してときメモ for ever fuji tsu
>>181 こう言っちゃ悪いが「ハードが仕様どおりに動作しないことでトラブル発生したらそれはハード納入した奴らがケツ持てよ」
ってなるものだからね
ハードもシステムも富士通でもシステム構築担当するような部署とハード担当の部署とでは実質別会社みたいな認識だもの
システム構築時にハードの動作仕様まで疑って検証するのはオーバースペックだし普通はやらんよ
>>183 その程度で壊れるメモリなら、メーカーの耐久試験クリアできないよ
冗長化されてても切替時に上手く行きませんでした系は実はしょっちゅう起こってるんだろうな。
どうでも良い様な企業のならなんとかなるけど、金融系だと隠蔽も限界。
日本の情報系ってレベル低いのか?
俺は情報学んで、就職は情報系避けたから事情がわからん
1号機が「やべー、今から壊れるよー、2号機さん、あとはよろしくねー」
って信号を2号機出す仕様だったんじゃないか
ところが突然死んじゃったw
>>103 パソコンのメモリが壊れたこと今までで一度だけあったけど
ある程度正常に動いたりするからな
たまにブルースクリーンになったり
0x〜の命令が0x〜のメモリを参照しました。メモリがreadになることができませんでした。
みたいなよく分からないメッセージが出たりする。メモリチェックする奴使ったら熱暴走しやすくなってた。
>>188 トラブルが発生しなければ顕在化しないだけで障害発生しても無事に切り替わって従系で動き続けてるシステムも山程あるけどな
最終的にエンドユーザに見える形のトラブルにならなけりゃニュースにはならんわけで
これ富士通の担当者、更迭とかされてるのかな
メモリの物理的故障は稀だし可愛そうではある。
>>192 1号機、2号機の他に監視用のサーバーを置いてそれがチェックする
1号機が動いてないのに感知できないなんておかしいし、ソフトウェア的な不具合がある
きれいにフェールオーバー出来ないなんて結構ある事だと思うけどな
障害検知してから強制的にFOする決断が出来なかった人間がいるんじゃないの?
原因特定に拘っていつまでも障害状態を維持させる客って結構多いんだよね...
ハード故障は起きるときは起きるから仕方ないんよ
問題は上手く切り替わらなかったこと
>>138 マイクロソフトがやらかした前日にアップルもやってる
全部メモリに関係してるのかまでは確認してないけどソフトエラー引き起こす強烈な宇宙線でも飛んできたのかな?
納品時に松崎しげる 愛のメモリーのまじないをかければよかったのに
>>11 同意
全ての可能性で試験するなら、電気がUPSも非常電源も全て止まるまで想定する必要がある
>>182 メモリやストレージ障害発生しても止まらずに稼し
続けるってのが
arrowheadの謳い文句だろうに
>>196 サーバーだとメモリの物理故障はメインボードの故障より多いような
>>196 前代未聞の重大事故だからな。富士通の威信というか、国の威信に関わるし、普通に更迭かクビだろ。。
稼働中にスロットからメモリーを引っこ抜く試験くらい、簡単なような気がする。
>>202 逆逆
物理的にぶっ壊れた場合に切り替わらないトラブル
ぶっ壊れたことを検知するのがハード側だったのかハード監視のソフトだったのかシステム側だったのかもまだ公表されてないみたいだけどな
HDDに付いてる方のメモリってわかってるやつ少なさそうだなあ
こういう絶対止まってはいけないシステムのバックアップは切り替えテスト普通やるよな?
病院でも停電しても電気が止まらないように定期的に自家発電の切り替えテストやってるのに
まあサーバー構築した後のテストでは物理的にメモリ障害を起こすテストはやらないな
そういうのはハード開発時にテストしているものだと思ってる
メモリってのはいきなり完全に壊れて止まるなんてことはまずない。
大抵は箱の中でファンが回ってホコリが入り込み、メモリにホコリが付いて接点やICの足などに接触し、
ちょっとおかしな動作になることが多い。そういう状態だと完全に壊れてるわけでもないし、
正常に動いてるわけでもない状態になる。症状はホコリの付き方によって程度が変わる。
だから掃除機で掃除すれば治った可能性もある。
もちろん責任を取るのはお前らだからな!しっかり働けよ!
HDDなんてsmartのエラーが出たら即バックアップに切り替えでしょ。
>>205 実際更迭もクビもそうそう無いと思うよ
余程の人為的なミスでもありゃ話は別だが
メモリは富士通製じゃないんじゃ?
SAMSUNGとかSKあたりだと思うけど
>>140 障害で部分停止や一時停止はあったけど、全日取引完全停止なんてたぶん初か数十年ぶりの事態でも、これ起因での株価暴落しなかったから、対応は上々と思われたんじゃないかな。
トランプがコロナって暴落したけど
故障頻発したらたまらんが絶対止まらないシステムなんてあり得ないし、十年に一度ぐらいなら許容範囲なんかも
>>216 全銘柄取引停止は3回目
去年システム更新してからは初
壊れ方にも色々あるからね
全てに対応しろっていうのも酷な話
その為の手動切替だとは思うんだけど、まぁ色々あったんだろうな
お察し
あーあ、うちのシステムは大丈夫なのって聞かれたら、何て答えよう。テストの方法も考えないと。忙しいのにまた増える。
>>215 メモリ故障そのものよりもメモリ故障をストレージとして検知してアラート出せなかったのが問題なんじゃないかな…
でまあ多分ストレージは富士通製品だろうからそこが原因ならハード部隊が悪くてそうでなくてストレージはアラート
あげてたけどそれをシステム側で拾えてなきゃシステム側が悪い
>>214 客から嫌われてクレーム入るだけで担当から外される業界なのに、更迭がないなんてあり得ないわ
>>28 死人が出るレベルってどんなメモリ使ってるのよ
つまりはテスト時しか機能しない2号機だったって事かよ
>>223 更迭したところで新しく来るやつに1からシステム学ばせるコストやリスク考えたら失点はあっても長くシステムに関わってる
担当者残した方がマシ、くらいの判断は普通にされるよ
外部から監査的な追加要員は入れるだろうけど
システムに通電してるけどOS突然死を想定してなかったということか
>>197 生存監視してても見た目生きてて呼びかけには返事はするんじゃない?
ゾンビだけど🧟
すべての故障パターンを網羅したスーパーマシンは値段もスーパーなので売れない
これもしかて物理的に破壊されたとかない?
昔ブラクラで振動おこしてHDぶっ壊すやつとかあったじゃん
それのメモリーのやつとか
コレクタブルエラーとか中途半端に壊れると無駄に頑張って切り替わらないとかありそう
アンコレでキレイに死ねば切り替わったとか
メモリはコントローラの上にあるのかな
メモリがダメならコントローラがフォルトして
リダンダントのほうにフェイルオーバするはずだけど
それがうまくいかなかったのか
コントローラのフォルトを検知できなかったのか
あるいは、メモリは実はキャッシュメモリで、
バックアップバッテリーが消耗して
ライトスルーになり速度が低下して
処理が追いつかなくなったのか
>>231 その可能性が一番高いと思うわ
共有ストレージのメモリ障害ならネットワーク不通にもなってないだろうしストレージ自体がアラート上げなけりゃシステム側から
ストレージの障害を判定するのは難しいわけで
携帯電話を物理的に
ホッカイロにする実験は散々やって来たのに!?
>>228 そういう場合は客にわからないように社内だけで作業する要員にまわすだろ。
今回の場合はもっと上の方の責任者が飛ばされるだろうな
キャシュらしいけどね
バッファだからやってないか
難しい
つか今まで同様の不具合あったけど全然改善して来なかったんだよ
だから20年も前から富士通評判悪いんだよw
>>219 全銘柄終日停止はたぶん初じゃ?
過去の全銘柄停止は一応取引時間中に復帰しただろ
何もかも想定できるわけじゃないしある程度は仕方ないんじゃないかな
むしろ手動切り替えでもいいから丸一日ストップさせないこと考えた方がいいと思う
しょうもねえな
この体たらくで富士通はDXとか言ってんじゃねーぞ
東証みたいな重要なシステムでも末端で働いている人の給料は横並びなんだろ?
検証時に物理破壊も試せるような潤沢な予算や時間が用意されているわけでもないんだろ?
だとしたら結局普通のシステムと同じ確率でこういう問題起きるよね
重要なシステムなら末端で作業する人の年収も2000万円以上にして、
優秀な人材を集結させないとだめだな
死んでたら切り替わってただろうけどど疎通確認は出来てたのだろうね
昔昔にsystemwalkerとか設定してたけどメモリ障害で切り替わる設定とかしてたおぼえはないわ
こんな糞会社が一方で世界一のスパコン作ってるんだから笑える
>>221 メモリがよくわからん壊れ方する、加速器で中性子線浴びせまくる試験でも提案したら?
実際あるみたいだし。
中性子線浴びまくった機器が放射能汚染されてないかは知らないけど
>>78 サーバー屋は門外漢だけど丸ごと切り替えとかじゃないんか
勉強なったわさんくす
つか当初から日経はなんで富士通を目の敵にしてんだ?
東証のCIOも富士通はベンダーで、責任所在は運営者のワシ等やって散々会見で言ってたのに
これ日経が富士通を潰したがってるよな
東証のBCPはどうなってるんだ?
災害時用のバックアップシステムも無いのか?
そりゃ故障診断と切り替えの機構を「主 装置側」に組み込んでるからだろwwwww
勘違いしてるやつが散見されるが東証のシステム自体はわりすとぐ復旧したんだよ
アルゴリズム取引が主体になってる現在の東証で本来の想定時間外に取引始めたらどうなるかを
HFTや証券会社と協議したら危ないからやめとくって事になっただけ
1日停止は影響がでかいから今後は後場から開始するのか10時とかの中途半端な時間でも開始するのかの取り決めするだろう
>>93 >>153 全電源喪失時のマニュアルは無きゃおかしいだろ
普通に起こり得る話なのに
今回のやつにしたって、システムの手動切り替えくらい、テストして当たり前
もうダメだ。東証宮原が無能なせいで、完全に売買のタイミングがおかしくなったわ。この仕事のできない無能、はやく辞任しろよ。
社会インフラレベルの仕組みだと障害試験もがっつりやらないとな
不治痛はしっかりやれ
>>257 そんなわけあるかよ。すぐ復旧したのなら、普通は後場からでも再開するだろ
そんな試験やってるところは他でも無いんだがw
問題はそこじゃないだろw
地震とか災害が多い国でこの程度の想定しかできないって…。
銀行とかは大丈夫だろうな?ある日突然預金がゼロとか嫌だよ。
>>254 止まったら納入したベンダーが損害額払いますなんて条件にしたら、売った商品価格の100倍ぐらいの
損害賠償もあり得るわけで、そんなハイリスクな仕事どのメーカーもやりたがらないから、
そういう条件にせざるを得ないでしょ
そうは言っても、じゃあ東証が納入されたハードウェアの物理破壊試験まで行わなくちゃ行けないかというと
それもなんか違う気がする
その結論で良いのか?
建前だとしてももうちょっとマシな理由を挙げろよ
システム止まったなら、東証は場立ちで注文取るくらいの誠意を見せろよ
アルゴの分も全部な
エターナスの設定が足りなかっただけじゃないかな
業務用のシステムとかハードって嫌がらせかと思うぐらい売りにしてる機能が設定上デフォルトではオフになってるとかあるあるだろ
んでその故障はどのくらいあり得るんだよ
まず起こらないことが東証で起きたのなら作為を感じるな
>>261みたいな書き込み見ると安全神話がこの国狂わしてる一つなんだな良く分かるな
どれだけ冗長化やフェイルオーバー作り込んで、そのテストもやっても
想定通りに復旧しないことは起こり得るってだけの話
壊れねぇ機械なんてねぇんだよ
>>262 あるかよもなにも後場から始めることで業者と合意が得られなかったから終日停止したって会見で言ってたわけだが?
https://shikiho.jp/news/0/378998 >このような状況であるため、後場からの再開も不可能ではなかったようだ。
>しかし、後場からの取引再開に向け、各証券会社に再起動のプロセスについて説明したところ、スムースな再開は難しいという意見もあり、当日の取引を全て停止して翌日以降、新しい取引として新たに注文を受けることとした。
サーバー爆発した時の試験くらいしないと(´・ω・ `)
>>1 サーバー搭載にしろ、DISK装置にしろ
稼働状態でのメモリ故障を任意で発生させてテストすることは出来ないしな( ・∇・)
記載の通りの本体装置停止によるテストしか出来ない( ・∇・)
>>259 自家発電や予備電源の試験はあるが全電源喪失になると出来ることは無いのでマニュアルとしては電源断からの起動マニュアルになるだけの場合が多い。
手動切り替えのマニュアルはあるんだろうが、どういう状況で使うべきなのか、原因が不明で使わなかったなど考えられるかと思う。
>>29 この厳しさを求めたら、原発の稼働は不可能だね
>>278 100の被害を50にするための配管操作手順とかは事前にシミュレーションしてマニュアルに残すべき
1号機の緊急冷却装置も、訓練でも一度も起動したことなかったから、本番で起動に失敗した
両系統それぞれでお互いを監視していて、片側の監視装置(CPU)が壊れれば、正常な方の監視装置が検知してフェールオーバーする仕組だと思うのだけど。
閾値の設定がよくなかったのだろう
富士通赤っ恥。フォールトトレラント一生言うなよ。
メモリの縮退テストなんかするかよ、そんなの。
そんなもんはハードウェアレベルで既に担保されてるべきもんだ。
ってかこれはクラスタソフトの設定ミスだろ?
> 疑似的に1号機の機能を喪失させるテスト
どうせLAN線を抜くぐらいのテストしかしなかったんだろねw
>>280 プロジェクトXで見たけどマルスを日立が国鉄に納めたときは受入テストで汎用機の電源を強制断したりしてたみたいだけどね。
止まらないシステムって豪語してたからてっきりそれくらいのことはやってんのかと。
メモリが物理的に壊れるってレアケースすぎてテストなんかしないだろ
>>273 それをシステム自体すぐに復旧したと言えるのか?
システム的に再起動出来ても、証券会社に無理言わないと再開出来ませんじゃ電源落ちてるのと一緒じゃん
ETENUSのCMのメモリーエラーなんて日常的。切り離しできなかった理由が何かが問題
>>282 それについてはそうだと思うよ。
ただ表向き全電源喪失についてマニュアルを用意しないのはある程度理由が推察出来るだろ。
まず全電源喪失なんてのが東証で起きたらマズい訳で、そのマニュアルが存在すること自体が問題なので存在しないのだよ。だったら起きないように対策しろとなる。良し悪しはともかく意味はわかるだろ?
ハード故障なんて現場じゃテストしないよ
そんなんメーカーがやることや
>>267 試験項目として要求すればメーカーはやるんじゃない?
やらせれば値段に跳ね返ってくるだけで
>>292 東証の取引システムが復旧したから証券会社とこれから取引初めて大丈夫?っていう協議が出来るわけだがお前は何を言ってるの?
電源断のフェールオーバーの想定は簡単
金融機関の場合はね
>>294 なにが「わかるだろ?」だよ
お前みたいなやつが福島を死の土地にしたんだよ
目をつぶったって目の前のリスクが消えるわけじゃないのに
ていうか、セカンダリシステムあるのに切り替えに24時間掛かるって、社会的重要インフラとしてそんなんでいいのかよ
試験していなかったのではなく、異常ケースの設計が漏れていたのでは?
異常ケースの設計漏らして、レビューで突き返されることを何度も経験している私はそう思いました。
ぶっちゃけメモリはむずいよ
あと盲点だろうね
HDDのSMARTみたいにステータス監視とかできないだろうし、
むしろよく1営業日で復旧できたと褒めるべき事案
>>292 それならシステム障害が復帰したあと午前11時リスタートとか午後からリスタートとか運用方法を決めてなかった証券会社と取引所の間の問題だ
迅速な再開と事前に決めてないよくわからんことをぶっつけ本番でして想定外の取引成立とか障害発生する影響のと天秤かけて今回は終日停止にしたんだろう
>>301 関係あるだろ。データも揃ってシステムだろ。
ようするに証券会社の前場の注文を復旧出来なかったんだろ?
>>304 金融の基幹系システムの開発でそれを言ったら出入り禁止
>>306 前場の注文は永遠に失われたのでお前の理屈だと東証は未だに取引システム停止中だな
なかなかねぇ物理的破壊は実験しないからな
次からは完成したらショットガンで破壊実験してね
パソコンのメモリと同じだと思ってるやつはちゃんと記事読めよな
>>305 午前11時リスタートはあり得ないとしても、後場まで潰す理由には到底納得出来ないだろ。
物理破壊テストなんて
普通はしないよな
メモリじゃなくて別の部分も
全て物理破壊テストしないとダメになるな
>>308 10/1前場の注文は失われたんだろ。当日中注文って書いてたろ?
>>307 マジかよ
リアルタイムでメモリモジュールのステータスをモニタリングできるツールとか存在する?
>>316 だからその10/1の前場の注文データは永遠に返ってこないんだが?
>>306 場立ちによる株取引こそが至高とか言い始めそう
>>315 監視ソフトがクソか、監視ソフトに適合しないもの使ってたんだろ
>>307 銀行ってマイクロ秒での超高速取引とかしてなさそうだけど
求めるものが違えばシステムの作り方からして違うんじゃ?
全銀システムってここ50年ぐらい運用して大規模障害発生したことないみたいだが、その代わりに閉鎖的かつ手数料がくそ高いみたい
>>320 場立ちでアルゴを全て処理してこそ取引所を名乗れ!って
>>315 てっきりメモリの抜き差しくらいは試してるのかと思ってたのに
つか1号機と2号機でデータ齟齬が起きたら切り替わるもんじゃないのか?
どっちが正のデータかわからなかったのか?
メモリのデータ化けはパリティで検知できるはずなんだが
>>300 お前いつから福島の話してたのよ。東証じゃないのかよ
2号機「1号さん生きてますか?」
1号機「・・・」
2号機「あれ?1号さん生きてますか?」
1号機「・・・」
2号機「1号さん?1号さーん!僕、指示してくれないと動けないっス!」
こんな感じ?こんな単純な訳でも無いのかしら
>>312 よくみたらディスクの中にあるメモリの事なのな
ファームって上のほうでレスしてる奴がいるのはそのせいか
物理的にメモリ壊すの無理だから
メーカーに擬似的ツールを提供して貰って
テストするしか出来ないだろ
>>325 >>57からずっと福島の話といっしょにしてるだろ
全電源喪失の話をしてるだろ
>>314 それはコンピュータシステムが悪いんじゃなくて決めてなかった取引所と証券会社の運用面の問題
個人客がどう思おうと大口客的にそっちの方がいいなら、今後もこの類のシステム障害があったら終日停止の運用のままだろうけど
>>319 だから、証券会社からの注文を取引所がエラーを返せてないから、証券会社は注文の精査出来なくて復旧出来なかったんだろ。
東証のせいじゃん。
こういうイレギュラーまで防げたんじゃねーのか再発防止しろだとかギャーギャー騒ぐ馬鹿が大勢いることが問題
日本のITが発展しなかった大きな要因のひとつ
OSがハングっただけなのに意地でもアプリ側に原因求めてきて、
不毛な再現試験をメーカーに課して悦に入ってる客の無能上役とか生きてる価値ないよ
>>318 ベンダーのハードウェアモニタリングツールで見れるよ
最近のハード監視は優秀になったもんだよ
OSとは独立しててオフラインでモニタリング出来るんだし
肩系になる時の電圧変動で両系死ぬのはよくある不具合だよな
これはユーザーではなくメーカーのせい
>>323 仮に今の取引を立会い場でやって人間が捌けたとしとら、何秒ぐらいで部屋が紙で埋まるんだろう
>>50 AIに外すのをお願いしよう
マニピュレーターつけて
昔携帯電話の交換機のSEやってたけど物理的に異常が出る試験は何回かやった
架台からモジュール引っこ抜いたり全システムの電源を瞬断したり。
まあセレモニーっぽいと言うか「やっぱここまでやると復旧に時間かかりますねぇw」
みたいな事で済ませて終わり、みたいな意味あんのかよって試験だったが
完全に壊れてくれたらいいんだろうけど
特定のビットがたまーに化けるとか
そんなんだと内部エラーが積み重なっていくのかしらね
>>334 そうか…ベンダーがなあ…
伊達に死屍累々拝んできてないな(´Д⊂グスン
>>333 だよなあ
なんか事あるごとに知識もなく叩きたいだけってのが最近酷いよ
>>332 東証のせいかどうかではなく前場のある時点で東証のシステムが復旧したのかどうかの問題なんだけど話すり替えないでくれる?
富士通はやらかしても
東証から請求書が届くこともなく。
アベ友はいいなぁ。
問題は切り替わらなかったことじゃなくて、
切り替えに失敗したことだろ。
日○なら、もしこんな方向性で原因追及やったら社内でボコボコだぞ。
>>330 そんそんなの当たり前だろ。誰がコンピュータシステムが全て悪いなんて言ったんだよ。
東証の事業継続性はどうなんだと説いてるんだよ。
>>333 そのシステムが止まったときの損害と想定や試験にかけるコストの天秤とか
手動での手続きや救済策の準備とか
割り切りは大事だよね
証券取引所会社の経営者はそれに理解のある人みたいだが
>>322 超高速取引をこなしつつ障害で停止しないシステムとして開発されたのがアローヘッドなので
富士通SEが今回のは仕方がないですと言った瞬間に東証に殺される
>>347 次の日、取引開始直後に株価はそこまで下がらなかった
信用のない市場なら資金流出してたろうし、そういう可能性があると報道はされてた
これが全てじゃ?
コストを楯に原因追及をやめたくなる気持ちは分かるがそれじゃ同件類似事故は防げないぞ
osやドライバーのバグ発見するいい機会になるかも知れない。
>>343 じゃあ、取引出来て無いのにシステムが復旧していつでもOKだったという証左を出せ証左を
そもそも取引出来てないのに復旧してましたという事に何の意味があるのか。1日システムが止まって取引出来なかった事実しかないわ。
>>36 試験なのに始末書出すハメ撮りになったの?
>>349 取引所会社は我々の責任って言ってるし
そもそもストレージメモリ障害によるシステム障害がないことを要求してるか次第でどっちに瑕疵があるか決まるんじゃないかな
要求してたのなら富士通が悪いし、要求してなかったのならシステム発注者が悪い
何かよくわからんがいかなる場合でも壊れないこと
なんて要求仕様じゃ誰も受けないだろうし
>>350 東証で上場を考えている国外ファンド等の評価は下がっただろうね。
金融関連で障害起こすのは、りそなか富士通って相場は決まってんだよ
アローヘッドが稼働して10年、これまで大きな障害なかったからかなり安定したシステムだったんだな
うちらが知らん苦労は多々あったにせよ
よく読んだら1号機応答してたんですね
HDD抜去くらいはしてるだろうから、とても災難だったんじゃないの
>>359 しかしね、全国の鉄道が1日全線停止したようなもんだからね。
経済的損失もそれなりでしょう。
>>66 ワロタ
ヤクザでも切腹の代わりに小指だけ斬るというのに
>>356 個々の装置が壊れても縮退運転で動き続ける事ができるのが、最も重要な非機能要件なので。
壊れない事が要求仕様になる事はないよ
壊れても動き続けることが要求仕様
官公庁系やってるけど
テストもっとやれ、と言ってくるかもなー
いい迷惑だ
>>344 東証が紳士的というか、いい取引先だと思う
1号機と2号機の関係がまだよくわからないな
なんらかの方法で1号機の物理ディスクに書き込まれたデータは2号機に同期されてるけど
1号機のキャッシュメモリに書き込まれてるデータは1号機しか持ってないから
再起動も出来なかったってことだろうか?
>>366 DRとBCPのテストと訓練が増えるだろうね
想定外のケースを想定しろとかね。
想定できるなら初めから対応しとる
>>368 経産省的に国内IT企業を疲弊させるようなマネはせんでしょ
>>352 https://shikiho.jp/news/0/378998 >このような状況であるため、後場からの再開も不可能ではなかったようだ。
>しかし、後場からの取引再開に向け、各証券会社に再起動のプロセスについて説明したところ、スムースな再開は難しいという意見もあり、当日の取引を全て停止して翌日以降、新しい取引として新たに注文を受けることとした。
>>373 それは無理って話だよ
なんでできなかったかっていうと
1号機のメモリにしかない取引データが消えてしまうから
それを消す方法で午後稼働再開したとしても
復旧ではないよ
>>372 金融庁のシステム監査(金融庁検査)が結構厳しい
金融システムが停止して国民経済に影響が出るのは絶許だから
厳しくなったにはみずほ銀行のせいだけど
ここで言ってるメモリって、主記憶装置のメモリのこと?
それとも、アレイコントローラーのキャッシュメモリのこと?
多分、前者なんだろうけどさ。
東電「そういうときは想定外と言うとけ。日本はそれさえ言っとけば全ての責任から解放されるぞ」
>>373 この記事はソフト屋さんが書いた記事だな
ハード目線ではない
メモリ破壊のテストしたら次はデータセンタ破壊したパターンのテストもせんとな
>>373 100歩譲ってそれが証拠だとしてさ、一体何処にシステムは復旧していたと断定した事が書いてあるんだ?
「再開も不可能ではない」としか聞いてないけど。
物理的って上手いごまかし方だな
馬鹿が勝手に勘違いしてくれる
>>376 金融機関や取引所にはかなり厳しいけど、国内メーカーにはそんなに厳しくないでしょ?
>>1 これの再発防止とかアホかよ
こんなことやってるから日本のITはいつまでたっても糞なんだよ
>>380 それはよくやる。
DRサイトで動作するかチェック。
手動フェールオーバー、業務2時間前にやるとか手が震えますよ。
そんなテストやらないとか言ってるやつは記事読んでないよな
全ての可能性を潰せって話じゃなくて理由不明でも正常な状態でなくなったら代替機(2号機)に移行しろって話よ
物理的に壊れるって、想定もしないほどレアな故障なのか?
>>387 え、じゃあ東証はシステムは復旧していていつでも取引OKでしたけど、面倒くさくて1日休んじゃいました。テヘペロって言ってたの?
>>390 ディスクとか稼動部分があるものに比べりゃレアだけど何枚もあるからたまにある。今回は故障で切り替わらなかったのが問題
>>380 というか、一部装置のメモリが破壊されたくらいでシステム全体が止まるのがおかしい、という考えになる。(クリティカルなシステムなので)
DRサイトで業務継続できなかったのか?
>>390 いやいやあり得ないでしょ。そんな事あったら世界中で起こってるでしょ。設定ミスか、ディスクのシステム設計ミスじゃね?
>>389 データを抱えて壊れてんのよ
1号機くんが
>>391 証券会社と後場から取引再開のリスクについての折り合いがつかなかったからって言ってるんだが何いってんの?
アルゴ取引が暴走してジェイコム事件みたいなのが起こったらお前が責任とるの?
>>397 いや、再起動するとメモリにある取引データが消えるから
できなかったってどっかに書いてあったと思うけど
物理破壊のテストなんて普通のシステムならしないなあ
>>396 それは全く別の問題
今回のケースと関係なく設計次第で起こり得る別の話な
>>397 いやだから、システムは復旧していたという事実を書けよ。
後場からの再開も不可能ではなかったようだ。しかし、後場からの取引再開に向け、各証券会社に再起動のプロセスについて説明したところ、スムースな再開は難しいという意見もあり、当日の取引を全て停止
>>203 アホか
バックアップのバックアップが壊れる可能性は低く見積もれる
仮に1/10で壊れるなら二台同時に壊れる確率は1/100まで下がる
メモリ単体が物理故障はありえるけど、それが連続して起こる可能性は極小だからバックアップを置く
メモリだけを意図的に破壊するのはちょっと難易度高すぎるからこれは富士通を擁護しちゃうわw
>>397 なんでアルゴ取引が暴走する話が出てくるの?
それにジェイコム事件は誤発注でしょ?大丈夫?
>>398 だから後場がその日の寄り付き扱いなら再開できるから証券会社とそれについて協議したら
それじゃリスクあるから困るってことで終日取引停止にしたんだよ
原発でいうたらメルトダウンしたようなもんやな
直ちに影響はないっ
>>405 いや、だから復旧出来なかったから証券会社に無理言ってんじゃん。
復旧という言葉の意味わかってる?
>>404 本来9:00に始まるはずのものが12:30に始まった場合に誤発注するリスクがないとでもいうの?
↓これ、考えただけで頭が痛くなる。。
今回は情報配信システムとともに、売買を監視するシステムなど障害の影響が広範に及んだ。このため、証券会社から朝方に東証に集まった注文について、一律に売買を止めるという措置ができなくなってしまった。
売りと買いを突き合わせる売買のシステムは稼働していたため、約定する注文や、発注を受け付けただけの状態の注文が混在する事態となった。一斉の取引再開が可能な証券会社とそうでない証券会社が出てくることが予想され、投資家間の公平性も考えて東証は終日の売買停止措置にしたという。今後は東証側と証券会社が協議し、障害時の取引再開についての手順も見直す。
>>408 後場からなら取引可能な状態にできるから証券会社と協議したわけだけど?
東証は取引再開の見通し立たないのに後場から初めていい?って協議したと思ってるの?
その場合OKって言われたら東証はどうするつもりだったの?
実質テストしてなかったってこと??
まぁ物理的な故障のテストはなかなかハードルが高いな…。
メモリーエラーをわざと起こすテストはしても、それとは違うしなぁ…。
>>82 実際にメモリ故障させる試験をしなかったから、メモリ故障しても切り替えられないことがわかってなかったということだろ。
>>411 再起動のプロセスで証券会社は夜間バッチと同じ事しなきゃいけなかったんだろ?
そんなの無理に決まってんじゃん。
データの復旧出来てないのに偉そうにシステムは復旧してましたとかどの口が言えんだよ。
>>409 そんな事言ったら、システム再起動してもそもそもダメって事じゃん。
>>413 ディスクのファームウェア作った人が
知ってたかどうか、試したどうかはわからないな
ただ対応はできてなかった
>>415 彼はそれが言いたいんでしょ
システムは問題なかった
東証に問題があるって主張だと思うよ
ID辿ったらストレートにそう書いてある
>>414-415 過去には実際東証のシステムトラブルで後場スタートになったとこがあるわけ
>>418 えーーその主張に何の意味があるの?
それは屁理屈というものでしょ。。
システムってハードだけがシステムじゃないのをわかって言ってるのかね。
東証に問題があるって主張は完全に同意しますけど。
こんな言い訳通用するの?
それじゃマザーボードも、チップを1つずつ壊すテストをしなきゃいけないってこと?
メモリが物理的に壊れるケース、って
まあそんなテストは普通せんよね
メモリが物理的に壊れるなんてレアケースだから
やってる所があるなら知りたいぐらい
メモリーを破壊するテストをしていないというよりも、メモリー(監視装置)が破壊される事を想定していなかったんだろ
擬似的に再現するの一番簡単そうなテストケースなのに
>>419 取引スピードが速くなったからなのか、顧客が増えたからなのか知らんけど、それはアローヘッド前じゃないの?
何を試験するかも顧客が承認してのものだからね。
やると言ってやってなかったり、試験結果を捏造してたりでなければ
責任は顧客にある。
>>426 それはアロヘになるまえはHFTなんて存在しなかったしアルゴ取引も今よりずっと少なかったから証券会社もOKしたけど
今はリスクが増えすぎて拒否したって事なんだが
東証が証券会社に拒否される可能性にかけて一か八かで後場からの取引開始を持ちかけたとでも思ってんの?
>>294 あぁ、起きるはずがないから用意しないってそれ完全に間違ってるよ
ミスが起きてはならない
だからミスが起きないようにしよう
ミスが起きないようにしてるからミスは起きるはずがない
っていう日本のいつもの失敗パターンだよね
それでもミスは起こるから起きた時にどうするかを考えるんだよ
>>186 システム構築の担当からすると、クラスタソフトやディスク自体が壊れたケースまで考えてシステム構成を考える(停止させられないシステムの場合)
メモリ破壊のテストをしていないのがダメだったというのは、事の本質を矮小化した物の見方だと思う
>>231 それ面倒だね
ただ、面倒でも対応考えないといけないけど
ハード屋の世界だと解決できなそう
ハードなんて期待したようには死なないんだよなあ
それで想定の条件から漏れて停止とかあるある案件
>>221 ハードウェアで自動的に切り替わりますって言えなくなったしな
ユーザーは、ハードウェアで自動的に切り替わらなかった場合の事を聞いているわけだし
土下座しとけ
メモリが故障したらプロセス全部死ぬ気がするんだけど、そうじゃないのかね?
キャッシュが生きてれば切り替え用のプログラムは生きていられるのだろうか
装置に中性子当てメモリーの
ソフトエラー出たときの挙動を
調べて対策したりしてるよ
何もやって無いわけねーよ
ハード屋さんのノウハウが多ければ、「私は今ここが壊れてますよー」というエラーログが、出せたのかなぁ。
それだったらエラー検出して、冗長系に切り替えれそうだけど。
>>436 今回は、ハード屋にノウハウがないから起きた事象です
>>428 それは東証目線なの?
何を言いたいのかわからないけど、データの復旧が出来なかったから、今の無し無しもう一回最初からやってって東証が頼んだけど断られたんでしょ?
システムの復旧出来てないじゃん。
ワイのDDR SO-DIMM余っているから貸そうか?
>>439 東証の取引システムが壊れたままだったらその最初からスタートが出来ないんだが?
システム全体としても証券会社側のインタフェースを含めたロールバック時の責任主体が決められなくていざ非定常業務には耐えられないとかありそうですね
>>35 これ本当に嫌い。君確認したんでしょって言われるためだけの押印欄
>>442 いや、だからスタートが出来なかったから1日止まってたんだろ?
システムが壊れて。
富士通さんへ
個々の装置にフェールセーフの機能があるから大丈夫ではなく、
個々の装置のフェールセーフが正しく機能しなくても動くようにするにはどうしたらよいか考えてね
>>446 取引システムが直ったので後場からなら開始できるけどどうしますかっていう話し合いをしたんだけど?
>>446 ベンダーSEと社内SEでよくある言い争いだなぁ
>>447 それはもうあれだな、
何かの不幸で脳死しても、昨日と同じように仕事続けてね
言ってるようなもんだな
難題吹っ掛ける方の難易度が低すて
難題吹っ掛けられる方の難易度が高すぎるw
メーカー勤務だけど車とかじゃなくても結構ハードな耐久試験はするよ
でも買い入れた汎用機まではやらないわ
システムエラーの問題に対してヒューマンエラーが重なるのが日本のいつものパターンだろ。マニュアルに頼るのと責任負わないのと決定下さないいつもの奴だよ。
CPUは心臓、メモリは脳に相当する認識がない奴が多杉
どっちかが死ねば影響は不可避
テストしたとかしてないとかいう話ではない
>>448 直ったの?セカンダリに切り替えたんじゃなくて?
じゃあデータもバッチリってこと?
じゃなんで協議の結果、後場から再開しなかったの?
運用担当者が朝イチで電源オンまたはボードで確認
あれれ?昨日の終値が全然出てない!、でもシステムは正常動作してんだけど?
上司に報告、大変だ!再起動したか?しました!予備系は!正規系で動いてます!でも表示されません!大変だー取引中止ー!
みたいな感じだったんかな
>>454 個々の装置だけ考えるならその通り
ただね、このシステムは装置が1つ死んでも動かないとダメなのよ。
>>448 後場からの再開も不可能ではなかったようだ。しかし、後場からの取引再開に向け、各証券会社に再起動のプロセスについて説明したところ、スムースな再開は難しいという意見もあり、当日の取引を全て停止
これを読む限りだと東証の提示した取引再開プロセスに問題があるのは明らかだと思うけど。
東証がシステムの復旧が出来なくて、証券会社は再起動のプロセスを余儀なくされたとしか読み取れないんですけど。
いやまあその試験はしないだろうがどんな状態からでもフェールオーバーは出来るようにしとけよ
これ、共有ディスクに格納されているデータの更新頻度が少ないから、Active/Active構成ではなかったという事でよいのでしょうか?
>>156 メモリ割るとかではなくて、壊れたメモリに取り替えるだけ、簡単
壊れたハード部品は富士通のなかにいっぱいある
>>133 マザーボード壊すとかじゃなくて壊れたマザーボードに取り替えてテストするだけ、簡単
壊れたハード部品は富士通のなかにいっぱいある
10月1日というちょうど半期が終わったタイミングというのがなあ
なんかバグってそう
>>459 それは、東証の提示した取引再開プロセスに対応できない各証券会社の組織やシステムが悪いと見ることもできる。
>>443 が既に指摘してるけど、市場とプレーヤーを合わせたシステム全体の責任主体とか意思決定とか明確じゃないのでは。
再起動して後場から開けなかった責任は東証だけのものかと。
デュプレックスで本当に機能してるシステムなんてあるのかね
大概、切り替わらずシステム障害になるわな
>>467 東証が提示した取引再開プロセスが前もって取り決められていてそれに対応出来なかったのなら、証券会社に瑕疵があったのかもしれませんが、そんな事実は無いようです。東証はプロセスについて説明したとあるので、取り決め以上のプロセスがあったと見るのが妥当ではないでしょうか。
その場合、即座に対応出来ない証券会社が悪いというのは少々乱暴だと思います。
東証は全銘柄売買停止したくせに変な出来情報をFLEXで送った原因もちゃんと発表しろよ、そのせいでリセットするしか選択肢なかったんだろ
>>11 あのバカ記者大集合の東証会見を見たあとだから
これも日経が歪めて伝えてるだけで、富士通はそんなこと言ってねえんじゃねえの?と疑わしいわ
ストレージのメモリの話で1号機2号機ってコントローラーの話かストレージ自体の話かよくわからんね
どうでもいい。国産のメモリーかえ。
海外製品買うな
>>454 これ
普通の人は脳が死んだらもう一つの脳に切り替わるけど今回は失敗した、ということ
>>62 多分そんな感じだったんだな。
半死状態でエラーが出ないと切り替わらない設計?
主系が即死状態で「だんまり」になったので待機系は異常を感じず、切り替わらなかったのでは?
安いサーバーメモリ積んでたんだろ
DRAMも壊れやすいのあるからな
>>482 systemwalkerはそんな設定項目なかったからアップデート速攻して対応したんでしょ。
>>434 複数のプロセスで仕掛かり中の処理が死ぬと、どのデータを生かし、どの処理を戻すかログと処理フローを1つ1つ確認しながら待機系に切り替えるから、なかなか自動では難しい。
400台もサーバーがあると動いているプロセスも膨大だから大変だろうね。
「ヤバイ、そろそろダメ」見たいなワーニングが出ているとタイミング見て切り替えは楽だけどね。
ディスク1号から2号に切り替わらなかった→ダメシステムだがわかった
即座に手動で切り替え出来ない→2号さんほんとにいるの?
手動で切り替え出来ない時点でバックアップないだろ
>>294 機械は必ず壊れる前提で危機管理しないといけない
あんたのようにその理念が間違ってるから日本はいつまで経ってもでかい規模のシステム運用で失敗する
わかるだろと他人に求める前に自分がダメなことやってると悟れ
壊れたんだか壊れてないんだかわからないやつが1番怖い
ハードディスクにメモリ故障を検知する機能なんてあんの?
元々そんなもんないなら全世界的な問題だぞ
メモリなんて初期不良がなければ壊れることなんかないだろ
>>492 だな、物理的にとかいってる奴が一番こわい
>>457 実際には
運用担当者が上司にひそひと報告、上司は眉根に皺寄せ何やら指示、あたりは不穏な雰囲気
富士通から到着したSEが電話して、応援が次々と駆けつけ、時間の経過とともにその数が増える
こんなじゃなかったかなあ
ソフトかハードかでも違うだろうけどIT業界に携わってる人ならこの説明で納得出来るものなの?
金融インフラ系ってこういうのにも厳しいイメージがあったわ
つまり
アンパンマンの新しい頭の品質が悪い可能性を考慮してなかったと
避難訓練みたいに時間決めて運用中でもバックアップサーバーに切り替わるか確認できればいいんだろうけどな
無理だろうな
メモリ壊れると1号機停止して2号機への切り替えが出来ないって事?構造上の問題やな、設計ミス。
汎用機ならだめだわ
そんくらいの実験もしないでリリースとか
メモリって壊れるんだ
CPUとメモリは壊れないと思ってたよ
でもこれ絶対、以前に気づいた技術者居たよな。上に報告しても嫌な顔されて無視される。
OTでの漏れでもあるし東証の落ち度でもあるんだがなぁ
>>502 アンパンマンの餡子がだんだん劣化することを考慮してなかった
それに餡子が腐っても見た目は変わらないからバタコは新しい顔を投げなかった
>>504 たぶんハートビートLAN が普通に通信できるからだと思う
設定値を変えてから正常に稼働しているのをテストしてるから
単純な設定ミスとテスト漏れだけど
どういう言い訳をするのか力の見せどころだねw
全富士通の顧客はちゃんとメモリの破壊テストをやってるか確認した方がいいな
銀行の機関システムのリプレースでクラサバ担当したが、メモリの物理破壊なんか試験してねーなw
>>507 メモリは壊れにくいが、壊れた時、原因がメモリとつきとめるのは大変です
原発と同じだな
メルトダウンはしないから爆発も起こらない
物理的に壊れたって、まさか5chでも見て茶でも吹いたのかね
NECも駄目なんだよ会社の運用システムで
HDDが2個有るから1個故障しても
大丈夫ですと言っていたのに1個故障したら駄目だった
>>513 最近平和だったんだなぁ
あんこが劣化するって相当長い事変わって無かったって事だもんな
…逆に僕の頭をお食べ、する相手が居なかったのかと思うろ
ジャムおじさんに何かあったのか勘ぐってしまうな
これを批判するってのはクラスタ組んだ事もなけりゃエンタープライズのSAN機器使った事もないの丸わかりなんだよなw
>>4 普通物理的に負荷掛からんだろ
サーバ持ち歩くんか?
>>489 実際は誰も確認してないけどヨシ!なんだなぁ
チェックではなく記入漏れのないチェック表を完成させるのが目的になってる
>>501 するわけない
メモリ異常なんて「読み書きが正常終了しない」時点で
バックアップ切り替えに移行すべきで
メモリを物理的に破壊してテストする必要なんて
まるでない、読み書きできないのが物理破壊を内包してるんだから
>>7 そんくらいは考えてる
ケーブルとかディスクを抜く系は実施する
メモリとかCPUを稼働中に外す試験までは、、
設定ミスだって?!!
テストシナリオもダメダメ
設定チェックもダメダメ
本当に後進国になったなあ
情けなさすぎ
で、日本だから
誰も責任取らないんだよ
富士通も東証も監督官庁の金融庁も
>>537 どうかなあ
富士通は自社でアフターサービスしないって聞いたことはあるけど
>>536 東証の会見で責任は全て東証にあるって明言していたぞ
メモリが壊れても故障扱いしない機器の設計が誤っているのでは?
メモリー用パソコンのハードが、ハッカーやテロで物理的に壊されたわけではない?
顧客に納品する環境で物理破壊テストなんてしないだろ。
想定通りの動きをする事が確認出来たとして、その後、
交換したパーツが正常に動く事をどうやって保証する?って話になるし。
そういうのは、製品として保証するもんだろ。
こう言うデカいシステムのメモリーとか車くらいバカでかくてクレーンで付け外しするんだろ?
いわゆるWindows ME 的なブルーバックですか?
>>553 装置切り替えても現在のデータが正しい保証はないのでやらないパターンもあるので
ディスクのメモリとか1号機2号機とか書くからわからなくなる
ストレージ1号機2号機なのか、ストレージのコントローラー1号機2号機なのか
コントローラーは普通に冗長構成だし、コントローラー1台のメモリ故障でストレージ1号機から2号機への
切替なんて普通は起こらないからな
Never Stop言ってる割にそこらの企業並みの意識じゃん
>>507 CPU壊れるぞ
パーツを順番に買い変えて原因を探ってたら最後にCPUが残った
システムエンジニア「そんな試験するわけねーだろ」
エンジニア「そんな試験もしてなかったのかよ」
なんか社長さんがバカっぽかつた
小林よしりんみたい
メモリが完全に壊れればフェイルセーフも動くもんだけど
メモリが壊れかけは一番やっかいでフェイルセーフそのものを誤動作させたりするからな
実際に壊さなくても想定したエラーコードは返すやろ?
抜けてたのか。
>>570 想定されるエラー文章は何百もあるから漏れてるんだろう
器機の物理的な故障するケースも当然想定してるべきじゃねーの?
データの流れを感じ取れば手動で切り替え可能だろ。
技術者の練度が足りないだけ。なんでも自動化すればいいと思ってる屑
>>507 熱で断線とかじゃないのかね?知らんけど。
>>569 断線しかけで不安定になって、正常と異常をランダムに繰り返したので、わけが分からなくなって目を回したとか?
故障にも色々あるけれど今回のメモリ故障は全くメモリアクセスが出来なくなるような故障だったの?
ニュース見てもストレージが機能不全になったとは書いてあってもダウンしたとは書いてないから
なんとなく半死に状態だったんじゃないかと思ってるけど
>>573 ハード異常発生時の対応の設定ミスとかいう意味では?
要するにバカ穴が開いてたのを見落とし。
多重下請け構造で適当な仕事したのが原因でしたwww
東証、終日取引停止のシステム障害は設定ミスが原因と発表
https://news.tbs.co.jp/newseye/tbs_newseye4094759.html 今月1日に発生した「終日取引停止」という問題をめぐって、
東京証券取引所は障害の原因がシステム上の設定ミスにあったことを明らかにしました。
東証は会見でシステムを納入した富士通との検証を踏まえ、障害の直接的な原因について、
「記録装置が故障した場合に予備機に自動的に切り替えを行う設定がされていなかった」と説明しました。
>>577 間欠的にランダムに異常が出るタイプとかね。
遭遇したことがあって、絶妙の接触不良と判明。
後知恵で好き勝手言ってるけど、じゃあ稼働中のシステムのメモリのエラーはどうやって検出すればいいか言ってみろよ
メモリ引っこ抜く?で?何が起こるか書いてみろよ
>>579 なんか発表できないものがいろいろ絡んでて
結局落としどころがポカミスヒューマンエラーにしましょうお手打ちシャンシャンって気がするが
>>577 処理が遅延してたらしい
メモリからディスクに書き切るまで待ったんじゃないの?
>>579 その記事は怪しい。
「全く」と受け取れる書き方になってるけど、それはなかろう。
切り替えの条件に複雑で微妙な不備があったのを、説明者が普通に意味が通じる説明をしてなくて、記者が意味が分からない部分をすっ飛ばした臭い。
そういう伝聞ミスの類いはありふれてるから要注意。
東芝のクレーマー事件も、それが一因になってる。
>>576 断線とかじゃなくてもメモリセルの動作が不安定になってたまに化けたり
アドレスデコーダなんかが誤動作してメモリセルの指定がおかしくなったり
2bitまでならECCで検出できるけどできないパターンも稀にあるし
ECCでエラー訂正・検出までは発生させてもそのエラー処理をやる
プログラム部分がメモリエラーの影響で誤動作すると処理が破綻する
とかメモリエラーは本当に厄介なもの
>>583 だから稼働前にやるんだろ
後遺症なく簡単に抜き差しできるなら物理的にやるのが理想
>>583 切り替えるだけのことで、それは日常茶飯的に作動して、だから何年も持ってたんじゃないか?
不安定になった場合の対応に不備があって、絶妙の不安定が生じて判定ミスとか。
物理的に全てのメモリを試験するのは難しいのでは?
別の回避手段を考えないと。
>>585 正常と異常が極端な短時間でランダムに繰り返されて正常時だけ伝達されたら、無問題時より遅延が出るな。
富士通で働いた事あるけど、下請けが入社3か月くらいで言語おぼえさせたはいいけど3年でSEの入れ替わるようなスキルの無い底辺会社ばかりだからなあ
>>539 ホットスワップなんて、2000年頃からSUNでやってるんだが?
>>589 素直な断線じゃなくて、断線しかけでランダムに半端なおかしな状態が繰り返された、とか。
>>592 そのために規定信号を入れて反応で判定するのが、ランダムな不安定で目を回したとか。
>>598 できるどころか、のべつやってるでしょ。
>>598 そんな問題でなくパソコンごとfatal errorの時は電源切れば良いだけ
証券取引システムとか全ての不具合を想定して構築しないといけないのに
原発は爆発させるは年金情報は消失させるわ証券取引システムはダウンさせるわとんでもないな
普通抜き取りで破壊検査をしてたはずだが…
今は抜き取りなしで検査工程飛ばしてるのか?
>>601 > 1号機が何らかの理由でダウンした場合に2号機に自動で切り替わることは、システム稼働前のテストで設計・開発した富士通とともに確認していた。
そういう試験はしてる
>>602 もしかしてパソコンで動かしてると思ってる?
>>604 ちげーよ
メモリーが物理的にダメになった時のソフトウェアの動きを把握出来て無かったって事だぞ
>>600 チェックサムビットなんて経費の無駄だと言う風潮
これが初めての不具合なら「仕方ない。次から気をつけてくれ」になるかもしれないが
2年に1回くらい市場停止させてない?
みずほ銀行といい影響の大きいところがシステムでやらかして平気な顔をしてるのはなんなの
反省とかしないのかね
>>608 サーバーだったらいらないと言ってもデフォでつくるんじゃない?
つか今回のシステム障害だって本来は障害が起きた時点でそれを検知して切り替わるはずの設計になってたんだと思うんだけど
それが切り替わらなかったからもんでいになってるわけで
>>459 日経の記事読むと、再開するにはシステムを再起動させなきゃいけない
ただ再起動させるとそれまでに受け付け済みの注文が失効してしまうという事で再開断念したらしい
ある企業に訪ねていったら
社長室へどうぞと案内されて挨拶したら
社長はパソコンいじってたらしく
電源すぽっと抜いて立ち上がったよ
いつもあれなんですよと
あとで部下が言い訳してた
パソコン黎明期のころの話し
>>606 半死じゃ待機系に移行しない
あらゆる障害でおこりえる
普通、時々ダミーの取引混ぜて流して総合的な正常性チェックするよね、それもやってないとか、、
日本がIT後進国なのは「東証や富士通でシステム障害」が起きるからではなく
それを正当に評価、理解できない人(主に経営者)が多いから
そしてそういう人ほど「日本がIT後進国」であることを問題視してる素振りを見せているのがね
やってらんないわ
試験出来ないなら、代替としてどうやって担保したのか問われると思うけど
>>20 ホンマそれ
バックアップに切り替わらなかったのと冗長性の甘さが原因なのに、丸く収めるために的外れな解決案出して余計な手間だけ増やす
>>616 経営者なんてITに関してアホなやつしかおらんし
>>80 あるある
外資メーカー製品の動作がおかしい商社に言っても「調査依頼かけてるが外資はここに限らず動きが遅い」と責任感も無い回答
結局再現性100%になる条件特定とパケットレベルでの調査を自分でやってやっとバグと認められた
ハード障害って自己検知かタイムアウトで正副切り替えるもんじゃないの?
物理破壊なんてしなくても出来そうだけど
現用系がディスクエラー出すと切り替わるけど、突然死するのは想定外でした、みたいな?
>>579 富士通は、これから地獄絵図だな。
「ウチに納めてもらったシステムは大丈夫なの?全部再確認しろや!」ってなるぞ。
地球がガンマ線バーストに晒された場合を想定した試験もやっとけよ
>>628 そんなもん来たら人類滅亡確定だからやらなくてよくね?
>>576 普通にノイズやらなんやらで ESD ちゃうか?
どうにも理由が判然とせんというかなんというか。
日経の解説記事やったかによると、納入前の相互監視ラインの遮断によるフェイルオーバーは
機能していたということらしいが、そらなら監視系による応答なしのタイムアウトなんかは
ちゃんと検知していたはず。
設定ミスでアレイシステムのメモリ異常の検知が働かない状態だったということやが… ホンマか?
なんか、動作中のメモリ異常検知の仕組みを用意しておらず、製造、サービスダイアグでやっと
分かったってな気がせんでもない。
メモリが壊れてるのにそれを必要とする処理がエラーしなかったって事は成功する前提になっていたって事だろう
何か異常は起きていたからシステムが動かなかったわけで
米ベンチャー企業を採用し、設計・運用・保守を自前で実施した東証の設計チョンボ‼
そもそも、メモリー故障が切り替え要因に入っていなかった・・・
#今月1日に発生したシステムトラブルについて東京証券取引所は、売買の情報を保存する装置の一部が故障した際に、自動的にバックアップに切り替わる設定になっていなかったと明らかにしました。
https://www3.nhk.or.jp/news/html/20201006/k10012649571000.html #基準値段など基本情報を格納するディスク内のメモリーが壊れた際に、予備のディスクに自動で切り替えるような設定になっていなかったという。このため相場情報を配信するシステムが動かなかった。
https://www.nikkei.com/article/DGXMZO64626220V01C20A0I00000/ ●東証がITシステムに初採用した「謎の米ベンチャー企業」の正体(2017/9)
https://ascii.jp/elem/000/001/546/1546864/ ●日本の証券・金融市場を支えるインフラ基盤にNutanixを採用
https://www.nutanix.com/content/dam/nutanix/ja/resources/case-studies/cs-jpx-tokyo-stock-exchange.pdf メモリ容量が想定より小さい状態にしてテストしたら故障させなくてもいいだろうけどな
実際に物理破壊しなくても故障時のテストはできるだろう
>>194 俺もなったことがあるが人間的な表現をすると確かに「気まぐれ」だったな
何かのアプリのせいかと思ったり同じく不安定といえば電源かと思ったり
もちろんメモリもテストするんだが最初は手早くやろうとするから短い奴だとOKだし
んで最後にメモリモジュール引き抜いて安定動作して、こいつだったのかと
>>78 サーバとストレージは普通別じゃないの?
ストレージは同じものを使ってないと最新データじゃなくなるし
処理システムは同じものを動かせばいいから
仮想マシンでも良いし
今って下請け技術者にすごい人っていないの?
元請いらねえじゃんみたいな人
2000年前後はそういう人たくさんいたけど
>>64 物理破壊はしないけどそれを想定したテストはする
どのレベルの開発かによっても違うけど
現物を物理破壊検査していたら永遠に納入検査が必要じゃん
ECC-RDIMMはビット反転したくらいなら補正してくれるけどDRAMがゴソッとエラーの場合はモジュール交換になるし
それでサーバー止まるのは良くあることなんだが・・・
東京証券取引所を物理的に破壊する試験を行なっていなかった
>>375 それは無いわ。トランザクションンログは全部一旦REDOログに書き出されるから。
そのREDOログは勿論共有ディスク上に存在してるから切り替えても問題ない。
逆にそうなっていないのであれば信じられないような稚拙な設計してる。もしそうなら
今回の事故以前に取引が成立しないか、約定しても約定内容が消えてるとかのトラブルが発生してるはず。
>>131 メモリ壊れたら何かの処理がエラーになってるはずでそれを見逃しているからフェイルオーバーできなかった
>>643 そのログの信頼性がメモリ破壊によって担保できていなかったのでは?
>>1 これ、1号機が30mmガトリング砲を食らった場合に2号機に切り替わるテストどころか、
宇宙から来た直径30kmの隕石が1号機に衝突した場合でも2号機に正常に切り替わるかのテストもやってないなこの調子では
だいぶ甘いテストしてる。
そだね。
東京⇔大阪で切り替えるようにしてね。BCP.
>>645 ログに書き込まれなかったらそもそも約定にならないから破棄してOK
発電所がダウンしたことまで想定した試験をすべき
あとはネバダ州でテロが発生した状況もテスト項目に加えるべき
> メモリー故障を理由として1号機が機能不全となった場合に、2号機に自動で切り替わらない
問題はこれだろ
RAMが壊れるなんて自作PC組み立てる素人すら知ってるぞ
経費節約等の理由で意図的に手を抜いたとしか思えん
>>650 運営管理者の嫁が浮気してる事が発覚した場合もな
>>648 それじゃ注文を勝手に破棄したことになるから注文者から訴えられる。
再注文してもらう必要があるから翌日復旧としたのはそのためじゃないか?
モニタリングして故障する前に事前交換とかして予防ことになるだろうな
故障モードなんて、想定外のもの可能性を考えたら星の数ほどある。
どこがどのくらいどんなふうに故障・・・影響度合いは?
案-1 もう、東証はバカだと考えてメモリ自身で異次元の冗長化するしかない。
案-2 BCP 不測の事態が発生したら大阪へ切り替える。東京0系、大阪1系運用。アローズが二ついるけど。
ハードディスクのバッファメモリとか
ハードディスク自体に故障検出機構がないなら
検出不可能だろ
なんか、とにかくマスゴミの反対を行けば正義、富士通をかばえばOK、で思ってるやつ多すぎじゃね?
メモリ故障時に予備に切りかわってないのは設計の意図に反した動きで、何かのバグの疑いが濃厚だろ
あるそうちのメモリ壊れたらより大きなレベルで正常動作しない例外を上げてシステムとしては別系統に切り替えたりするだろう
>>659 単に現場で実際に苦労してる人が多いんだと思うが
世界は関心ないみたい。日本人は神経質になりすぎ、後進国日本なんだからこんなもんだ。
#「東証マヒ」世界がスルー、1日の東京証券取引所の売買停止問題で、見逃せない点がある。外国の関心が低かったことだ。
>>424 ロケットの打ち上げとか時刻がズレてるだけで停止する仕組みになっていると思う
こんな歴史的な障害起こしておいてうだうだうだうだバカかよ
富士通なんてクソは排除してIBMに作り直させろ
>>430 メモリ破壊が起きた時に例えばストレージがエラー上げるようになってたらシステムはストレージを切り替えるだろうけど
ストレージがエラーを上げなかったらシステムは切り替えできない
今回は多分ストレージに当る装置も富士通が作ったりしてるんじゃないのかな
いや物理的かはおいてもエラー出たらアラート出るやろ
なんで検知できんねん
米ベンチャー企業Nutanixを採用し、設計・運用・保守を自前で実施した東証の設計チョンボ‼
#今月1日に発生したシステムトラブルについて東京証券取引所は、売買の情報を保存する装置の一部が故障した際に、自動的にバックアップに切り替わる設定になっていなかったと明らかにしました。
https://www3.nhk.or.jp/news/html/20201006/k10012649571000.html 逆に物理破壊のテストまでしてるシステムなんてあるんか?
金融系でシステムやってたけどそんなテストやったことない
まぁこの記事の言い訳はいつも富士通がしてる言い訳で笑っちゃうけどww
>>659 マスゴミとお前が低能すぎて理解できないだけで東証は最初の記者会見から
なんらかのバグでメモリエラーが出た共有ストレージが自動で切り替わらなかったことが問題でその原因は調査中だって言ってるんだが
正副の切り替えがスムーズに行かなかったことが問題なんだよね?
>>13 故障したかどうか判定するのも難しいしな
検知できるレベルのものは実装してるだろうしこれで富士通叩くのはちょっとかわいそう
いやいや
最終手段の手動切り替えすら出来ないのは大問題だと思うんだがw
この規模のシステムなら
日常運用で1号機から2号機やらDRに切り替えて運用してないのかね
ストレージのキャッシュメモリが壊れて処理性能が落ちてシステムが正常に動かせなくなったって事かな?
そしたらストレージは動いているから切り替えはしないのかも
処理時間が閾値超えたらフェイルオーバーするとかしないと
>>638 むしろ元請けがいらないぞ?作れるのは下請けだけだ
下請けにこれらをカバーできる技量持ちがいるかいないかの世界
>>673 手動切替はできるぞ
ただ整合性チェックにべらぼうな時間を要するから
復帰するのは実質全停止時と替わらないってだけ
>>667 なんだニュータか
なら普通に設定チョンボだな
メモリ障害云々は只の方便だろう
■企業の名はニュータニックス。米オラクル、グーグルなどの出身のエンジニア3人が、2009年に創業したばかりの米国のソフトウエア会社だ。
東証は今回、取引系以外の情報系システムの全てのインフラ部分でニュータニックスの採用を決めた。情報系システムの中には新規上場企業の審査情報や、投資家への情報配信など、重要情報を取り扱うシステムも多くある。デスクトップ仮想化システムを皮切りに、3〜5年かけて全ての情報系システムのインフラに広げていく計画だ。
東証の決断の裏には、これまでは富士通などが担当してきたシステムへの不満がある。
#東証がITシステムに初採用した「謎の米ベンチャー企業」の正体(2017/9)
https://ascii.jp/elem/000/001/546/1546864/ ●日本の証券・金融市場を支えるインフラ基盤にNutanixを採用
新たな情報系システム基盤は、Nutanix Enterprise Cloud Platform上でCitrixによるVDI環境を先行して稼働させる計画です。その規模は、およそ2,000ユーザーのVDI環境をプライマリセカンダリ両現用構成で構築の予定です。VDIを皮切りに、上場企業の銘柄管理を担うシステムや投資家等へ情報配信を行うシステムなど、全ての情報系システムを対象として計画されています。最終的には、情報系システムのミッションクリティカルなシステムもNutanix上で稼働させる予定です
Nutanixの場合、設計書はWord数枚程度で、単にパラメーター設定するぐらいで運用できるのです。これまでの運用はなんだったのかと感じるほどでしたと語っています。
https://www.nutanix.com/content/dam/nutanix/ja/resources/case-studies/cs-jpx-tokyo-stock-exchange.pdf >>666 メモリがこけていると、プログラムが明後日の方向へ暴走することもあって、そうなると
システムはうんともすんとも言わなくなる。
組み込み系のハードをいじったことのあるやつは知ってるやろうが、そういう時のために
ウォッチドッグタイマという仕組みがあって、犬に対して設定時間内毎に頭をなでに
行かないと「ご主人様がこない!ワンワン」とほえるようになっている。
単純なシステムやと、ほえられたら簡単にリセットを掛けて再起動でええんやが、
こういう複雑なシステムやとそうもいかんので、監視系にエラーを投げるとかの
一工夫が必要になる。
富士通の説明やと「設定ミスでエラーを投げるようになってなかった。テヘペロ」という
ことやが…
>>667 いやいや、富士通が出てるじゃん
それ多分別システムでは?
>>638 こういう大きな元請けや発注元からすると、そういう人に頼るのは属人的で良くないらしいな。
下請けとしてもエースは新規の割のいい仕事に回したいし、エース本人もそういうこと言ってくるような現場に長居したくないし。
関係者の思惑が一致してすぐいなくなる。
…え、引き継ぎはどうするって?
資料は作るみたいよ。
同等のエース級でないと読みこなせないけど!
>>682 最近PRIMERGYにNutanixのOS載せて販売してるよ
それなのでは
ニュータニックスを担ぐ競合他社に商談敗退し、メニュー追加した。
仮にPRIMERGY on NutanixのOS ならベンダーの富士通が設定・保守していただろう。
>>687 アローヘッドの勘定系は富士通、今回の障害は情報系。
勘定系は正常でも投資家等へ情報配信を行うシステムがダウンしたため混乱をさけるため24時間停止を決めた。
情報系は、ニュータニックス社の仮想化ソフトウェア。ソフトだけでシステム構築できる。配下のPRIMERGYは部品にしかみえない。
>>682 アローヘッドの勘定系は富士通、今回の障害は情報系。
勘定系は正常でも投資家等へ情報配信を行うシステムがダウンしたため混乱をさけるため24時間停止を決めた。
情報系は、ニュータニックス社の仮想化ソフトウェア。ソフトだけでシステム構築できる。配下のPRIMERGYは部品にしかみえない。
>>682 富士通は今回の障害では機器の納入としか言っていないだろう。情報系システムについては。
勘定系アローヘッドはすべて富士通。
普通パリティで補正されるし、エラーをOSに投げるし、
再起動すれば起動チェックで弾かれるだろ
起動チェックは通過して、特定の領域が不安定で再起動を繰り返すレアケースなの?
サーバー用XEONスペックで起こりうるかな
その辺のatomやAMD使った安物構成じゃあるまいし
何かあやし
PC・グラボやゲーム機でもメモリが壊れる場合はあるが
大抵一部が中途半端に壊れてバグったりデータ化け/画面にゴミが出る等しながら動くから
壊れ方・出方によっては動いてるまま故障したかどうか分かりにくいよな…
テストプログラムでも回せば見つかるけども
そういや今度はslackサーバーが停止だってね
おかしーなー
大統領選始まったら次々、金融やwebインフラのサーバーが不具合で停止を繰り返してるなー
なんでかなー
>>692 だから、メモリ故障は本当なら検知されるはずなんだって
そういうメモリ使ってるの。パソコンとは違うの
続行不能、大幅に狂うような壊れ方ならわかるのに
実際はそうじゃない悩ましいパターンの故障が多い
メモリ故障は本当に厄介
CPUが一部壊れた場合だって同じような事になる可能性がある
負荷掛けた場合や一部の処理でまれにおかしくなるなるものの一部だから分かりにくいとか
大体は動いてしまってて何が原因か悩ましい
壊れるなら明らかな異常や物理的損傷を起こして派手に破壊してくれた方がマシだったり
単体では異常なまま動き続けてる場合もあるから
複数台同じもの同時に動かして同じ値になってるか比べ続けるならイケそうな気はするけどね
何倍も規模必要だし待たせてる予備に切り替えるより複雑そうなもんだが
宇宙線からのメモリー破壊もあると思うので筐体を1ミリ厚の24金プレーティングすることにしました。
人工衛星のシールでも実績がありますので!というかんじで少々、予算が増えてもしょうが無いかなーってw
なぜドリル優子にテストを頼まなかったのか(・ω・)
通信装置は対策中
#通信装置のソフトエラー対策、ITU-T国際標準制定
〜宇宙線起因のソフトエラー対策に関する設計・試験・評価基準に基づく更なる信頼性向上へ〜
https://www.ntt.co.jp/news2018/1811/181122a.html >>681 ウォッチドッグはタイマー割込みでリセットするようにしました
>「アローヘッド」で銘柄名や基準値段などの基礎的な情報を格納しているディスク。
>その中にあるメモリーが故障し、ディスクの1号機が機能不全となった。
HDDの中にある半導体がこわれったてこと?又はSSDが壊れたってこと?
こういうとこでもまだHDD使ってるのかな???
>>11 >>203 バカは意見しなくていいよ
君のようなパソコンオタクの出る幕じゃないんだよww
>>705 ちゃうぞ。
アレイシステム側のメモリ。PC で例えればメインメモリが死んだってこと。
>>695 鯖屋にいるが、故障なんてものは「正常に壊れない」ケースが山ほどあるんだが
メモリだけでも異常パターンなんて腐るほどあるぞ、障害舐めんな
「切り替え失敗」はよくある 東証システム障害の真因
本当の問題はメモリーの故障でも、切り替え機能が作動しなかったことでもない――。東京証券取引所で10月1日に発生した大規模システム障害を筆者なりに分析するとこうなる。
https://www.nikkei.com/article/DGXMZO64611290V01C20A0000000/ >>698 エヴァのマギみたいに3システムで多数決とかやればいいけど単純に3倍くらいはコストかかるよね
おまえらみたいに一見まともそうなキチガイをなかなか発見出来ないのと一緒
東証「この冗長化オプションお願いします」
某F「毎度ありぃw 8600万円です」
東証「高いなぁ…ランチワンランク節約しよ」
某F「こんな使う事なく次の更新来るで。
適当な機材見た目だけ置いとけ、テストもいらん」
東証「なんかおっきな機械だなぁ、まあこれで安心」
>>203 水爆攻撃も想定しろよ
ちゃんとテストもやろう
>>716 普通に引きぬけば障害検知して縮退動作して活性交換できるんですよ。
ETERNUS使ったことがある人とない人が話しても平行線w
というかメモリをミラーリングできるシステム設定でで組まなかったのが悪いのでは?今時の上位のXeonシステムなら当然使えるぞ
まさか1CPUまでのローコストサーバー使ってないよな?
https://jp.fujitsu.com/platform/server/primergy/performance/pdf/wp-cascadelake-sp-memory-performance-ww-ja.pdf BIOS パラメーター
前のセクションでは、BIOS パラメーター DDR Performance を見ましたが、ここでは、メモリシステ
ムに影響を与える他の BIOS オプションを見ていきます。このパラメーターは、Advanced(詳細)の
下のサブメニュー、Memory Configuration(メモリ構成)にあります。
Memory Configuration(メモリ構成)のメモリパラメーター
次の 7 つのパラメーターがあります。それぞれ下線付きのオプションがデフォルトです。
Memory Mode:Independent/Mirroring/Sparing
NUMA:Disabled/Enabled
DDR Performance:Performance optimized/Energy optimized/Power balanced
Patrol Scrub:Disabled/Enabled
IMC Interleaving:Auto/1-Way/2-Way
Sub NUMA Clustering:Disabled/Enabled/Auto
WR CRC feature control:Disabled/Enabled/Auto
最初のパラメーター Memory Mode(メモリモード)は冗長性機能を扱います。これらは、RAS
(Reliability:信頼性、Availability:可用性、Serviceability:サービス性)機能の一部であり、メモリを
ミラーリングするか(ミラーリング)、メモリエラーが頻繁に発生する場合に DIMM ランクのレベル
でメモリスペアを有効化すること(スペアリング)で、耐故障能力を向上させます。SystemArchitect
で構成中にこれらの機能が要求された場合、工場で適切なデフォルト設定が行われます。それ以外の
場合、このパラメーターは Independent(通常の冗長性なし)に設定されます。冗長性機能がシステム
パフォーマンスに与える影響に関する数値を後で示します。
>>165 同じ仕様のソフトウェアを2人の別の人間または組織に開発させて並列化し、それぞれの出力を比較して合致したときだけ動かすという冗長化設計方法はある
>>681 開発中はウォッチドッグ機能を一時的にOFFしていたのを戻し忘れてました!www
>>711 故障したときにストップするだけなら2重系でいいけど、故障したあとも動かし続けたいなら3重系以上が必要だわな
飛行機とか自動車の一部分はそういうふうに作ってる
>>719 ETERNUSのCM内部にあるメモリの話なんですが...
>>719 ストレージというサーバーの外にあるディスクがいっぱい詰まった箱の装置で使ってるメモリーのことだよ
メモリーって、DATテープみたいなもの?
磁気テープが壊れた。?
>>752 ディスクにいちいち書いてると時間かかるから
とりあえずメモリに書いておしまいにする
メモリ引き抜いてのテストは流石にしてんじゃないの?抜かれたら感知して予備作動とか
刺さったまま不具合起こすのをテストしてなかったんじゃね
いちいち誤魔化そうとしてる感があるな
つまりはプログラムミスだろ
こういうところが富士通はムカつくんだわ
4トントラックで試験してなかったのか
そらあかんわ
>>699 責任取ればカイゼンするのか?生贄?中世?
お前のことだけじゃない。日本全体がこんなんだからIT後進国なんだよ
>>57 日本はというより全世界的にそうやで?
AWSとか物理サーバ以上に止まるしな
俺が担当してる某銀行のサブシステム、エターナス使ってるけど大丈夫なんだろか
コントローラが死んでるのに生きてるフリされると困る罠
>>728 一般的なサーバーの構築時にはそこまでしない
やって壊れたら何百万もの損失、納期遅れ、ユーザーからの不振感、俺君が怒られるので絶対やらん
破壊試験は実費請求しなきゃ請け負った方が赤字になるよな
昔の家電には電源の入ってる線を抜き差しすると回路が壊れたり感電するおそれが云々と注意書きがあったもので素人でもそういう作業はしちゃ駄目と分かってるんだが、今の人は回路に刺さってる部品の抜き差しなんてことを口にするのか。
活線挿抜とやらに対応してないところでは何が起きても文句言えないんでしょ?
メモリが壊れたって信号を擬似的に出す仕組みないのか?
そういうの組み込んどけよ
メモリの破壊テストなんてサーバー構築時ではなくサーバー開発時の話だな
しかし機器が中途半端に不安定で自動で切り替わらなかっにしても手動でメイン系の電源落とせば待機系に変わりそうなものなのに
>>738 そんなもの幾ら付けても、本物の故障は全く意に介さない現象を引き起こすからなぁ
人間の英知の及ばないのが自然だと言う事さ
だから「安定してしっかり壊れてくれたのではない」のが落とし穴ということじゃないの?
間欠的にランダムに発狂されると始末が悪い。
>>739 記者会見全部見ればわかるけどコントローラの手動切り替えでシステムは起動できていた
証券会社側のシステムまで巻き込まざるを得ない運用上の問題があって急にはできないから終日取引停止にしたとハッキリ言っている
>>742 自動で切り替わってたらもっとやばかったって意味に聞こえるが
>>744 その冗長化関連は東証のお仕事だったんでしょ?
無能なシステム部門に賠償請求するの?
ふーんでもそれが10月1日にたまたま起きるんだ、ふーーーん笑
■ このスレッドは過去ログ倉庫に格納されています