X



【東証トラブル】富士通「メモリー障害時に冗長化が機能しないようファームウエアを設定してた」
■ このスレッドは過去ログ倉庫に格納されています
0001モアイ(東京都) [US]
垢版 |
2020/10/08(木) 14:45:50.67ID:wn4xBL570?PLT(12000)

東京証券取引所で2020年10月1日に起きたシステム障害の全容が徐々に見えてきた。障害の原因は、富士通が納入したNAS(Network Attached Storage)のファームウエアの設定不備にあった。
2台構成のNASでメモリー故障に起因する障害パターンが発⽣した際、NASの冗長化が機能しない設定になっていた。

東証で10月1日に起きたシステム障害は、全銘柄の売買を終日停止するという未曽有の事態を招いた。
東証が取引を全面的にシステム化した1999年以降、システム障害で全銘柄の売買を終日止めたのは初めて。これにより、3兆円規模の売買機会が失われた。

NASのメモリー故障が発端
システム障害の発端は、東証の株式売買システム「arrowhead(アローヘッド)」のNASに搭載したメモリーの故障にあった。
業務サーバーで使うユーザー情報などを格納するNASは2台あり、Active-Active構成で冗長化していた。
このうちの1台のメモリーが故障し、本来なら1台のみの運用に自動で切り替わるはずが、うまくいかなかった。

原因はNASのファームウエアの切り替え用設定値の不備にあった。
東証はarrowheadを2019年11月に刷新する際、事前のテストで2台のNASの死活監視を途絶えさせて、自動で切り替わることを確認していた。
だがその際、今回の設定不備は見抜けなかった。設定作業そのものは富士通が実施していたという。

この記事は有料会員限定です。次ページでログインまたはお申し込みください。

https://xtech.nikkei.com/atcl/nxt/column/18/00001/04693/
https://cdn-xtech.nikkei.com/atcl/nxt/column/18/00001/04693/ph02.jpg
0002ウェーブくん(群馬県) [US]
垢版 |
2020/10/08(木) 14:46:36.22ID:wy+b27o/0
はい
0003カバガラス(滋賀県) [ニダ]
垢版 |
2020/10/08(木) 14:47:27.06ID:BN8QwkNi0
メモリーと言っているのに、目盛と思うジジ嫌い
0005(茸) [US]
垢版 |
2020/10/08(木) 14:50:25.00ID:pzZjeDp/0
ハード障害を想定したテスト項目の抽出漏れ、だよな。
テスト工数貰えなかったのかい?
0007でパンダ(福島県) [US]
垢版 |
2020/10/08(木) 14:51:58.19ID:QebmQnpd0
続きが気になる
0013マルちゃん(東京都) [ニダ]
垢版 |
2020/10/08(木) 14:56:46.48ID:gbO3gQaH0
>>9
バフェット「日本株買うわメッチャ買うわ」
0014けんけつちゃん(東京都) [US]
垢版 |
2020/10/08(木) 14:57:50.85ID:7cD65G1L0
>>6
あえて無駄を受け入れる
って意味だしそこまで難しいこ言葉か?
0019あんしんセエメエ(東京都) [IT]
垢版 |
2020/10/08(木) 15:01:52.96ID:bwftPPUc0
>>11 その単語だけではそうとは限らないかな
非同期でもAAはあり得るけど同じとは言えないし、同期AAなら同じと言える
0020総武ちゃん(東京都) [CN]
垢版 |
2020/10/08(木) 15:02:04.92ID:ozisVamz0
🍆はやめとけって言ったろ
0021KEIちゃん(東京都) [CN]
垢版 |
2020/10/08(木) 15:02:51.00ID:oV/h7VrJ0
>>16
そうは言えない。そんなこと考慮しなくていいから早くプロジェクト進めって東証が要請していた可能性もある
0022ぎんれいくん(庭) [US]
垢版 |
2020/10/08(木) 15:03:33.16ID:PkoePXYV0
よし!
0023あんしんセエメエ(東京都) [IT]
垢版 |
2020/10/08(木) 15:03:37.68ID:bwftPPUc0
>>16 それは確実
つうか自社の同システム環境で納期に間に合わない試験は逐次やるべきだった
どうせかなりボッタな保守組んでるはずなのに1日はさすがに叩かれてもしょうがない
0024フジ丸(長野県) [ニダ]
垢版 |
2020/10/08(木) 15:03:47.45ID:PSFsoTcO0
>>8
掃除のおばちゃんの不注意か、それじゃしょうがないな
0026アヒ(愛知県) [US]
垢版 |
2020/10/08(木) 15:05:27.27ID:/m7Blgja0
片方死んでもええように2つ動かしてたのに片方死んだだけで止まったとかギャグやん
NASも今まで何してたんだって思うやろ
0028エコまる(東京都) [BE]
垢版 |
2020/10/08(木) 15:09:21.19ID:Wenh3wDC0
冗長化=バックアップシステム
0029ヨドくん(SB-iPhone) [US]
垢版 |
2020/10/08(木) 15:11:02.62ID:rEdK2hZV0
>>26
普通冗長化試験だとNICのリンクダウンやプロセス断の切り替わり位しかテストせんからな
メモリは流石にECCだろうし1箇所潰れても動き続けるやろ程度だったんじゃね?
むしろ両activeという恐ろしい事態は避けたいだろうし
0030フライング・ドッグ(SB-Android) [DE]
垢版 |
2020/10/08(木) 15:11:27.65ID:rROQG7u10
サーバを二重化させたシステムって、こういう故障はだいたい切り替わらないよね。
死活監視をnicだけでやってると、本当に切り替わらない。
0031あんしんセエメエ(東京都) [IT]
垢版 |
2020/10/08(木) 15:12:52.19ID:bwftPPUc0
>>26 まぁ理想ではそうなんだけど物理冗長は成功例が少ないからね
仮想冗長がようやく絵になって来たけど、物理冗長は「論理的には・・・」だよ

クリティカルな運用なら実機だ! って人多いからね
0032セントレアフレンズ(愛知県) [CN]
垢版 |
2020/10/08(木) 15:14:08.92ID:5a1TLJEo0
鯖管「ようやく俺たちの必要性が認知される時が来たか……」

これからは肉眼で異常を監視するのが鉄板になる
0034キキドキちゃん(埼玉県) [US]
垢版 |
2020/10/08(木) 15:17:45.96ID:Tyq1X4p30
>>9
よう中卒引きこもり
0035あんしんセエメエ(東京都) [IT]
垢版 |
2020/10/08(木) 15:18:58.18ID:bwftPPUc0
>>29 メモリエラーで片方誤情報でAAとか怖くてしょうがないよねw
2台冗長+チェックサム専用の3台体制かと思ってた

中途半端に冗長化しても今回の様なメモリ不整合で動作されて停止遅れも困るし
フェイルオーバー運用って本当にシステム屋泣かせだよね

といっても、ボッタクリ監視でも良いので両方のNASのモニタリングして付き合わせれば
いいだけだとは思うけど・・・(人がやるか機械にやらせるかはあるけど
0036ニッパー(茸) [IT]
垢版 |
2020/10/08(木) 15:20:34.58ID:zy5O3LkI0
さすがFさん
0038なーのちゃん(栃木県) [US]
垢版 |
2020/10/08(木) 15:21:19.97ID:rqtLTGO20
>>33
最初の会見の時点でうまく切り替わらなかったので故障したほうのdisk装置を手動で切り離したって言ってたじゃん
active-activeなら整合してる
0039しまクリーズ(徳島県) [ニダ]
垢版 |
2020/10/08(木) 15:22:26.05ID:1Ywo0kwy0
設定ミスではないと思う

そもそものテスト仕様の漏れ
テストの項目にメモリ障害があって切り替わるかどうかのテストをしていないだけ
0041エンゼル(東京都) [US]
垢版 |
2020/10/08(木) 15:26:40.75ID:f7qMZMIo0
>>30
そりゃあ切り替わらない事例しか報道されないからな
無事に切り替わってるシステムについてはそもそも語られない
0042エンゼル(東京都) [US]
垢版 |
2020/10/08(木) 15:27:57.50ID:f7qMZMIo0
>>40
「メモリ障害が発生したらハードからこういうアラートが上がるからそれを擬似して試験する」が関の山だろうなあ
0043ヨドくん(SB-iPhone) [US]
垢版 |
2020/10/08(木) 15:31:19.25ID:rEdK2hZV0
任意のタイミングでメモリを故障させられるゴッドハンドしかそんなテスト無理や
0044ぺーぱくん(栃木県) [GB]
垢版 |
2020/10/08(木) 15:33:07.72ID:GmNDDvxg0
要するにバックアップシステムが働かない設定にしてたんだろ。
バカやん。売買機会失った株主に弁償しろ。
0049どんぎつね(東京都) [CN]
垢版 |
2020/10/08(木) 15:43:27.77ID:tlUCQ0440
>>39
テストをやらなかったからバグを見つけられませんでしたって言うSEはレベルが低い
0051うずぴー(東京都) [US]
垢版 |
2020/10/08(木) 15:49:02.42ID:ud/GGr8T0
>>49 つっても、SEがNASを設計するわけじゃなく
NAS屋が 冗長性をアピール したのを信じて選定してるだけだからな
んで、NASの内部メモリの故障なんて現象を作り出せるかはNAS屋に依頼するしかないが
たぶんそんなエラー(偽トラブル)は頼んでも無理だと思う

ただ、確かに導入した製品を信用せずに他社NASも使った試験やそもそも異機種NASでの
冗長化にしたほうがよかったのかもしれんが そんなのはベテランのSEでも無理だろうね

こういう不具合に有って初めて「再発防止対策」としてそういう案がでてくる感じ

だからもしもNASメモリのエラーなら、エスパーSE でもない限り予見は不可能だよw
0052やいちゃん(東京都) [US]
垢版 |
2020/10/08(木) 15:51:07.06ID:wNLPXzhH0
時代はクラウドですよ!
0053柿兵衛(東京都) [BG]
垢版 |
2020/10/08(木) 15:55:13.86ID:TiPEEFnu0
>>42
そっかー
やっぱsnmpなりログ監視なりで気づくしかなさそうだけど今回はそれじゃ拾えなかったんかね
0055雪ちゃん(やわらか銀行) [US]
垢版 |
2020/10/08(木) 15:55:50.33ID:rxe3tI5y0
冗長ってのは本来無駄があるって意味だから、これは真の意味での冗長化で間違い無いよ。
0056ウリボー(神奈川県) [ヌコ]
垢版 |
2020/10/08(木) 15:56:39.68ID:siupxMc40
アローズみたいな呪われた名前にしてるからだろ
0057ひかりちゃん(東京都) [FR]
垢版 |
2020/10/08(木) 15:57:59.87ID:yXxoqEj60
ファームのデフォルト設定がコレなの?
0058らぴっどくん(静岡県) [ニダ]
垢版 |
2020/10/08(木) 15:59:06.11ID:dgIiyHiP0
これって富士通が悪いのか?
0059ミドリちゃん(SB-Android) [ニダ]
垢版 |
2020/10/08(木) 15:59:50.31ID:edJzgd8f0
>>51
そのNAS屋が富士通
まあ東証システム構築部隊とは違う
ストレージ販売部隊なんだろうけども

これ初期設定から誤ってたということだから
全エターナス製品に波及するねえ
0060うずぴー(東京都) [US]
垢版 |
2020/10/08(木) 16:01:18.91ID:ud/GGr8T0
>>54 SEの話と富士通の話をごっちゃにするなよ
自社マークのついてるハードの仕様なんてSEが感知するわけがないぐらい判るだろ・・・
0061にっくん(神奈川県) [SI]
垢版 |
2020/10/08(木) 16:03:02.20ID:zYH8USD80
原因を追求するの面倒だから設定間違えましたというオチだろ
0062ヨドくん(SB-iPhone) [US]
垢版 |
2020/10/08(木) 16:04:06.01ID:rEdK2hZV0
大規模導入プロジェクトはユーザーと逐一意識あわせする
基本設計や詳細設計は全部ユーザーの承認を受ける
冗長設計も冗長試験手順も全部承認されてたら富士通だけの責任ではない
とはいえ日本文化的に富士通が謝るのが美しい幕引き
0063めろんちゃん(東京都) [ヌコ]
垢版 |
2020/10/08(木) 16:05:00.40ID:iHVzuIu+0
本当の原因はなんなんだろな
0065ティーラ(福井県) [ES]
垢版 |
2020/10/08(木) 16:07:17.64ID:0f/lGJSP0
そうかな?意図的に日本で売買させたくなかった勢力がいたとは考えられないだろうか?
0067ミドリちゃん(SB-Android) [ニダ]
垢版 |
2020/10/08(木) 16:08:55.12ID:edJzgd8f0
>>62
ユーザー(受注元)の承認は逐一受けるけども
ユーザー自身が>>1を見抜けないような程度のザルチェックしかしないからねえ
責任は東証にもあるが、まあ突っ込まれないだろう
0068らぴっどくん(静岡県) [ニダ]
垢版 |
2020/10/08(木) 16:09:36.54ID:dgIiyHiP0
>>62
外資系だとその辺をガチでやり合っちゃうんだよなw
0069大崎一番太郎(東京都) [CZ]
垢版 |
2020/10/08(木) 16:11:30.37ID:uw7z76xp0
0070ピースくん(ジパング) [US]
垢版 |
2020/10/08(木) 16:17:37.81ID:SUwk9KG70
認知症の新しい呼び名かと思った
メモリー障害児

認知症は「児」じゃないだろ、と思って気付いた
0071かほピョン(千葉県) [IN]
垢版 |
2020/10/08(木) 16:21:11.01ID:sky551m40
下請技術者の低レベル化が激しくね?
言われなくても忖度してチェックとかするだろ
0072うずぴー(東京都) [US]
垢版 |
2020/10/08(木) 16:22:26.26ID:ud/GGr8T0
>>71 無理だな
メモリエラーはどのメーカーも検証もチェックもしていないと思うぞ
0073ウリボー(神奈川県) [ヌコ]
垢版 |
2020/10/08(木) 16:24:41.19ID:siupxMc40
>>71
忖度するデメリットがメリットを大幅に上回ってるのにやるわけないだろ
相応のカネ払えよ
0074あるるくん(やわらか銀行) [AR]
垢版 |
2020/10/08(木) 16:28:00.90ID:kerYWRrh0
本番環境で切り替えのテストやってなかったの?
そんなマヌケな事ってあるのか
0079あるるくん(やわらか銀行) [AR]
垢版 |
2020/10/08(木) 16:33:02.58ID:kerYWRrh0
>>77
要するにテストケース漏れじゃん
0080かえ☆たい(ジパング) [US]
垢版 |
2020/10/08(木) 16:33:47.28ID:CMOsMSBu0
もしかして民生のサーバ用マザボ・メモリ以下の信頼性なの?
0081ラビピョンズ(福島県) [US]
垢版 |
2020/10/08(木) 16:38:32.18ID:ggoFeA9Q0
>>35
メルキオール、バルタザール、 カスパールの3台で
0082きょろたん(茸) [US]
垢版 |
2020/10/08(木) 16:40:36.73ID:d6tlmKfL0
クリティカルなシステムにNAS使ってんの?
SANじゃなくて??
0083ドンペンくん(愛知県) [US]
垢版 |
2020/10/08(木) 16:41:18.64ID:+f+Nyfex0
わかってるのか!?3兆だぞ3兆!!お前のせいで損失したんだ。土下座のひとつもしたまえ!」 半沢「3兆を取り戻せばいいんですね。もし取り戻す事ができたら今回の件、土下座して詫びてもらいます!
0084和歌ちゃん(SB-Android) [BR]
垢版 |
2020/10/08(木) 16:46:17.39ID:r89/Xjv90
うーん、ハード故障に関する記事ばっかりだなあ。
そんなものは午前中になんとかなってる。
後場向けにシステム再起動できなかった事情の方が大事なんだが。
0086ポケモン(茸) [US]
垢版 |
2020/10/08(木) 16:48:31.99ID:/BMOQJWC0
>>84
場中の再起動なんて証券会社のシステムが対応できません
0087ニーハオ(東京都) [US]
垢版 |
2020/10/08(木) 16:49:11.40ID:jCMgt6W/0
共技かインフラがエターナスのopc設定しくっちゃってて、とかかな
0088エンゼル(東京都) [US]
垢版 |
2020/10/08(木) 16:49:45.38ID:f7qMZMIo0
>>54
NASも富士通だから富士通の責任ではあるんだけどハード作ってる部隊とシステム作ってる部隊はもはや別会社みたいなもんだからなあ
システム開発の是非の話とハードの品質の是非の話はまた別だ
0089スカーラ(東京都) [US]
垢版 |
2020/10/08(木) 16:50:41.02ID:SXPeBSZZ0
やっぱこういうのって脳内自称SEが大量に湧くのな
0091エンゼル(東京都) [US]
垢版 |
2020/10/08(木) 16:52:40.83ID:f7qMZMIo0
>>84
まあ「大事をとって」なんじゃないの
トラブル発生後とにかく復旧を早くと言う顧客よりも「動かして本当に問題がないか明らかにしてから動かせ」という顧客の方が多いよ
「そのために試験やってるんだろ」という意見はもっともではあるが、そもそもその試験をすり抜けてトラブルが発生した時点で
顧客もベンダも疑心暗鬼になるから決断しにくい
0092ベストくん(大阪府) [US]
垢版 |
2020/10/08(木) 16:56:33.89ID:G7Iq1agJ0
もっと隅々まで検証済みなのかと思ってたけど
雑なものだな
大企業の製品で値段が高いから良いものだろうというイメージで売ってるだけで
0094アイスちゃん(茸) [JP]
垢版 |
2020/10/08(木) 17:01:04.39ID:oRCGQdSz0
>>60
金融基幹系システムをインテグレーションしているベンダーがそれを言ったらおしまいよ

そんな事だから、富士通の勘定系システムが消滅するわけで
0096みったん(愛知県) [AT]
垢版 |
2020/10/08(木) 17:08:04.15ID:hnxCKbXw0
>>95
ありがと
英語で冗長性をなくす
to eliminate redundancy
ってスパゲッティプログラムを最適化することじゃないのだな白目
0097スッピー(東京都) [US]
垢版 |
2020/10/08(木) 17:08:25.82ID:mlPZDQc90
これを想定してテストしなければならないという事はそれぞれのハード全てが故障するパターンも検証しないとなぁ
0101レオ(東京都) [US]
垢版 |
2020/10/08(木) 17:11:02.67ID:FOFIU2Jm0
>>10
なるほど筋が通っているような気がするな
0105よかぞう(東京都) [AU]
垢版 |
2020/10/08(木) 17:27:02.10ID:DMke91aO0
SEはコントローラーの抜き差しか電源オンオフぐらいまでなら確認するかもしれないけど、ファームのバグまでは確認できん。
0106どんぎつね(東京都) [CN]
垢版 |
2020/10/08(木) 17:38:32.07ID:tlUCQ0440
装置単体のフェールオーバーではなくシステム全体のフェールオーバーを考えてないからこうなる
0111なるこちゃん(神奈川県) [US]
垢版 |
2020/10/08(木) 18:01:50.92ID:h7l5V1Hq0
>>1
なんでどうして
「うごかなくする設定項目」があるの?
誰が作った項目なの?
0112しんちゃん(東京都) [JP]
垢版 |
2020/10/08(木) 18:04:32.60ID:zbDxwkvL0
石原さとみ、結婚発表でメモリロスしたんだ。
大物芸能人の時は東証危険日。
0113ニック(茸) [US]
垢版 |
2020/10/08(木) 18:17:55.44ID:xoaJLcHg0
実際問題としてメモリ異常を検知して切り替わるシステムって難しくね?
0114モアイ(東京都) [US]
垢版 |
2020/10/08(木) 18:19:56.65ID:wn4xBL570
>>113
ECCエラー出たらBIOSが物理的に切り替えはるんとちゃうか?
よーしらんけど
0115ぼっさん(公衆電話) [US]
垢版 |
2020/10/08(木) 18:37:00.53ID:UthnM1jK0
>>10
何金言言ってんの。
0116よむよむくん(茸) [US]
垢版 |
2020/10/08(木) 18:38:13.53ID:ovh3c51G0
見かけ上マルチで動いてるように見せて、金だけもらうんだよ。
これは設計を依頼する側から言われる。そのもっと上に安心を売るためだ。

実際仕組み的には機能するのだろう。しかし、保証ができない。エラーが起きた瞬間のデータがどうなったのか、検証できない。
一円の狂いも許されないシステムにおいて、事故時の保証もせよと言われりゃ復旧不可能と逃げたくもなる。
0118和歌ちゃん(SB-Android) [BR]
垢版 |
2020/10/08(木) 18:59:07.26ID:r89/Xjv90
>>86
そうそう。
つまり根本的な対策は東証だけではできない。
証券会社など各プレーヤーと協同して対策する必要がある。
なのに東証や富士通の問題ばかり記事が出てるみたいでなあ。
0119しんちゃん(東京都) [JP]
垢版 |
2020/10/08(木) 18:59:19.93ID:zbDxwkvL0
>>83
3兆円って、取引額だろう。
益が出ればいいけど、損が出たら神風で助かったってことになる。
実際、次の日何もなかったように取引を終了。外資もどこも気にしてない。
後進国日本だからそんな影響なし。おまえが脱腸なだけ。
0120こぶた(神奈川県) [CN]
垢版 |
2020/10/08(木) 19:00:45.24ID:KwqEAORw0
下請けに丸投げした設定マニュアルが間違ってただけだもんね!
0122やまじシスターズ(東京都) [ニダ]
垢版 |
2020/10/08(木) 19:04:46.51ID:0ALiMsbf0
二重化なんか逆に信用できないから三重化の多数決方式でおながいします
0125スカーラ(東京都) [US]
垢版 |
2020/10/08(木) 19:24:04.74ID:SXPeBSZZ0
中国人ってITリテラシー低いんだな
そもそもの問題点を理解できてないのか
0126たらこキューピー(群馬県) [US]
垢版 |
2020/10/08(木) 19:26:11.55ID:NOtembCp0
さす富士通、アホス
0128イチゴロー(東京都) [CN]
垢版 |
2020/10/08(木) 19:32:42.63ID:ne2XUqwg0
ハードのファームレベルの不具合かよ
こんなのシステム設計する現場SEには分かるわけないし
冗長性も担保されてる前提でテストするからテストでバグ検出ができるはずもない
富士通は同じ製品納入してる取引先全部に頭下げることになるな
こりゃ大変だわ
0129セーフティー(埼玉県) [TW]
垢版 |
2020/10/08(木) 19:45:08.49ID:dMmBiUK30
ファームの設定ミスは言い訳で死活監視でPING返す壊れ方を想定してなかっただけだろ
ファームでメモリエラー検知したらシャットダウンするって設定をしてたらカバーできてたってだけで
0130なるこちゃん(神奈川県) [US]
垢版 |
2020/10/08(木) 20:17:22.15ID:h7l5V1Hq0
>>129
実際、こうなっていたのかもしれない

[ファームウェアの設定]
 L[メモリエラー検出時]
   L シャットダウンしますか:いいえ、とんでもない
   L 通知しますか:いいえ
   L 何もしませんか:はい、放置で
0131レオ(茸) [AU]
垢版 |
2020/10/08(木) 20:21:43.66ID:HQ/NItwq0
素人が本読みながら一生懸命組んだのかな?
0132さなえちゃん(東京都) [US]
垢版 |
2020/10/08(木) 20:24:20.53ID:1bTQlqzQ0
NASのエラーなんて、通信のタイムアウトでしか検出出来ないと思うがな。そっからリカバリーできるのかね。
0133リョーちゃん(やわらか銀行) [US]
垢版 |
2020/10/08(木) 20:25:25.39ID:URPQivzL0
なんでそんな設定があるんだw
なんか噓吐いてるだろw
0135はち(茸) [ニダ]
垢版 |
2020/10/08(木) 21:13:03.43ID:k1Dr6xOl0
原因はわかったから今後同じトラブルは起きないし、他の富士通のシステムもチェックされるから安心できると言っていい?
0136ポポル(東京都) [US]
垢版 |
2020/10/08(木) 21:13:48.09ID:HA8Uk4y90
>>1
なんていうか
こんなレベルがIT屋気取ってんのこの国?

これさ、普通のサーバでも、Fに頼みたくないわw
0137ベストくん(大阪府) [US]
垢版 |
2020/10/08(木) 21:18:51.01ID:G7Iq1agJ0
>>136
それが正解
脆弱なのに何の責任も取らない
実の伴わない無意味なブランドに金を払うことはない
0139シャブおじさん(兵庫県) [ニダ]
垢版 |
2020/10/08(木) 21:25:15.83ID:/ikXxzkT0
ETERNUSのNASでActive-ActiveってことはNetAppか?OEMの。
ただ、設定不備って言ってもそんなの制御出来るパラメータあったかな。。
0140チョキちゃん(埼玉県) [ニダ]
垢版 |
2020/10/08(木) 21:44:30.90ID:oKXu/5fA0
富士通のNASならNetAppのOEMですね。
0142らびたん(東京都) [JP]
垢版 |
2020/10/08(木) 21:48:57.68ID:tjfoRYdV0
ファームウエアを設定した理由があるはず、多分メモリ内容が異なるので
切り替えをさせないようにしているのではないかな、それが本当の原因なら
ファームの設定を変更したら更に危険な事になるんじゃないか
0145ロッ太(千葉県) [US]
垢版 |
2020/10/08(木) 22:05:40.22ID:zaGJok140
システムログを監視していないのか、システムログへの出力が無かったのか
0146シャブおじさん(兵庫県) [ニダ]
垢版 |
2020/10/08(木) 22:07:54.39ID:/ikXxzkT0
仮にNetAppだとしたら、Tintriにしろなんにしろ富士通はとことんOEMに恵まれねえな
というか、Failoverする時にあんなにIO Wait発生するストレージを金融取引のシステムに使うかね?cDOTはLIFを上手いこと制御してやれば7modeの時みたいなIO Waitは無いんだっけか?
0150ナルナちゃん(神奈川県) [US]
垢版 |
2020/10/09(金) 00:15:22.83ID:Mi5QpwSw0
>>148
そうしなよ
でないとSYSLOGでディスクフルになって、なにかが起きる
テストしてないだろうし
何が起きるか知ってる人は経験者だから守秘義務で黙して語らない
0151レンザブロー(愛知県) [NL]
垢版 |
2020/10/09(金) 00:22:15.69ID:JgrY6apI0
>>119
ナッツの株主は全員死んだな
0152こうふくろうず(奈良県) [US]
垢版 |
2020/10/09(金) 00:27:55.43ID:viqN8Vrr0
富士通に発注する奴は、
電化製品もハイアールとか買ってそう。
値段だけで決めるバカ。
安物買いの銭失い。
自業自得。
0153めばえちゃん(東京都) [US]
垢版 |
2020/10/09(金) 00:46:28.66ID:ougrZKJl0
NasNasNas
NfsNfsNfs
0154ヱビス様(東京都) [US]
垢版 |
2020/10/09(金) 00:49:39.24ID:Y6oSSJZu0
>>6
リダァンダァンシィ
0155エコンくん(東京都) [ニダ]
垢版 |
2020/10/09(金) 00:51:49.69ID:xsZFjGHt0
>>4

テストはした、だけどテストの想定パターンにはなかった
よくある事だよ

冗長化してても切り替わらないとか、切り替わったけどアプリが動かなくなるなんてことはある
0156エコンくん(東京都) [ニダ]
垢版 |
2020/10/09(金) 00:54:04.74ID:xsZFjGHt0
>>16

どうかな
その試験で受け入れはのは東証だろ
責任は東証にあって保守範囲でどこまで富士通がサポートしているかだろね
0157よむよむくん(神奈川県) [ニダ]
垢版 |
2020/10/09(金) 00:57:02.58ID:TDmxYgd80
ハード部位に対する試験考慮漏れ
そしてそもそもメモリの疑似故障を発生させられるのかって言う話もあるが。
検討したが現実的に出来ないのでテストしないでよし
に倒したか
0159モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 01:03:46.35ID:bgPm8pZ60
つまり飾りだった訳ね(´・ω・`)
おめでてーな
0160モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 01:05:02.46ID:bgPm8pZ60
>>156
障害テストまで受入側の責任かよ
クソだな
0161あいピー(茸) [EU]
垢版 |
2020/10/09(金) 01:05:43.09ID:DapW45Al0
調べたら過去にこんな記事もあったで。

https://www.publickey1.jp/blog/12/post_208.html

電源障害発生、原因は基盤に塵や埃が付着したこと
日経コンピュータの報道によると、障害が起きたのは館林データセンターで1995年に開設され、主にアウトソーシングサービスを提供するA棟。ここで、館林データセンター全体の7%に相当する範囲で電力供給が途絶えたとのこと。

1台の無停電電源装置(UPS)が故障した際に、予備のUPSへ切り替えるための「出力分岐盤」が正常に機能せず、サーバへ電力を分配する分電盤へ電力供給が絶たれ、その結果サーバへの電力供給も途切れたのが大規模な障害につながったと説明されています。

そしてその原因は、「プリント基板とリレーのすき間に導電性の塵埃が付着したことによって、リレーの誤作動が生じた」と富士通広報。2013年3月までには信頼性を高めた新たな機器を導入するそうです。
0162エコンくん(山口県) [DK]
垢版 |
2020/10/09(金) 01:12:27.42ID:08gDfgmk0
>>161
配電盤にネズミやゴキブリが住み着くアレか
0163よむよむくん(神奈川県) [ニダ]
垢版 |
2020/10/09(金) 01:13:30.07ID:TDmxYgd80
同一機種のNASを導入してる全ユーザに対する
ファームアップ巡業が開始されます。
他の基幹系システムで起こったらヤベぇ
0164せんたくやくん(東京都) [CH]
垢版 |
2020/10/09(金) 01:26:35.05ID:LA0091XF0
>>42
例えば海外ルーターのiosならtest crashでメモリの擬似エラーとかもできるけど
日本製品だとこういうところの作り込みは甘いよね
0165せんたくやくん(東京都) [CH]
垢版 |
2020/10/09(金) 01:30:06.76ID:LA0091XF0
>>72
ECCエラーのトラップぐらいやってるよ

海外ストレージのnetappならシングルビットエラーはログ表示のみでリカバリ続行
マルチビットエラーはパニックリブートかかって切り替わる
https://kb-ja.netapp.com/Advice_and_Troubleshooting/Data_Storage_Software/ONTAP_OS/How_to_troubleshoot_correctable_memory_errors_on_FAS_and_AFF_systems

メモリエラーで切り替わりませんとかどんだけしょぼいんだか
国産はこれだから。
0167せんたくやくん(東京都) [CH]
垢版 |
2020/10/09(金) 01:33:10.21ID:LA0091XF0
>>113
ECCで余裕で検出できる
無論マルチビットエラーなら偶然検知できないビットパターンの化け方をする可能性もあるが
東証がメモリエラーと言ってることからECC検知はきちんとできてたと思われる
0168auシカ(ジパング) [US]
垢版 |
2020/10/09(金) 01:36:11.21ID:QGI0u7+m0
>>160

当たり前だろ
そのシステム買ってきて自分の資産にしてるんだったらその運用責任は東証だよ
受け入れ試験やって受け入れたんだろ
その受け入れ試験に穴があったってこと
0169せんたくやくん(東京都) [CH]
垢版 |
2020/10/09(金) 01:36:28.52ID:LA0091XF0
>>130
まあECCは普段から太陽フレアとかでシングルビットエラー報告がたまに出るからね。
東証が「いちいちうるさいからオフにしろ」と言った可能性は否定できないが
可能性的には低い。

単にメモリの回復不能エラー発生時にパニックするような作り込みを
富士通のストレージ部門がやってなかっただけかと。
0171auシカ(ジパング) [US]
垢版 |
2020/10/09(金) 01:38:37.52ID:QGI0u7+m0
>>35

当面マンパワーかけて対応しますってのはつまりそういうことだろ
結局はそこまでの費用を東証が払って維持するかって問題だよ
0176せんたくやくん(東京都) [CH]
垢版 |
2020/10/09(金) 02:02:14.05ID:LA0091XF0
全然業界違うがCPUの温度トラップを試験しろと言われたときは泣いたな
納品機材のヒートシンク外して加熱再現しろってことかよとw

無理ですとなんとか泣きついて許してもらったが
「温度トラップ出なかったら責任取れよ」と客から
ネチネチ言われる始末。
0179auシカ(ジパング) [US]
垢版 |
2020/10/09(金) 02:10:52.86ID:QGI0u7+m0
>>178

単体テストとしてはそれでいいかも知らんがシステムテストとしてはどうだろね
結局は、そこまでやりますか?その費用払いますか?
って話で
0180いっちゃん(大分県) [CA]
垢版 |
2020/10/09(金) 02:23:14.63ID:9J3uZ4780
>>139 設定不備って言ってもそんなの制御出来るパラメータあったかな。。
>>165 マルチビットエラーはパニックリブートかかって切り替わる

恐らくパニック発生時に自動テイクオーバーが実施されない設定
になっていたんだと思われる。あくまでも推測です。

https://library.netapp.com/ecmdocs/ECMP1659142/html/GUID-47D7B568-112B-4C02-A92C-FF671658568E.html

自動テイクオーバーの制御用コマンド
storage failover modify ‑node nodename‑onpanic true

Data ONTAP 8.3
storage failover modify
https://library.netapp.com/ecmdocs/ECMP1610202/html/storage/failover/modify.html

[-onpanic {true|false}] - Takeover on Panic Enabled
This optionally specifies whether the node automatically takes over for its partner node
if the partner node panics. The default setting is true.
Changing this parameter on one node automatically makes the same change on its partner node.

これはオプションで、パートナーノードに障害が発生した場合にノードがパートナーノードを
自動的に引き継ぐかどうかを指定します。デフォルト設定はtrueです。このパラメーターは、
上級特権レベル以上でのみ使用できます。

日本語版?
https://library.netapp.com/ecmdocs/ECMP1659142/html/GUID-AFB3A95A-AB57-4179-94A6-E6740175F310.html
-onpanicパラメータをfalseに設定した場合は、テイクオーバーが実行されません。
そのため、-auto-giveback-after-panicパラメータをtrueに設定しても自動ギブバックは実行されません。
クライアントのアクセスが中断されます。
0181マルちゃん(栃木県) [US]
垢版 |
2020/10/09(金) 02:23:29.18ID:XanJIGVN0
サーバだったら、蓋開けて通電したままメモリ引っこ抜く的なテストはすることあるけど
ストレージはそんなことできるのかね?
0182いっちゃん(大分県) [CA]
垢版 |
2020/10/09(金) 02:23:49.71ID:9J3uZ4780
>>170 netappじゃないほうでしょ

https://xtech.nikkei.com/atcl/nxt/column/18/00001/04693/

この内容だとNASのようなので中身はnetappのNASと思われる。

富士通のストレージはSANベースのDXシリーズとNASベースのNR1000Fシリースがある。
どちらもETERNUSと呼んでいるのでややこしい。

ETERNUS NR1000F series
https://www.fujitsu.com/jp/products/computing/storage/disk/nas/
0185モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:36:28.69ID:bgPm8pZ60
>>168
それで保守料取るのかよアホじゃねーの
0186モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:40:54.49ID:bgPm8pZ60
ここの書き込みを見るだけでつくづく富士通のクソ加減が分かるな
0187auシカ(ジパング) [US]
垢版 |
2020/10/09(金) 02:42:12.54ID:QGI0u7+m0
>>185

保守契約してるからってなんでもやってくれるわけねえだろ
東証のシステムは東証が仕様を切ってるんだろうからその責任はあくまで東証
ベンダーはその仕様に合う製品を納入して東証は受け入れてんだろ
保守の仕様も東証が切ってるだろ
0188モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:43:25.17ID:bgPm8pZ60
>>187
だからさあ…
0189エネモ(東京都) [KR]
垢版 |
2020/10/09(金) 02:44:38.61ID:COjM/nc+0
なんのためのECCかっていうw
0190ライオンちゃん(空) [US]
垢版 |
2020/10/09(金) 02:44:58.29ID:WENdGzuj0
HDDやメモリだけはテストしそうなものに。
大事なところはPCとおなじじゃんね。
0191モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:45:11.23ID:bgPm8pZ60
>>187
その書き込みで富士通は一切使わないと決めたよ
多分君の本心なんだろうから勝手にすれば良い
カネ払う価値なし
0192モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:47:00.70ID:bgPm8pZ60
>>187
こんなクソがこそこそ書き込みをするのが富士通という会社
0193エネモ(東京都) [KR]
垢版 |
2020/10/09(金) 02:48:45.43ID:COjM/nc+0
そんなだったら最初からECCメモリ使わないで
冗長ビットない安いの使えばいいじゃんw
0194モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:49:50.57ID:bgPm8pZ60
東証でこれでは一般企業のシステムなんてどれだけ程度の低い仕事をしてるのか想像もつかんわ
とっととつぶれろ無責任企業富士通
0196モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 02:58:58.65ID:bgPm8pZ60
>>195
フェイルセーフの設定実動作に至るまで全て受け入れ側がテストしなくてはならないらしいぞw
ひょっとして機器の寿命もかな
それはテストするまでもねーかある意味w
0197タヌキ(福岡県) [TH]
垢版 |
2020/10/09(金) 03:12:59.72ID:EIi3o3Sm0
富嶽も似たような故障で、世界の物笑いの種に成るのか。オホホ!
蓮坊砲が炸裂。

弐番じゃ駄目なんですか。Bクラスの弁明。
0198ラビディー(千葉県) [DE]
垢版 |
2020/10/09(金) 03:27:05.14ID:2YywgQ+a0
>>187
東証はITのプロではないのだから、RFI/RFPや要件定義、ユーザービリティの範囲で受け入れテストはするだろうね
ハード障害の責任は、設計から結合テストまでやってるベンダーの責任だよ
ITのプロとして入札して受注してるわけだしね
IBMかどっかでも判例あったと思うけど
0199ベーコロン(千葉県) [IT]
垢版 |
2020/10/09(金) 03:37:06.77ID:jgNqCTs30
メモリ障害のテストは再現するのも難しそうだな
ガワ取っ払って稼働中にメモリ引っこ抜くとかしなきゃならんのかな?
0200モモちゃん(東京都) [ニダ]
垢版 |
2020/10/09(金) 03:49:14.51ID:bgPm8pZ60
>>198
優しい言い方だね
0201ラビリー(東京都) [FR]
垢版 |
2020/10/09(金) 03:57:24.56ID:YOKWHQeZ0
軍事研究疎かにすると、ぶっ壊れ前提での冗長性とか考え無くなるよね
0202エイブルダー(栃木県) [US]
垢版 |
2020/10/09(金) 04:02:02.80ID:pUP3ZgSu0
東証のCIOが富士通は機器を納入してるだけだから責任はうちにあるって会見で言ってたのになんで富士通ガーやってんの?
東証のCIOより契約内容に詳しいの?
0203ミミちゃん(茸) [IN]
垢版 |
2020/10/09(金) 04:16:27.67ID:t8YIw9/50
まぁ今回の件で富士通は倒産、担当SEは引っこ抜かれて一生コキ使われる奴隷だろうな。
昇進なんてしないで死ぬまで365日24時間保守責任負わされる。
0204どんぎつね(埼玉県) [LU]
垢版 |
2020/10/09(金) 05:52:00.02ID:1ySzhLVq0
時々、ものすごく詳しい知識ある人がレスしてるけど、
そろそろ中の人のレスは来ないかしら?
0205麒麟戦隊アミノンジャー(東京都) [AU]
垢版 |
2020/10/09(金) 05:53:05.67ID:EqdAA/Qr0
>>202
全部見たけどそんな言い方じゃなかったけどな
このスレはいちいち細かいウソを吐く奴が多いね
0206麒麟戦隊アミノンジャー(東京都) [AU]
垢版 |
2020/10/09(金) 05:53:49.87ID:EqdAA/Qr0
>>204
既に沢山あると思うぞ
0209バザールでござーる(茸) [AU]
垢版 |
2020/10/09(金) 10:56:22.30ID:z2KCRK680
富士通社員は指示だけ
現場はみんな派遣だよ。
0210アンクルトリス(ジパング) [US]
垢版 |
2020/10/09(金) 12:01:58.02ID:GSjcBeI30
>>165
確実にキャッチ出来るのは2bitエラーでそれ以上はキャッチ出来ない場合があると言うか見分けがつかないパターンがある
0211KANA(東京都) [US]
垢版 |
2020/10/09(金) 12:05:27.10ID:BD/lRroG0
>>199
引っこ抜いたらECCの訂正と割り込みのテストが出来ない
ピンポイントで1bitとか2bit壊してちゃんとキャッチするかテストすんだけど
昔のメモリならテスト下駄が使えたけど今の速いメモリは下駄はかすとそれが原因で不具合が起こるから結構大変なんだよ
0212サブちゃん(東京都) [US]
垢版 |
2020/10/09(金) 12:45:17.35ID:Xu/SB9pz0
故障モードなんて星の数、1,0で壊れてくれると監視し易いんだけど。
0213スピーディー(兵庫県) [ニダ]
垢版 |
2020/10/09(金) 12:52:32.10ID:HSFGVjz20
>>180
ええええええええええ
こんなの絶対いじらないパラメータだよ。わざわざpriv setしてfalseになんかするか?
万が一そうしたとしたら、客の指示がなきゃ絶対やらんわな。
0214はち(東京都) [US]
垢版 |
2020/10/09(金) 12:54:46.75ID:aOfodAwO0
未だにNAS使う意味がわからん
素直にSAN使っとけでは
0215バザールでござーる(茸) [AU]
垢版 |
2020/10/09(金) 13:15:50.83ID:z2KCRK680
>>213
メンテでfalseにして戻し忘れたとか。
0218まりもっこり(東京都) [AU]
垢版 |
2020/10/09(金) 13:32:21.32ID:Fn3x25fS0
BIOS今はUEFIって言うんだっけ
の設定ミスだな

ネット上がりのSEあるあるだな
ハードの知識皆無的な

ECCメモリって、粗悪なやつだと、ECCあるからええやんって、フツーのメモリよりエラー多いやつ有るよな
それで無知が運用して設定ミスじゃあもう滅茶苦茶だな

なんか嘘臭いけど、小説より奇なりかね
0219サブちゃん(東京都) [US]
垢版 |
2020/10/09(金) 13:40:02.64ID:Xu/SB9pz0
大阪、名古屋、福岡、札幌いずれかをBCPにすべし。
障害が起きても学習経験しながらソフト更新して、信頼性の高いものにしていくしかない。
0220たらこキューピー(千葉県) [US]
垢版 |
2020/10/09(金) 13:42:06.07ID:uHwBT7aH0
宝くじは継続購入してると当たらなくなる
この理由が解る人はFXとかやってないと思う
0221ピモピモ(東京都) [US]
垢版 |
2020/10/09(金) 14:07:12.07ID:RtrL7u6D0
いやいや、何か故障が起こっっときはシャットダウンが正解だろ
0225Happy Waon(ジパング) [KR]
垢版 |
2020/10/09(金) 20:20:15.59ID:sxh9Mho20
美しい人生よ 限りない喜びよ
0227ことちゃん(大分県) [CA]
垢版 |
2020/10/10(土) 11:29:30.52ID:P3Q1xUq+0
>>226 default trueの物をいじるか〜?
普通はいじらないですね。

ですが、この装置は、active-standbyではなく、active-active運用なので
フェイルオーバーが自動的に実行されると不都合が生じる場合があります。

そういう場合は、自動でフェイルオーバーさせずに手動で切り替えるようにします。

パニックはメモリ故障の時だけでなくファームの不具合や資源枯渇など
の理由により、ストレージの稼働が困難になるとパニックが発生します。

default設定時(-onpanic true)の動作
パニックリブート発生⇒自動テイクオーバー(切り替え)⇒
パニックリブートから復帰⇒自動ギブバック(切り戻し)⇒元の運用に戻る。

また、テイクオーバーが発生すると、片系のコントローラーで2クラスタ分の処理を行う
事になり、その分負荷が高くなります。

用途・時間帯によっては、負荷のかかった状態で運用する事が好ましくなかったり、
不要なテイクオーバー/ギブバックを減らす為に、切り替えや切り戻しが自動で実行
されないようにする場合もあります。

※NETAPPでは、フェイルオーバー/フェイルバックの事をテイクオーバー/ギブバック
と呼んでいる。
0228ことちゃん(大分県) [CA]
垢版 |
2020/10/10(土) 11:29:56.12ID:P3Q1xUq+0
つづき
テイクオーバーとギブバックの概要
https://library.netapp.com/ecmdocs/ECMP1659142/html/GUID-9827FCFE-558D-45EE-9D4E-EBD0EC654195.html

HAペアの計画
https://library.netapp.com/ecmdocs/ECMLP2372131/html/GUID-CC732B48-283D-44E9-AFBF-CE4E5E81082E.html

ハイアベイラビリティ構成ガイド
https://library.netapp.com/ecm/ecm_download_file/ECMP1659142

-抜粋-
パニック時に適用される自動ギブバックパラメータの組み合わせとその影響
storage failoverのパラメータ
-onpanic true
-auto-giveback-after-panic true

注: -onpanicパラメータをtrueに設定した場合、パニックが発生すると
常に自動ギブバックが実行されます。
0229KEIちゃん(山口県) [UA]
垢版 |
2020/10/10(土) 13:09:32.56ID:G3+8w1OI0
>>84
素人意見だが、日次処理的に後場からの稼動開始って
可能なんだろうか
なんとなくだが、時間起動しているバッチ処理
との整合性が取れているか確認が大変な気がするのだが
0230いたやどかりちゃん(東京都) [CN]
垢版 |
2020/10/10(土) 13:12:52.25ID:rOEyq98I0
いままで正常稼動してたから気が付かなかったってのが凄いことなんだけどなw
0232ヨモーニャ(千葉県) [IN]
垢版 |
2020/10/10(土) 13:14:51.24ID:jwnK9ZUu0
優秀な下請確保しとけよ
飴と鞭で縛りつけるんだよ
2000年代はみんなそうやってシステム上手く作ってたぞ
0233KEIちゃん(山口県) [UA]
垢版 |
2020/10/10(土) 13:20:04.83ID:G3+8w1OI0
2000年代か・・・
豊洲にあったD社の不夜城で頑張っていた頃だな
何もかもが懐かしい
0235ティーラ(東京都) [US]
垢版 |
2020/10/10(土) 13:40:07.32ID:P9ts/pnK0
週明けは全国のシステム屋に確認指示が飛ぶわけだな
0237ニッセンレンジャー(佐賀県) [FR]
垢版 |
2020/10/10(土) 14:23:50.83ID:soBUwY5p0
NASの片方が死んだら切り替わるようにしていたけど
怪我して頑張ってたから切り替わらなかったって感じかな

怪我したら強制的に休ませる設定になっていなかったと

新型コロナとかインフルにかかっても無理して出社するような感じか?
0238トッポ(SB-Android) [JP]
垢版 |
2020/10/10(土) 17:11:50.40ID:ZcLGBSsp0
>>229
当日に慌てて確認しようとしたら大変でしょうね。
おそらくはそんな感じで再起動に難色を示した大手プレーヤーだか証券会社だかがいたと思われる。
でも本来的には、こういう緊急時の再起動に備えてない方が悪い。
0240マックス犬(茸) [US]
垢版 |
2020/10/10(土) 19:40:34.15ID:bvKydM9p0
データの保証したくないから障害で終わらせただけだよ。
切り替えの絶妙なタイミングの取引を全部保証しろ、なんて詰められて逃げたんだろ。
0241りんかる(埼玉県) [ニダ]
垢版 |
2020/10/10(土) 20:47:15.58ID:B2WQ1C0b0
>>238
まぁそれはシステムを使用してる証券側がメインで動かなきゃいけない話だからな
もっと言えばそれを想定してアプリ設計と発注を富士通に依頼しなきゃいけない
使う方が能無しだから備えることが出来ないんだ
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況