スパコンのバックアップ機能に不具合 約77TBのデータが消失 いつものギャグ国家 [793583641]
■ このスレッドは過去ログ倉庫に格納されています
■京都大学(2021年12月28日)
2021年12月14日 17時32分 から 2021年12月16日 12時43分にかけて,スーパーコンピュータシステムのストレージをバックアップするプログラム(日本ヒューレット・パッカード合同会社製)の不具合により,スーパーコンピュータシステムの大容量ストレージ(/LARGE0) の一部データを意図せず削除する事故が発生しました.
皆さまに大変なご迷惑をおかけすることになり,深くお詫び申し上げます.
今後,再びこのような事態の生じることのないよう再発防止に取り組む所存ですので,ご理解をいただきますよう,どうぞよろしくお願いいたします.
★ファイル消失の影響範囲
・対象ファイルシステム:/LARGE0
・ファイル削除期間:2021年12月14日 17時32分 〜 2021年12月16日 12時43分
・消失対象ファイル:2021年12月3日 17時32分以降,更新がなかったファイル
・消失ファイル容量:約 77TB
・消失ファイル数:約 3400万ファイル
・影響グループ数:14グループ (うち,4グループはバックアップによる復元不可)
障害情報:【スパコン】ストレージのデータ消失について
http://www.iimc.kyoto-u.ac.jp/ja/whatsnew/trouble/detail/211216056978.html
★ファイル消失の原因
スーパーコンピュータシステムの納入会社である日本ヒューレット・パッカード合同会社によるバックアッププログラムの機能改修において,不用意なプログラムの修正とその適用手順に問題があったことで,本来は不要になった過去のバックアップログファイルを削除する処理が,/LARGE0 ディレクトリ配下のファイル群を削除してしまう処理として誤動作しました.
日本ヒューレット・パッカード合同会社から提出された報告書を掲載します.
Lustreファイルシステムのファイル消失について (日本ヒューレット・パッカード合同会社)
★今後の取り組み
現在バックアップ処理を停止しておりますが,プログラムの問題を改善し,確実に再発しない対策をした上で1月末までにはバックアップを再開する予定です.
ファイル消失後にバックアップが実行されてしまった領域のファイルの復元ができない状況となったことから,将来的にはこれまでのミラーリングによるバックアップだけでなく,1世代分の増分バックアップを残す等の機能強化を検討いたします.機能面だけでなく,再発防止に向けた運用管理についても改善に取り組みます.
一方で,機器故障や災害等によるファイル消失の可能性も含めて完全な対策は困難であるため,利用者の皆様におかれましても,重要ファイルについては別システムへのバックアップをお願い致します.
※全文は元記事でお願いします
https://www.iimc.kyoto-u.ac.jp/ja/whatsnew/information/detail/211228056999.html 計算に使うデータとか計算結果の類だと思うけど
研究の計画的には来年度も影響しそう ファイルコイン使えよ
分散型ストレージにすりゃ安全性もコスパもいいだろ。 >>1
俺が数年に一度、フォルダじゃなくファイルでやらかすレベルのミスだと認識したw
なにやってんの、こいつらw HPEが100%弊社の責任でってコメント出してるなー
損賠どうなるんだろ? だが待って欲しい。京都大学側に消したい動機が有るとしたら >>消失ファイル容量:約 77TB
大したことないな
どうせまた事故は起きるしな 古いログファイルを削除するスクリプトが
バックアップ実行中に差し替えられたため
不定のコマンドを実行した
rm /tmp/*を
rm /
ってするようなもの 2012年に起きたファーストサーバの障害は、同じサーバ内に本番系・待機系・バックアップを稼働させて全部でデータ消失ってのやらかしてる
https://www.nikkei.com/article/DGXNASFK2600L_W2A620C1000000/ 日本さあ…もう出来るフリすんの疲れたんだろ?いいよ休んで >>233
最近は巨大データの世代バックアップなんかはしないのが流行りだから消したデータで同期しちゃったら終了 GNU find のディレクトリ指定が消えて
デフォルト動作でカレントディレクトリから処理しはじめた結果とか
言ってた人いたけど bashのスクリプトを動作中に更新したら
ある行から更新済みスクリプトに処理が移って
結果、すべてが虚無に返されたとか分析してた人いたけど…… NECの工場内のunixでdel *.*をやった偉人を知っている 他の国でも同じような事故は起きているんじゃないの? >>23
貴重マン……じゃなく几帳面な俺はトリプルバックアップで一生安泰。 >>244
この間、間違って引数指定なしでシェルながしたら、
rm -rf /が実行されてマジで青くなった。構築中サーバーだからよかったけど 日本にやらせるとこうなるよね
いつも情報流出とかしてる国だし スーパーコンピュータの略は
×スパコン
⚪︎スーパーコン
⚪︎スーパー
な。日経では、ちゃんとした記者が書いた記事ではスーパーコンになってる。 >>13
ネトウヨは既に目を捨てたよ
彼らは現実を見ないと誓ったのだろう if [ "x$OLDVAR" != "x" ]; then
find $OLDVAR うんたら
fi
の
if [ "x$OLDVAR" != "x" ]; then
の行が実行されifに入った瞬間にスクリプトが更新されて
if [ "x$NEWVAR" != "x" ]; then
find $NEWVAL うんたら
fi
になり、
$NEWVALが空なのに
find $NEWVAL うんたら
が実行され、GNU findの既定動作でカレントディレクトリを処理したってこと?
それってすごくね?w >>215
ソレだな
そんなもん作られたら脱CO2ビジネス終わっちゃうからなw >>9
みずほは数社でシステム開発させたからでしょ
そんなの失敗するって誰でも分かるのに
上層部は分からなかったか、政治優先したかあたりでしょ、問題は >>250
そら、どこらへんのコンヴェンション
略称なんて分かりゃいいだろ >>255
だとしたら、最低だな
武器商人とか、ヤクザとか詐欺師と変わらん >>247
この修正したスクリプトのリリース手順に考慮不足がありました
とあるようにリリース管理上の問題であって変数名云々は傍論だよ
日本人はどういう分野でもマネジメントが抜けてて職人頼みだからすぐコマンドとか機器の話はじめちゃうけどいい加減改めようよ >>208
次期支援戦闘機はイギリスとの共同開発とか 【尿路結石予防の四ヶ条】
@十分な水分を摂る
食事以外に1日2L以上の水分補給をすることで大幅にリスクを減少できます。
(コーヒー、紅茶等シュウ酸を多く含む飲料及びアルコール類や清涼飲料水は控えめに!)
A動物性脂肪・塩分・糖分の過剰摂取はNO
腸内のシュウ酸濃度や尿中のカルシウム濃度を上げてしまう原因になります。
また、過食そのものによる肥満も結石のリスクを上げるので注意。
B寝る前に食事をしない
食後2-4時間で尿中結石形成促進物質の濃度がピークになるため、可能なら就寝4時間前までに夕食を済ませるのが理想です。
C軽い有酸素運動の習慣を
階段の昇降運動やジョギングなど、体が上下に動くような軽めの運動は結石が砕けて自然排石されやすくなります。
適度な運動は結石が小さく症状が出てくる前に排石される効果が期待されるのでおすすめです。 >>119
そもそも要求定義がいい加減。運用の知見が少ないから運用実体がわかってないし、そんなヤツらに要求定義なんかできねえ。 HPE側に残った人らって、9000シリーズとから触ってた人らかね やらかしたのは米国企業なんだから国家関係ないんじゃね >>254
スクリプトが更新されてもそんなふうにはならないよ
HPEの言い訳見ると親スクリプトと子スクリプトは一緒に変えないといけないのに
親スクリプトだけを先に動作させちゃったら、古い子スクリプトの内容ではマズイことになったらしい
子スクリプトのコマンド名を変えとけばこんなことにはならないのにレベル低いエンジニア使うから
というかスクリプト分けてる時点でセンス悪いが >>63
またバックアップを拵える手間と時間を考えると頭痛になるぞ。 >>70
確かに、横河の偉大さを今になって思い知らされるわ。 ■ このスレッドは過去ログ倉庫に格納されています