2020-11-16から1日間の記事一覧
Jobの中断と復帰 Preemptible利用とか 要件 resume read先がnullの時にerrorじゃなくてfrom scratch処理できると実装が楽 auto healing
状態を復元する: restore/load states 状態の読み込み/read states (files) local/remote 対応形式 失敗時の対応 エラー fail properly -> from scratch 状態の適用/ load? restore? apply? states 例 Python PyTorch-Lightning (DeepLearning framework's w…