Datasetの保存と圧縮 - たれぱんのびぼーろく

前提: CorpusとDatasetの分離

Datasetはそんなに長く持つものじゃない
Corpusと違って公開するものでもない
何かあればCorpusからいつでも作り直せる

音声にzipで圧縮したら3割くらい減る
10GBのdatasetをzipで持って-3GB
転送量が減るメリットはある
<= 日にせいぜい数回の転送で3GBけちるとどれくらいのご利益?
=> ¥1/GBくらい。でも同一リージョンのS3-EC2は無料

uncompressed dataset archive (ZIP STORED) で大丈夫そう