前提: CorpusとDatasetの分離
Datasetはそんなに長く持つものじゃない
Corpusと違って公開するものでもない
何かあればCorpusからいつでも作り直せる
音声にzipで圧縮したら3割くらい減る
10GBのdatasetをzipで持って-3GB
転送量が減るメリットはある
<= 日にせいぜい数回の転送で3GBけちるとどれくらいのご利益?
=> ¥1/GBくらい。でも同一リージョンのS3-EC2は無料
uncompressed dataset archive (ZIP STORED) で大丈夫そう