S3のコストを大幅に削減した話 - Gunosy Tech Blog
2022/04/13 09:46
azihsoyn
すごい
2022/04/13 09:53
yuutookun
かいた
2022/04/13 12:01
n_231
月当たりうん百万はドキドキする…… glacierに入れるときはファイル数を減らす工夫をした方がいい _φ(・_・
2022/04/13 12:04
amatou310
“2022年4月現在、通常のS3のコストが1000リクエストあたり0.0047USDなのに対し、Glacier (flexible) は1000リクエストあたり0.03426USDとなり約7.3倍です”そんな罠あるんだ。知らなかった。
2022/04/13 12:45
u_tis
本当に大幅に削減しとるな...
2022/04/13 12:48
umai_bow
S3のライフサイクル単体でこれ出来たらいいんだけどね
2022/04/13 13:03
kagerou_ts
リクエスト料金は盲点…
2022/04/13 13:20
MonMonMon
“gzipファイルは複数ファイルを結合しても読み込むことができます。” これは便利
2022/04/13 13:32
circled
AWSのS3は取り出す時の転送料も結構する。1PBはさておき、例えばその1/10の100TBで約100万円、10TBなら10万円かかる。いざって時にデータ取り出す瞬間「待ってたぜ!ここから先は追加料金だぞ?」と言われてる気分。
2022/04/13 13:55
coco7t
bigqueryでやると、どの程度のコストになるんだろ
2022/04/13 14:04
tyoro1210
昔カメラのrawファイルのバックアップ先探した時に、put のリクエスト下げる為に自動で一定期間ごとのデータ固めつつ、判別可能なレベルのサムネを結合したjpg吐いて それだけ手元で管理するとかしてたな
2022/04/13 14:15
rx7
"MultipartUploadを利用して複数のgzipファイルを単一のgzipファイルにまとめる", "GlacierへのPUTリクエストの回数を大きく削減することができます"
2022/04/13 14:16
bonlife
いいですね。ただ、取り出すときどうやるんだろ。Glacierも部分的に取り出せそうだけど、どの範囲を取得するかの情報を別途DynamoDBとかに保存しとかないと全部展開するしかなさそう?
2022/04/13 14:36
rrringress
gzip 複数ファイルを re で検索できたりするの便利だよね
2022/04/13 15:46
ya--mada
ファイルサイズ5GBまでをcatで繋げてブチ込むだけ。digdag ってトレジャーデータのプロダクトなのか、パーフェクトキューの後継&&要件見直した版って感じか? speakerdeck.com
2022/04/13 15:48
minamishinji
大量のデータを使うことはまだないかもしれないけど、gzipの仕様について学びがあった。
2022/04/13 16:26
nekonenene
移動コストで死なないために、gzipでまとめたものを渡すことでPUT回数を抑えたのか~、なるほど
2022/04/13 16:29
tkysktmt
“実際にgzipファイルに対してcatしてみるとgzcatで読めることがわかります。 ” へぇー
2022/04/13 16:42
Nyoho
“容量制限の5GBまで溜まったらGlacierにCOPYすることでGlacierへのリクエストを最後のコピーの1回だけに抑えることができます。”
2022/04/13 17:01
shunyy
We
2022/04/13 19:26
takuya_1st
gzipのcatで結合は面白い
2022/04/13 19:37
napsucks
同じように使えてもう少し圧縮率の高いbzip2やxzにすることでもうさらに節約できそうね。
2022/04/13 20:16
a-know
ほぇー
2022/04/13 21:25
lont_in
gzipの圧縮率で十分だけど、マシン性能が潤沢ならzstdおすすめ
2022/04/13 21:28
fukumura
φ(・ω・ )フムフム...
2022/04/13 21:37
tagomoris
gzをmultipart uploadの各チャンクにすることでアップロード先で結合するの面白アイデアだな
2022/04/13 21:41
lesamoureuses
なるほどー “単一のファイルを一つにまとめることができれば、GlacierへのPUTリクエストの回数を大きく削減することができます”
2022/04/13 21:50
shikiarai
その辺の料金の考えが嫌で使いたくないんだよね〜といいつつ
2022/04/13 23:23
cocoasynn
これは良い取り組み
2022/04/13 23:52
mysql8
Cloud Storageの方が安い
2022/04/14 01:35
for-my-internet-demo
このへんのアーカイブよくやるパターンな割に、手順が無駄に複雑で全社大仰なことしてるイメージ。
2022/04/14 04:34
peketamin
貧乏プロジェクトでDBバックアップをgz圧縮+分割してGmailのゴミ箱へ投げてたの思い出した
2022/04/14 06:56
omron
“gzipファイルは複数ファイルを結合しても読み込むことができます”
2022/04/14 09:07
knok
gzip結合じゃなくtarとかの非圧縮アーカイブではだめだったのかな。ログならまあいいだろうけどcsvだとヘッダが複数つながって面倒そう
2022/04/14 09:35
razokulover
GlacierのPUTって結構高いのか
2022/04/14 11:58
dkfj
GlaicerのPUT APIのコスト考えると、ファイルまとめて圧縮するが正解。これをライフサイクルで指定できればいいんだけどなぁ。昔、AWSのSA陣と純正機能だけで、できるだけ楽に実現できないか議論させてもらったなぁ
2022/04/15 20:47
sora_h
モチベーションも結果も全部みたことある流れでうける(うちもやりました)