Slide 1

Slide 1 text

PoCにおけるRedshiftへの データ格納時に感じた課題・疑問点の解決 Accenture Digital Applied Intelligence 新井 康平 (Kohei Arai) 2019/07/16(火) 1

Slide 2

Slide 2 text

█ PoCにおけるRedshiftへのデータ格納時に感じた課題・疑問点の解決 - 自己紹介 - 概要 - 背景 - 課題・解決 Agenda 2

Slide 3

Slide 3 text

自己紹介  2016年7月Accenture新卒入社 新井 康平 (Kohei Arai) #R #Python #Node.js #AWS  Digital Business Integration Consultant 3

Slide 4

Slide 4 text

概要 触ったことも無かったRedshift データ取り込みに困った 課題・疑問とその解決の話

Slide 5

Slide 5 text

背景 Copyright © 2019 Accenture. All rights reserved. PoCプロジェクトにおけるデータ受領 分析チーム クライアント 月次 データ提供 S3 アクセンチュア AWSアカウント Redshift  データ取り込み時間…  ストレージ不足… 1ファイル毎 Copy

Slide 6

Slide 6 text

1ファイル最大でCopyに7時間ほどかかって辛い… Copyright © 2019 Accenture. All rights reserved.

Slide 7

Slide 7 text

課題①データ取り込み時間 当初のRedshiftクラスター Redshift リーダー ノード コンピュート ノード コンピュート ノード コンピュート ノード (dc2.large) コンピュート ノード スライス数(2×4=8スライス)にファイルを分割 最大7時間ほどかかっていたCopyが約1時間で終わるようになった RAM RAM Core Core Disk Disk RAM RAM Core Core Disk Disk RAM RAM Core Core Disk Disk RAM RAM Core Core Disk Disk Copyright © 2019 Accenture. All rights reserved.

Slide 8

Slide 8 text

ストレージが不足していて辛い… Copyright © 2019 Accenture. All rights reserved.

Slide 9

Slide 9 text

課題②ストレージ不足 Elastic Resize Elastic Resizeの結果、ストレージ問題は解決 Copyright © 2019 Accenture. All rights reserved.

Slide 10

Slide 10 text

課題②ストレージ不足 想定していたElastic Resize後のRedshiftクラスター Redshift リーダー ノード コンピュート ノード (dc2.large) RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk コンピュート ノード RAM RAM Core Core Disk Disk Elastic Resizeの結果、上記クラスター(2×8=16スライス)になると想定 Copyright © 2019 Accenture. All rights reserved.

Slide 11

Slide 11 text

ファイルを16分割すればより速くデータが取り込まれるのでは? Copyright © 2019 Accenture. All rights reserved.

Slide 12

Slide 12 text

課題②ストレージ不足 8スライスしか動いていない… Copy時に動いていたスライス Copyright © 2019 Accenture. All rights reserved.

Slide 13

Slide 13 text

課題②ストレージ不足 Copyright © 2019 Accenture. All rights reserved. AWS見解 Elastic Resizeでは既存スライスを新ノードに割り当てているだけ

Slide 14

Slide 14 text

課題②ストレージ不足 Elastic Resize後のRedshiftクラスター Redshift リーダー ノード コンピュート ノード (dc2.large) コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード コンピュート ノード RAM Core Disk RAM Core Disk RAM Core Disk RAM Core Disk RAM Core Disk RAM Core Disk RAM Core Disk RAM Core Disk 上記クラスター(1×8=8スライス)になっていると思われる Copyright © 2019 Accenture. All rights reserved.

Slide 15

Slide 15 text

課題②ストレージ不足 Copyright © 2019 Accenture. All rights reserved. ClassMethod記事 元クラスターのノードがdc2.largeであれば Elastic Resizeは1回しか行えない様子

Slide 16

Slide 16 text

Copyright © 2019 Accenture. All rights reserved. ご清聴ありがとうございました