マルチビッグデータの活用を支える DWHの作り方

273 Views

June 02, 16

スライド概要

Yahoo! JAPANの多種多様なサービスから発生する大量データを自由な発想で分析可能にするパワフルかつ柔軟な分析環境を、ヤフーがどのように構築しようとしているかをご紹介します。

profile-image

2023年10月からSpeaker Deckに移行しました。最新情報はこちらをご覧ください。 https://speakerdeck.com/lycorptech_jp

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

(ダウンロード不可)

関連スライド

各ページのテキスト
1.

マルチビッグデータの活用を支える DWHの作り方 ヤフー株式会社 データプラットフォーム本部 櫻井 史彦 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.

2.

自己紹介 データプラットフォーム本部 DWHチーム 櫻井 史彦(さくらい ふみひこ) 2008年にヤフーに入社 8年目 DWHの構築とデータ整備を担当 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 1

3.

アジェンダ 1. 2. 3. 4. Yahoo! JAPANのビッグデータ データプラットフォームの全体像 DWHの将来像 最後に Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 2

4.

アジェンダ 1. 2. 3. 4. Yahoo! JAPANのビッグデータ データプラットフォームの全体像 DWHの将来像 最後に Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 3

5.

ヤフーのビッグデータ? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 4

6.

15 th Largest Internet Company in market cap 400 350 300 as of May 2015 bilion U.S. dollars 250 200 150 100 50 0 http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/ 5

7.

Extensive Reach to a Wide Range of Users 80 % 80% of all Japanese Internet users use Yahoo! JAPAN Nielsen NetView June 2015 : Data by Brands. Access from home and work using PCs (excl. internet applications) 6

8.

強力なサービス Media Search Video Answer Mail US JP News Membership Search C2C Payment Knowledge search C2C EC B2C EC Mail Local US JP Premium Wallet YAHUOKU! Loco

9.

膨大なデータボリューム 68 Billion PV PC + Tablet Smart Device 33.6B PV 34.5B PV Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 8

10.

ヤフーは多数のビッグデータを抱えた マルチビッグデータカンパニー Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 9

11.

アジェンダ 1. 2. 3. 4. Yahoo! JAPANのビッグデータ データプラットフォームの全体像 DWHの将来像 最後に Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 10

12.

全体像 RDB NoSQL Object Storage DWH Hadoop Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 11

13.

全体像 800 2000 1500 300,000 DBs nodes nodes Query/day RDB NoSQL Object Storage Hadoop DWH 6000 node 150 PB Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 12

14.

ヤフーのDWH Phase1 2002-2008 主要サービスのデータを格納 Teradata 5255 限られた利用者のみで使用 Teradata 5255+5350 Phase2 2009-2015 より多くの種類かつ大量なデータを格納 Teradata 5500 多くの利用者に開放 Teradata 5500+5600 Teradata 6690 Phase3 2016Teradata 6690 & 2800 Unified Data Architecture Teradata以外のデータソースも統合する “logical DWH”構想 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 13

15.

アジェンダ 1. 2. 3. 4. Yahoo! JAPANのビッグデータ データプラットフォームの全体像 DWHの将来像 最後に Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 14

16.

利用者のニーズ  SQLだけでなく様々な分析クエリーを実行したい  構造化、非構造化データをつなげて分析したい  複数データソースにまたがって分析したい 全部、一箇所で…。 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 15

17.

今後のDWH 現在 1年後 Teradata 構造化、非構造化データをつ なげて分析できる Logical DWH Teradata 様々な分析ク エリを実行で きる 複数データソースにまたがっ て分析できる Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 16

18.

具体的なコンポーネント 現在 1年後 Teradata QueryGrid, Presto Informatica Logical DWH Teradata Hadoop RDB NoSQL S3 Storage Presto Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 17

19.

Logical DWH Low concurrency, large volume batch queries QueryGrid TDCH S3-compatible Storage Hadoop Teradata Presto RDB RDB NoSQL High concurrency, small volume interactive queries and small batches Informatica Data Sources RDB RDB Exadata Hadoop Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 18

20.

Logical DWH Low concurrency, large volume batch queries QueryGrid TDCH S3-compatible Storage Hadoop Teradata Presto RDB RDB NoSQL High concurrency, small volume interactive queries and small batches Informatica Data Sources RDB RDB Exadata Hadoop Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 19

21.

Prestoへの期待 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 20

22.

Prestoとは  Facebook発のOSSプロジェクト  メモリベースの高速なクエリーエンジン  様々なデータソースにつながる技術 Teradata, Hive, MySQL, Cassandra, S3, etc. ※Teradata社も開発に積極参加 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 21

23.

従来のクエリーのエントリーポイント Presto RDB NoSQL Hadoop Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. DWH 22

24.

新しいクエリーのエントリーポイント Presto RDB NoSQL Hadoop Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. DWH 23

25.

QueryGridとPrestoの関係 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. Copyright (C) 2016 Teradata Japan, Ltd. All Rights Reserved. 24

26.

どんな用途が考えられるか? Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 25

27.

Use Case – deliver personalization data Analysis Reports Targeting list Executive Dashboard Personalization Presto Customer Attributes Shopping Membership Settlement INSERT tableB@Cassandra SELECT user_id FROM tableA WHERE segment_code = 1; Browsing Web/click Cassandra ・・・ Teradata Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 26

28.

Use Case – small batches from storage INSERT tableA SELECT * FROM filename@S3storage WHERE log_date = date - 1; Service A REST small data SELECT INSERT Presto Service B REST small data SELECT INSERT S3-compatible Storage Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. Teradata 27

29.

Yahoo!スケールでの課題 Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 28

30.

課題  TBクラスのデータJOINを可能にする push-down機能の強化 メモリーに乗り切らないデータの処理改善  ワークロード管理 重たいクエリーも、軽いクエリーもバランスよく Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 29

31.

Teradata Labsと協力  複数データソースに対して統一的なアクセスなど、 次世代データ分析基盤に必要な機能の共同開発  テラデータの最新技術とヤフーが持つ多様なユース ケース及びビッグデータを用いた先行的な共同検証  UDA Product Advisory Councilに加盟。ビッグ データ関連の課題を討議しフィードバック Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 30

32.

アジェンダ 1. 2. 3. 4. Yahoo! JAPANのビッグデータ データプラットフォームの全体像 DWHの将来像 最後に Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 31

33.

DWHの将来像 Low concurrency, large volume batch queries QueryGrid TDCH S3-compatible Storage Hadoop Teradata Presto RDB RDB NoSQL High concurrency, small volume interactive queries and small batches Informatica Data Sources RDB RDB Exadata Hadoop 32

34.

求む DWHエンジニア!!! Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 33

35.

経験できること  大規模DWHの構築。膨大なデータ量&クエリ数と 格闘して経験値UP!  新しいコンセプトのDWHを作り上げるチャンス http://hr.yahoo.co.jp/job-info/career/0157/ ヤフー プラットフォーム開発エンジニア Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 検索 34

36.

Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 35