読者です 読者をやめる 読者になる 読者になる

heki1224の適当な日記

技術知識を忘れないように書き留めておくブログ

Cloudera World Tokyoに行ってきました

勉強会 Hadoop

11月7日(水)にCloudera World Tokyoに行ってきました。
Cloudera World Tokyo | Cloudera Japan

予定があって午前中の基調講演だけ聴いてきました。

途中のブレイクセッションでNTTデータ濱野さんという方がクイズ大会を開いてましたw
ちなみに僕は最後の10人くらいまで勝ち上がって、Hadoop World 2012グッズをもらいました。

以下、当日メモった内容など書いていきます。
===
ご挨拶
「Big Data:六つの誤解」
代表取締役社長 ジュセッペ小林
六つの誤解

1. Big = Bigger Data
→今まさに成長しているデータ

2. Data = データそのものよりも、その因果関係を知りたい
→「風が吹けば、桶屋が儲かる」と同じで、出来事よりも因果関係。

3. 使用目的 = 最初に考えない
(日本的考え)
目的を考えてから、その目的に合うデータを入れる。
(欧米的考え)=Hadoopの考え
まずデータを入れておいて、使いたいときに取り出す。

4. 解析 = 大雑把でいい
集めれば集めるほど価値が出る
→詳細な解析はDWHでやりましょう

5. バッチ処理 = バッチもリアルタイムも
Big Dataだからバッチという固定観念はもうないよ

6. データ・サイエンス = 情熱
外の人には分からない。人任せにしない。
===
===
基調講演
「ビッグデータ及びそれを支えるCDHの未来展望』
米国Cloudera社 共同創業者兼最高技術責任者(CTO) Dr. Amr Awadallah, Ph.D.
Apache Hadoop: The Platform for Big Data

データシステムにまつわる問題点
1. ETLへのデータ転送がスケールしない
2. 生データにアクセスできない
3. アーカイブすること=データの死を早める

Hadoopによる解決策
1. Scalable Throughput for ETL &Aggregation(ETL Offload)
→ETLに早くロードできる
2. Data Exploration & Advanced Analytics
→生データにアクセスできる
3. Keep Data Alive For Ever
→データを生かせる

Hadoopのいいところ:素早さ、柔軟さ
RDBMS Read is Fast, Standards/Governance
Hadoop Load is Fast, Flexibility/Agility

Scalability:スケーラブルソフトウェア開発
自動でスケールできる

Economics:Return on Byte
データから得られる利益とデータ保存のコストのバランス
→データ保存のコストを劇的に下げる事でデータから得られる利益を最大化する
===
===
基調講演2
「Clouderaのエコシステム」
米国Cloudera社 Vice President, Business and Corporate Development Tim Stevens
Cloudera Overview

Cloudera最高!
CDH使ってね!
===