heki1224の適当な日記

技術知識を忘れないように書き留めておくブログ

Hadoop Conference Japan 2013 Winterに行ってきました その1

昨日、東京ビッグサイトで行われた「Hadoop Conference Japan 2013 Winter」に行ってきました。
以下、もろもろ書いてきます。あくまで主観ですが。
その2はこちら

全体的な感想

・参加者はスーツを着ていらっしゃる方が比較的多かった。(6割くらい)
 →実際に手を動かして開発する人というよりも、その上のマネージャー層が来ていたから?
・圧倒的に男性。女性は両手で余るくらい。

当日メモ(午前)

ご挨拶・Hadoopを取り巻く環境:日本Hadoopユーザー会, 濱野 賢一朗 (NTTデータ

●アンケート調査の集計結果発表
Hadoopの利用経験
 なし 40.7%
 3ヶ月未満:15.8%

●利用バージョン・ディストリビューション
 CDH3が一番多い。その次はCDH4 。
 まだまだ0.20系の割合が高い。
  →利用予定者はバージョンが決まっていない

●利用しているエコシステム
Hive:約39%
HBase::約25%

●Doung Cutting氏からのビデオメッセージ
・最初はバッチ処理から始まった MapReduce
・バッチ処理からオンラインKVSに HBase
Googleが発表した論文をHadoopに取り込んでるよ
  2010 Dremel/F1 → impala (online query)
  2012 spanner → ? (transacction)

LINEのHBaseを利用した大規模なメッセージストレージ:中村 俊介(NHN Japan)

http://www.slideshare.net/naverjapan/storage-infrastructure-using-hbase-behind-line-messages

●正月の負荷(HBaseの1ノード)
→平時の約3倍。
→2ヶ月前からインフラ準備。

●LINEのアプリ要件
→早い
→落ちない

●LINEで使うストレージの要件
→HA
 →データロストしない
 →レイテンシが低い
 →スケールアウトが簡単
 →スキーマが柔軟
 →一貫性の保証

●HBaseを選んだ理由
・大量データを低いレイテンシで
・リニアにスケールする
・オペレーションコストが低い
 →レプリケーションが最初から
 →フェールオーバーが自動
・データモデルがアプリ予見にフィットしている
トラフィック 100億行/日

●HBaseのいいところ
・データロストがない
・パフォーマンスがいい
 書き込み 1ms
 読み込み 1-10ms

●事例紹介
・IDCオンライン移行
(方法)
 1. アプリケーションで移行先にも書く
 2. replication & bulk migration
  →LINE HBase Replicator
   Pull型のレプリケーション
   HLOGを読み込んで、Pullする。
  →Bulk migration
   各リージョンサーバのファイルをスキャンして
   割り当てる

・NN failover
(過去)
 DRDB + VIP + Pacemaker
  →障害発生:ネットワーク分断
(現在)
 差分rsync + /etc/hosts書き換え

・LINEでの安定化方法
 Case1 Too many HLogs
 ・リージョンバランシングを考える
 ・周期的にフラッシュする

 Case2 Hotspot対策
 ・スキーマ設計をちゃんとやる
 ・Hotspotだけのリージョンを作る

 Case3 META region workload isolation
 METAデータを取得する処理が重くなるよ
 ・METAテーブルだけのリージョンを作る
 ・METAテーブルをダンプしておく

Hadoop meets Cloud with Multi-tenancy: 太田 一樹(Treasure Data)

http://www.slideshare.net/treasure-data/hadoop-meets-cloud-with-multitenancy-16107610

アーキテクチャ
AWS S3
→StorageとComputeを分離

Hadoopをシェアしている
→4DCに処理を分散
 →JobSchedulerの上にGlobalJobSchedulerを作ったよ
→どのデータがどのDCで処理されているかはわからない