第2回初心者向け分散処理勉強会で話したよ

第2回初心者向け分散処理勉強会 (鹿島さんまとめ)に参加しました。

Pig に LTSV を食わせられるようにしたよ (Slideshare)、という話をしました。

鹿島さんが発表した Dremel について。でかいデータセットSQL 的なクエリ言語を投げて集計する Google 内部の基盤です。集計するのに MapReduce + Hive (的なもの) が非効率的だというのは確かだから、なるほど納得できました。その後、 Dremel を背後に持つ BigQuery のホワイトペーパーを読んだ限りでは、大きなデータの結合はできないとのこと。マージジョインがサポートされてないのかな。