Hadoop

Apache Pig で 縦持ち→横持ち, 横持ち→縦持ちの変換

グループごとの列にデータをサマリする縦持ち→横持ち変換とか、その逆の横持ち→縦持ち変換とか、いやな感じの処理ですが、ちょくちょく出くわします。これを Pig でやっつけるにはどうすれば良いか。 縦持ち → 横持ち こんな TSV ファイルがあったとします。…

LTSV を Apache Pig で読むための UDF がほぼできたよ

LTSV を Apache Pig で読むための UDF がほぼできました。 ソースリポジトリ (BitBucket) JAR ファイル 作り始めた時点から追加した機能は、マップを作らずに値を直接フィールドに読み込めるようにしたことです。入力データ (列区切りはタブ): host:host1.ex…

Pig のドキュメントの日本語訳が制御構造のとこまで行きました

Pig のドキュメントの日本語訳が制御構造のとこまで行きました。 制御構造 - Pig 原文の訂正は下記の issue にあります。結構たくさん挙がりました。あんまり面白くない箇所だからか。 Pig-3158 0.10 のブランチを訳してるんだけど、このペースだと完了前に …

Apache Pig で LTSV をロードするための UDF を書きました

2013-02-08 くらいから LTSV というログ用のファイルフォーマットが話題になっています (id:naoya:20130209:1360381374) 。 TSV の各列を「:」で構成するというだけのものですが、 awk 等のプレーンなツールで処理しやすい上に、変更に強く、可読性もそこそ…

CentOS 6 で QJM ベースの NameNode HA + 自動フェイルオーバを構成した時のメモ

Hadoop HDFS の NameNode は長い間単一障害点だったのですが、 CDH 4 から、 NFS 上の edits ログを共有する形でのアクティブ/スタンバイ構成が可能になりました。しかし、フェイルオーバが中途半端になると共有 edits ログが破壊されるとか、 NFS が新しい…

Pig のドキュメントの日本語訳: ユーザ定義関数の章まで行ったよ

Pig のドキュメントの日本語訳、 ユーザ定義関数の章まで行きました。原文へのパッチは下記に上げました。日本語訳はパッチ当てたものと同等です。 https://issues.apache.org/jira/browse/PIG-3112 桜が咲くまでに終わるか。

Pig の関数の分類

Pig 0.10.0 Documentation - User Defined Functions より。 Eval Functions (評価関数?) Simple Eval Functions (単純評価関数?): ex. FLOOR, TOTUPLE Aggregate Functions (集約関数): ex. COUNT, MAX Filter Functions (フィルタ関数): ex. IsEmpty Loa…

Pig のドキュメントの日本語訳

Pig のドキュメントを日本語訳しています。牛の歩みですが、ようやく組込み関数の章がひと通り最後まで行き着きました。リポジトリは GitHub に置いています。原文の方には致命的な間違いが結構平気で残っています。翻訳と並行して、いくつか修正してもらい…