2013-02-01から1ヶ月間の記事一覧

LTSV を Apache Pig で読むための UDF がほぼできたよ

LTSV を Apache Pig で読むための UDF がほぼできました。 ソースリポジトリ (BitBucket) JAR ファイル 作り始めた時点から追加した機能は、マップを作らずに値を直接フィールドに読み込めるようにしたことです。入力データ (列区切りはタブ): host:host1.ex…

Pig のドキュメントの日本語訳が制御構造のとこまで行きました

Pig のドキュメントの日本語訳が制御構造のとこまで行きました。 制御構造 - Pig 原文の訂正は下記の issue にあります。結構たくさん挙がりました。あんまり面白くない箇所だからか。 Pig-3158 0.10 のブランチを訳してるんだけど、このペースだと完了前に …

Apache Pig で LTSV をロードするための UDF を書きました

2013-02-08 くらいから LTSV というログ用のファイルフォーマットが話題になっています (id:naoya:20130209:1360381374) 。 TSV の各列を「:」で構成するというだけのものですが、 awk 等のプレーンなツールで処理しやすい上に、変更に強く、可読性もそこそ…

CentOS 6 で QJM ベースの NameNode HA + 自動フェイルオーバを構成した時のメモ

Hadoop HDFS の NameNode は長い間単一障害点だったのですが、 CDH 4 から、 NFS 上の edits ログを共有する形でのアクティブ/スタンバイ構成が可能になりました。しかし、フェイルオーバが中途半端になると共有 edits ログが破壊されるとか、 NFS が新しい…