2013-02-01から1ヶ月間の記事一覧
LTSV を Apache Pig で読むための UDF がほぼできました。 ソースリポジトリ (BitBucket) JAR ファイル 作り始めた時点から追加した機能は、マップを作らずに値を直接フィールドに読み込めるようにしたことです。入力データ (列区切りはタブ): host:host1.ex…
Pig のドキュメントの日本語訳が制御構造のとこまで行きました。 制御構造 - Pig 原文の訂正は下記の issue にあります。結構たくさん挙がりました。あんまり面白くない箇所だからか。 Pig-3158 0.10 のブランチを訳してるんだけど、このペースだと完了前に …
2013-02-08 くらいから LTSV というログ用のファイルフォーマットが話題になっています (id:naoya:20130209:1360381374) 。 TSV の各列を「:」で構成するというだけのものですが、 awk 等のプレーンなツールで処理しやすい上に、変更に強く、可読性もそこそ…
Hadoop HDFS の NameNode は長い間単一障害点だったのですが、 CDH 4 から、 NFS 上の edits ログを共有する形でのアクティブ/スタンバイ構成が可能になりました。しかし、フェイルオーバが中途半端になると共有 edits ログが破壊されるとか、 NFS が新しい…