2017-01-29から1日間の記事一覧

SparkのRDDとDataFrameでそれぞれwordcount

Sparkでデータ処理プログラムを書くためのAPIには、RDDとDataFrameの二種類がある。2つのAPIを用いてwordcountを書いてみる。wordcountは、テキスト中の単語の出現回数を数えるプログラムであり、分散データ処理の必修課題である。RDDは低レベルなAPIで、デ…