CloudWatch Logs + Spark SQL で Rails ActiveJob の実行時間を集計してみた
Rails には主にバックグラウンドで処理を実行できる ActiveJob と言う機能がありますが、先日とあるプロジェクトで、各ジョブの実行時間を集計する必要が…
続きを読む
CloudWatch Logs + Spark SQL で Rails ActiveJob の実行時間を集計してみた
Rails には主にバックグラウンドで処理を実行できる ActiveJob と言う機能がありますが、先日とあるプロジェクトで、各ジョブの実行時間を集計する必要が…
(前回の記事で「軽く書いていきます」と言いつつ長文を書いてしまったので、今度こそ軽くまとめたいと思います。) regex_replace の説明(本題) 基本 …
Spark 2.x では、 DataFrame を JSON に書き出す際、値が null のデータは失われます。 次のコードを見てみましょう: case cl…
このようなデータベースの種類を分ける概念は一般的にはないと思われますが、「Spark SQL」で開発しているとまさに動的だなぁという思いが湧いてくることが多々あ…
いまいち使いどころを理解できていなかったScalaのOptionですが、データのマージ処理を実装した際に、割と理解しやすいコードが書けたと感じましたのでざっくり…
今とあるプロジェクトで、Amazon EMRを使って少し大きめなボリュームのデータ処理をしているのですが、その中のあるデータの中身をWebフォームからニアリアル…
はじめに Apache Spark では、御存知の通り大規模なデータを高速に扱う事が出来ます。大規模データ処理のインフラという観点では、速度のチューニングのため…