Skip to content

Instantly share code, notes, and snippets.

@hivefans
Forked from hiroyuki-sato/gist:c3996c03cfb8e554d6c8
Last active March 17, 2020 02:03
Show Gist options
  • Select an option

  • Save hivefans/4d1aba8f2e554e95ddc7 to your computer and use it in GitHub Desktop.

Select an option

Save hivefans/4d1aba8f2e554e95ddc7 to your computer and use it in GitHub Desktop.
Embulk how to |-|{"files":{"gistfile1.md":{"env":"plain"}},"tag":"bigdata"}

移動しました

Embulk

Embulkってなに?ということから、Embulkのプラグインを開発するところまでをまとめたページです。

Embulkとは

古橋さんブログから EmbulkはFluentdのバッチ処理版のようなツールで、CSVデータやアクセスログなどの構造化データを高い信頼性で転送することができるコンパクトなツールです。

並列データ転送ツール『Embulk』リリース!(古橋さんブログ2)

トレジャーデータブログもあわせて読みましょう。

Embulkを使ってみる

Treasure Dataの新データ転送ツールEmbulkを触ってみたが詳しいです。

様々なプラグイン

既に色々なプラグインが開発されています。

Embulk 0.4.0リリースで、プラグイン構造が代わり新しいgemは、Embulk-{Input|Output|Filter}-XXXという名前で作成するようになりました。ここに記載しているGemは0.3.2以前に作られたものです。ご注意ください。

最新のパッケージはこちらを参照してください。 Search embulk packages in Rubygems

Input プラグイン

Output プラグイン

Filter プラグイン

プラグインの開発

自分でプラグインを書こうと思っているひとはこのあたりを参考にしましょう。なおEmbulk 0.4から、プラグインジェネレータが利用できるようになるようです。

内部構成

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment