Embulkのお披露目の会では、Hulftも紹介されたようです。私はHulftは全くわかりませんが勘定系では100%のシェアがあるようです。すごい
HULFT-DataMagicの機能をみてEmbulkにあった方がよいなと思われるフィルタをまとめました。
参考にしたページはHulft-DataMagicのページです。詳細は元ページを確認してください。
機能は追加されるかもしれません。
プラグインの実装状況 2017/03/10 現在
項目名 | 説明 | 実現場所 | 実装 |
---|---|---|---|
マッチング | 都道府県名から都道府県コードを作成 | Filter | embulk-filter-join_file |
マージ機能(重複行排除) | 同じエントリを一つに集約 | Filter? | embulk-filter-distinct,unique |
出力振り分け | 抽出条件に沿って、OutputPluginをわける | Filter? | |
数値項目演算 | Inputで取り込んだ数値を演算し別の結果を作成 | Filter | embulk-filter-ruby_proc,calc |
データ抽出 | ある条件に適合するデータのみOutputへ | Filter | embulk-fitter-row |
項目入れ替え | A,B,Cの順番をC,B,Aに変換 | Filter? | embulk-filter-column |
項目結合 | 姓,名のカラムを結合して氏名カラムを作る | Filter | embulk-filter-concat |
全角・半角変換 | 半角カナを全角カナへ変換する | Filter | embulk-filter-icu4j |
ひらがな・カタカナ変換 | ひらがなをカタカナへ、その逆 | Filter | embulk-filter-icu4j |
日付演算 | 月末・月初計算、XX日後計算?? | Filter | |
時刻変換1 | Epoch timeをtimestampへ | Filter | embulk-filter-ruby_proc,timestamp_format |
- 項目の入れ替えは、Filterプラグインで実現可能か?
- 数値計算を実施した際に、計算結果を既存のカラムに更新できる?
- マージ(重複排除)はカラムのチェックサムをとって同じ値があるならスキップするイメージ?
- マッチング (コメントいただければ幸いです) @hiroysato
- データ抽出(grep) @toaru_giさん