Skip to content

Instantly share code, notes, and snippets.

@kenzo0107
Last active September 12, 2025 02:23
Show Gist options
  • Save kenzo0107/43a526b569f0a1b8b222f1b2a62c9d24 to your computer and use it in GitHub Desktop.
Save kenzo0107/43a526b569f0a1b8b222f1b2a62c9d24 to your computer and use it in GitHub Desktop.

https://docs.confluent.io/cloud/current/topics/tableflow/overview.html

以下は、Confluent Cloud の公式ドキュメント「Tableflow の概要」ページの和訳と Markdown 形式でのまとめです📝 内容は 2025 年 9 月時点のもので、英語原文から適宜整理しています。


Tableflow とは (Overview)

  • Apache Kafka® トピックとスキーマを、Apache Iceberg™ または Delta Lake 形式のオープンテーブルとして、数クリックで表現可能にする Confluent Cloud のサービス (docs.confluent.io)。
  • データ前処理、変換、CDC (Change Data Capture)、テーブルメタデータのカタログ公開、補修などを自動化。カスタムパイプラインの煩雑さとコスト、高エラーの問題を削減 (docs.confluent.io, Confluent)。

サポートされるテーブル形式

特長

  • Kafka トピックまたは Flink テーブルを自動で Iceberg または Delta テーブルとして永続化
  • 自分のクラウドストレージ(BYOS)または Confluent 管理ストレージを使用可能
  • 内蔵の Iceberg REST Catalog や、AWS Glue / Apache Polaris / Snowflake Open Catalog との統合に対応 (docs.confluent.io)
  • 入力形式:Avro / JSON Schema / Protobuf を配慮。Confluent Schema Registry に基づきスキーマ進化を自動管理
  • ファイル圧縮や小ファイル統合といったテーブル最適化も自動実行 (docs.confluent.io)

自動化されるデータ処理の主要要素

型変換とパーティション化(Type mapping)

Avro/JSON/Protobuf 形式の Kafka データを Parquet ファイルに変換し、Iceberg/Delta フォーマットで永続化 (docs.confluent.io)

スキーマ進化(Schema evolution)

Schema Registry に基づき、フィールド追加や型幅の変更などを自動適用し、互換性を維持しながら進化させる (docs.confluent.io)

CDC ログのテーブル化(CDC materialization)

Kafka の CDC フィードを構造化して Iceberg/Delta テーブルに反映し、変更イベントをそのまま分析可能に (docs.confluent.io)

テーブルメンテナンスと最適化(Table maintenance)

連続ストリーミングで生成される小規模ファイルを自動的に統合・削除し、読み取り性能を最適化 (docs.confluent.io, Confluent)


なぜ Tableflow を使うべきか(Why Tableflow?)

  • 運用系データ(オペレーショナル)と分析系データ(アナリティクス)間の複雑なデータパイプラインを不要にし、
  • Kafka のストリームから直接分析可能なテーブルを生成することで、エンジニアリングコストを削減。ストリーミングとバッチ処理の統合基盤を提供 (docs.confluent.io, Confluent)

Flink によるシフトレフト処理(Shift-left stream processing)

  • Confluent Cloud for Apache Flink を併用することで、Tableflow 前段でデータを変換(フィルタ/デデュプリケーション/PII マスキング/結合など)し、
  • データ品質を高めて即時に分析可能な形で Kafka トピックに供給。分析までの遅延と手戻りを最小化 (docs.confluent.io, Confluent)

Delta Lake テーブルへの対応(Delta Lake のプレビュー)

  • Kafka トピックを Delta Lake テーブル としてストレージに永続化し、Databricks などから Read-only で外部クエリ可能 (docs.confluent.io)
  • 現時点ではカタログ統合、アップサート、スキーマ進化などに制限あり(Append-only モード、スキーマ進化非対応など)(docs.confluent.io)

現在の制限事項(Limitations)

  • Azure や Google Cloud プラットフォーム上の Confluent Cloud では非対応
  • Delta Lake はプレビュー段階、アップサートやスキーマ進化、DLQ(失敗レコード)機能は未サポート
  • BYOK クラスター(顧客自管理キー)やプライベートネットワーク構成では利用制限あり
  • Iceberg カタログのみ対応(Delta + Unity Catalog は未対応)(docs.confluent.io)
  • スキーマ未定義のトピックや DLQ(不正レコード処理)のサポートなし

料金体系(Billing)

  • トピック時間単位(topic-hour):$0.10/topic・時間(Tableflow を有効化しているトピック毎に課金)
  • データ処理量(GB-processed):$0.04/GB(初回マテリアライズ+圧縮処理)
  • Delta Lake テーブルは GB-processed 課金対象外
  • Confluent Managed Storage 使用時は、ストレージ保管量($0.029/GB・月)、リクエスト数, 転送料金 なども別途発生 (docs.confluent.io)

まとめ表 (Markdown)

項目 内容
目的 Kafka トピックを Iceberg / Delta Lake テーブルとして自動化で永続化
対応フォーマット Iceberg(GA)、Delta Lake(プレビュー)
入力形式 Avro, JSON Schema, Protobuf(Schema Registry 統合)
自動化機能 型変換、スキーマ進化、CDC のテーブル化、ファイル圧縮・最適化
カタログ統合 Iceberg REST、AWS Glue、Apache Polaris、Snowflake Open Catalog
ストレージ 自前のストレージ or Confluent 管理ストレージ
Flink 連携 ストリーム処理前に変換・クレンジング/Tableflow に連携可能
制限事項 Delta の機能制限、非対応クラウド、スキーマ未設定トピック等に制限
料金 topic-hour: $0.10、GB-processed: $0.04(Delta 除く)、CMS ストレージ課金あり

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment