https://docs.confluent.io/cloud/current/topics/tableflow/overview.html
以下は、Confluent Cloud の公式ドキュメント「Tableflow の概要」ページの和訳と Markdown 形式でのまとめです📝 内容は 2025 年 9 月時点のもので、英語原文から適宜整理しています。
- Apache Kafka® トピックとスキーマを、Apache Iceberg™ または Delta Lake 形式のオープンテーブルとして、数クリックで表現可能にする Confluent Cloud のサービス (docs.confluent.io)。
- データ前処理、変換、CDC (Change Data Capture)、テーブルメタデータのカタログ公開、補修などを自動化。カスタムパイプラインの煩雑さとコスト、高エラーの問題を削減 (docs.confluent.io, Confluent)。
- Iceberg(GA:一般提供)
- Delta Lake(プレビュー提供)(docs.confluent.io, Confluent)
- Kafka トピックまたは Flink テーブルを自動で Iceberg または Delta テーブルとして永続化
- 自分のクラウドストレージ(BYOS)または Confluent 管理ストレージを使用可能
- 内蔵の Iceberg REST Catalog や、AWS Glue / Apache Polaris / Snowflake Open Catalog との統合に対応 (docs.confluent.io)
- 入力形式:Avro / JSON Schema / Protobuf を配慮。Confluent Schema Registry に基づきスキーマ進化を自動管理
- ファイル圧縮や小ファイル統合といったテーブル最適化も自動実行 (docs.confluent.io)
Avro/JSON/Protobuf 形式の Kafka データを Parquet ファイルに変換し、Iceberg/Delta フォーマットで永続化 (docs.confluent.io)
Schema Registry に基づき、フィールド追加や型幅の変更などを自動適用し、互換性を維持しながら進化させる (docs.confluent.io)
Kafka の CDC フィードを構造化して Iceberg/Delta テーブルに反映し、変更イベントをそのまま分析可能に (docs.confluent.io)
連続ストリーミングで生成される小規模ファイルを自動的に統合・削除し、読み取り性能を最適化 (docs.confluent.io, Confluent)
- 運用系データ(オペレーショナル)と分析系データ(アナリティクス)間の複雑なデータパイプラインを不要にし、
- Kafka のストリームから直接分析可能なテーブルを生成することで、エンジニアリングコストを削減。ストリーミングとバッチ処理の統合基盤を提供 (docs.confluent.io, Confluent)
- Confluent Cloud for Apache Flink を併用することで、Tableflow 前段でデータを変換(フィルタ/デデュプリケーション/PII マスキング/結合など)し、
- データ品質を高めて即時に分析可能な形で Kafka トピックに供給。分析までの遅延と手戻りを最小化 (docs.confluent.io, Confluent)
- Kafka トピックを Delta Lake テーブル としてストレージに永続化し、Databricks などから Read-only で外部クエリ可能 (docs.confluent.io)
- 現時点ではカタログ統合、アップサート、スキーマ進化などに制限あり(Append-only モード、スキーマ進化非対応など)(docs.confluent.io)
- Azure や Google Cloud プラットフォーム上の Confluent Cloud では非対応
- Delta Lake はプレビュー段階、アップサートやスキーマ進化、DLQ(失敗レコード)機能は未サポート
- BYOK クラスター(顧客自管理キー)やプライベートネットワーク構成では利用制限あり
- Iceberg カタログのみ対応(Delta + Unity Catalog は未対応)(docs.confluent.io)
- スキーマ未定義のトピックや DLQ(不正レコード処理)のサポートなし
- トピック時間単位(topic-hour):$0.10/topic・時間(Tableflow を有効化しているトピック毎に課金)
- データ処理量(GB-processed):$0.04/GB(初回マテリアライズ+圧縮処理)
- Delta Lake テーブルは GB-processed 課金対象外
- Confluent Managed Storage 使用時は、ストレージ保管量($0.029/GB・月)、リクエスト数, 転送料金 なども別途発生 (docs.confluent.io)
項目 | 内容 |
---|---|
目的 | Kafka トピックを Iceberg / Delta Lake テーブルとして自動化で永続化 |
対応フォーマット | Iceberg(GA)、Delta Lake(プレビュー) |
入力形式 | Avro, JSON Schema, Protobuf(Schema Registry 統合) |
自動化機能 | 型変換、スキーマ進化、CDC のテーブル化、ファイル圧縮・最適化 |
カタログ統合 | Iceberg REST、AWS Glue、Apache Polaris、Snowflake Open Catalog |
ストレージ | 自前のストレージ or Confluent 管理ストレージ |
Flink 連携 | ストリーム処理前に変換・クレンジング/Tableflow に連携可能 |
制限事項 | Delta の機能制限、非対応クラウド、スキーマ未設定トピック等に制限 |
料金 | topic-hour: $0.10、GB-processed: $0.04(Delta 除く)、CMS ストレージ課金あり |