nsivabalan · December 30, 2020 19:42
diff --git a/spark submit command b/spark submit command
 spark-submit \
 --packages org.apache.spark:spark-avro_2.11:2.4.0 \
 --conf spark.task.cpus=1 \
 --conf spark.executor.cores=1 \
 --conf spark.task.maxFailures=100 \
 --conf spark.memory.fraction=0.4  \
 --conf spark.rdd.compress=true  \
 --conf spark.kryoserializer.buffer.max=2000m \
 --conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
 --conf spark.memory.storageFraction=0.1 \
 --conf spark.shuffle.service.enabled=true  \
 --conf spark.sql.hive.convertMetastoreParquet=false  \
 --conf spark.driver.maxResultSize=12g \
 --conf spark.executor.heartbeatInterval=120s \
 --conf spark.network.timeout=600s \
 --conf spark.yarn.max.executor.failures=10 \
 --conf spark.sql.catalogImplementation=hive \
 --class org.apache.hudi.integ.testsuite.HoodieTestSuiteJob \
 /home/sivabala/test_suite/hudi-integ-test-bundle-0.6.1-SNAPSHOT.jar \
 --source-ordering-field test_suite_source_ordering_field \
 --use-deltastreamer \
 --target-base-path /tmp/test_suite_trial1/output \
 --input-base-path /tmp/test_suite_trial1/input \
 --target-table table1 \
 --props file:/home/sivabala/test_suite/prod_test.properties \
 --schemaprovider-class org.apache.hudi.integ.testsuite.schema.TestSuiteFileBasedSchemaProvider \
 --source-class org.apache.hudi.utilities.sources.AvroDFSSource \
 --input-file-size 125829120 \
 --workload-yaml-path file:/home/sivabala/test_suite/complex-dag-cow.yaml \
 --workload-generator-classname org.apache.hudi.integ.testsuite.dag.WorkflowDagGenerator \
 --table-type COPY_ON_WRITE \
 --compact-scheduling-minshare 1 
diff --git a/test.properties b/test.properties

 hoodie.insert.shuffle.parallelism=100
 hoodie.upsert.shuffle.parallelism=100
 hoodie.bulkinsert.shuffle.parallelism=100

 hoodie.deltastreamer.source.test.num_partitions=100
 hoodie.deltastreamer.source.test.datagen.use_rocksdb_for_storing_existing_keys=false
 hoodie.deltastreamer.source.test.max_unique_records=100000000
 hoodie.embed.timeline.server=false
 hoodie.deltastreamer.source.input.selector=org.apache.hudi.integ.testsuite.helpers.DFSTestSuitePathSelector

 hoodie.insert.shuffle.parallelism=100
 hoodie.upsert.shuffle.parallelism=100
 hoodie.bulkinsert.shuffle.parallelism=100

 hoodie.deltastreamer.source.input.selector=org.apache.hudi.integ.testsuite.helpers.DFSTestSuitePathSelector
 hoodie.datasource.hive_sync.skip_ro_suffix=true

 hoodie.datasource.write.recordkey.field=_row_key
 hoodie.datasource.write.keygenerator.class=org.apache.hudi.keygen.TimestampBasedKeyGenerator
 hoodie.datasource.write.partitionpath.field=timestamp

 hoodie.deltastreamer.source.dfs.root=/user/hive/warehouse/hudi-integ-test-suite/input
 hoodie.deltastreamer.schemaprovider.target.schema.file=file:/var/hoodie/ws/docker/demo/config/test-suite/source.avsc
 hoodie.deltastreamer.schemaprovider.source.schema.file=file:/var/hoodie/ws/docker/demo/config/test-suite/source.avsc
 hoodie.deltastreamer.keygen.timebased.timestamp.type=UNIX_TIMESTAMP
 hoodie.deltastreamer.keygen.timebased.output.dateformat=yyyy/MM/dd

 hoodie.datasource.hive_sync.jdbcurl=jdbc:hive2://hiveserver:10000/
 hoodie.datasource.hive_sync.database=testdb
 hoodie.datasource.hive_sync.table=table1
 hoodie.datasource.hive_sync.assume_date_partitioning=false
 hoodie.datasource.hive_sync.partition_fields=_hoodie_partition_path
 hoodie.datasource.hive_sync.partition_extractor_class=org.apache.hudi.hive.SlashEncodedDayPartitionValueExtractor
	spark-submit \
	--packages org.apache.spark:spark-avro_2.11:2.4.0 \
	--conf spark.task.cpus=1 \
	--conf spark.executor.cores=1 \
	--conf spark.task.maxFailures=100 \
	--conf spark.memory.fraction=0.4 \
	--conf spark.rdd.compress=true \
	--conf spark.kryoserializer.buffer.max=2000m \
	--conf spark.serializer=org.apache.spark.serializer.KryoSerializer \
	--conf spark.memory.storageFraction=0.1 \
	--conf spark.shuffle.service.enabled=true \
	--conf spark.sql.hive.convertMetastoreParquet=false \
	--conf spark.driver.maxResultSize=12g \
	--conf spark.executor.heartbeatInterval=120s \
	--conf spark.network.timeout=600s \
	--conf spark.yarn.max.executor.failures=10 \
	--conf spark.sql.catalogImplementation=hive \
	--class org.apache.hudi.integ.testsuite.HoodieTestSuiteJob \
	/home/sivabala/test_suite/hudi-integ-test-bundle-0.6.1-SNAPSHOT.jar \
	--source-ordering-field test_suite_source_ordering_field \
	--use-deltastreamer \
	--target-base-path /tmp/test_suite_trial1/output \
	--input-base-path /tmp/test_suite_trial1/input \
	--target-table table1 \
	--props file:/home/sivabala/test_suite/prod_test.properties \
	--schemaprovider-class org.apache.hudi.integ.testsuite.schema.TestSuiteFileBasedSchemaProvider \
	--source-class org.apache.hudi.utilities.sources.AvroDFSSource \
	--input-file-size 125829120 \
	--workload-yaml-path file:/home/sivabala/test_suite/complex-dag-cow.yaml \
	--workload-generator-classname org.apache.hudi.integ.testsuite.dag.WorkflowDagGenerator \
	--table-type COPY_ON_WRITE \
	--compact-scheduling-minshare 1

	hoodie.insert.shuffle.parallelism=100
	hoodie.upsert.shuffle.parallelism=100
	hoodie.bulkinsert.shuffle.parallelism=100

	hoodie.deltastreamer.source.test.num_partitions=100
	hoodie.deltastreamer.source.test.datagen.use_rocksdb_for_storing_existing_keys=false
	hoodie.deltastreamer.source.test.max_unique_records=100000000
	hoodie.embed.timeline.server=false
	hoodie.deltastreamer.source.input.selector=org.apache.hudi.integ.testsuite.helpers.DFSTestSuitePathSelector

	hoodie.insert.shuffle.parallelism=100
	hoodie.upsert.shuffle.parallelism=100
	hoodie.bulkinsert.shuffle.parallelism=100

	hoodie.deltastreamer.source.input.selector=org.apache.hudi.integ.testsuite.helpers.DFSTestSuitePathSelector
	hoodie.datasource.hive_sync.skip_ro_suffix=true

	hoodie.datasource.write.recordkey.field=_row_key
	hoodie.datasource.write.keygenerator.class=org.apache.hudi.keygen.TimestampBasedKeyGenerator
	hoodie.datasource.write.partitionpath.field=timestamp

	hoodie.deltastreamer.source.dfs.root=/user/hive/warehouse/hudi-integ-test-suite/input
	hoodie.deltastreamer.schemaprovider.target.schema.file=file:/var/hoodie/ws/docker/demo/config/test-suite/source.avsc
	hoodie.deltastreamer.schemaprovider.source.schema.file=file:/var/hoodie/ws/docker/demo/config/test-suite/source.avsc
	hoodie.deltastreamer.keygen.timebased.timestamp.type=UNIX_TIMESTAMP
	hoodie.deltastreamer.keygen.timebased.output.dateformat=yyyy/MM/dd

	hoodie.datasource.hive_sync.jdbcurl=jdbc:hive2://hiveserver:10000/
	hoodie.datasource.hive_sync.database=testdb
	hoodie.datasource.hive_sync.table=table1
	hoodie.datasource.hive_sync.assume_date_partitioning=false
	hoodie.datasource.hive_sync.partition_fields=_hoodie_partition_path
	hoodie.datasource.hive_sync.partition_extractor_class=org.apache.hudi.hive.SlashEncodedDayPartitionValueExtractor