crypdick · August 12, 2025 20:49
diff --git a/count_parquet_rows.py b/count_parquet_rows.py
 import pyarrow.dataset as ds

 def count_parquet_rows(dataset_path: str) -> int:
    """
    Count the number of rows in a parquet file without reading the data into memory.
    
    https://stackoverflow.com/a/79118602/4212158
    """
    dataset = ds.dataset(dataset_path, format="parquet")
    row_count = sum(row_group.num_rows for fragment in dataset.get_fragments() for row_group in fragment.row_groups)
    return row_count
	import pyarrow.dataset as ds

	def count_parquet_rows(dataset_path: str) -> int:
	"""
	Count the number of rows in a parquet file without reading the data into memory.

	https://stackoverflow.com/a/79118602/4212158
	"""
	dataset = ds.dataset(dataset_path, format="parquet")
	row_count = sum(row_group.num_rows for fragment in dataset.get_fragments() for row_group in fragment.row_groups)
	return row_count
No results found