medvedev · January 6, 2025 13:49
diff --git a/count.py b/count.py
 from datasets import load_dataset
 import pandas as pd

 REPO_ID = 'slava-medvedev/zelensky-speeches'

 dataset = load_dataset(REPO_ID, split="train", cache_dir="./cache")

 df = dataset.to_pandas()
 df = df[df['lang'] == 'uk']
 df['місяць'] = pd.to_datetime(df['date'], unit='s').dt.strftime('%y-%m')
 texts_str = df['full_text'].str
 df['незламно'] = texts_str.count('незламн')
 df['потужно'] = texts_str.count('потужн')
 result = df.groupby('місяць')[['незламно', 'потужно']].sum().reset_index()
 result.to_csv('output.csv', index=False)
	from datasets import load_dataset
	import pandas as pd

	REPO_ID = 'slava-medvedev/zelensky-speeches'

	dataset = load_dataset(REPO_ID, split="train", cache_dir="./cache")

	df = dataset.to_pandas()
	df = df[df['lang'] == 'uk']
	df['місяць'] = pd.to_datetime(df['date'], unit='s').dt.strftime('%y-%m')
	texts_str = df['full_text'].str
	df['незламно'] = texts_str.count('незламн')
	df['потужно'] = texts_str.count('потужн')
	result = df.groupby('місяць')[['незламно', 'потужно']].sum().reset_index()
	result.to_csv('output.csv', index=False)
No results found