fauxneticien · September 17, 2023 02:09
diff --git a/librilight10h_tsv.py b/librilight10h_tsv.py
 import torchaudio

 import pandas as pd

 from pathlib import Path
 from tqdm import tqdm

 llight10h =  torchaudio.datasets.LibriLightLimited(root="tmp/", subset="10h", download=True)

 manifest_rows = []

 for (audio_samples, sr, text, spk_id, chap_id, utt_id) in tqdm(llight10h):
    filename = f"{spk_id}-{chap_id}-{utt_id}.wav"

    torchaudio.save(
        str(Path("data/LibriLight10h/clips/") / filename),
        audio_samples,
        sr
    )

    manifest_rows.append({'path':"clips/" + filename, 'text': text.lower()})

 manifest_df = pd.DataFrame(manifest_rows)
 manifest_df
 manifest_df.to_csv("data/LibriLight10h/_all.tsv", sep="\t", index=False)
	import torchaudio

	import pandas as pd

	from pathlib import Path
	from tqdm import tqdm

	llight10h = torchaudio.datasets.LibriLightLimited(root="tmp/", subset="10h", download=True)

	manifest_rows = []

	for (audio_samples, sr, text, spk_id, chap_id, utt_id) in tqdm(llight10h):
	filename = f"{spk_id}-{chap_id}-{utt_id}.wav"

	torchaudio.save(
	str(Path("data/LibriLight10h/clips/") / filename),
	audio_samples,
	sr
	)

	manifest_rows.append({'path':"clips/" + filename, 'text': text.lower()})

	manifest_df = pd.DataFrame(manifest_rows)
	manifest_df
	manifest_df.to_csv("data/LibriLight10h/_all.tsv", sep="\t", index=False)