Created
February 20, 2024 07:20
-
-
Save uchidama/af46504ed194db515c0ca2f4c76a7049 to your computer and use it in GitHub Desktop.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
''' | |
データセット関連の情報 | |
https://huggingface.co/datasets/graelo/wikipedia <- 日本語データセット読める | |
https://huggingface.co/datasets/wikipedia <- 日本語データセット読めない | |
https://dumps.wikimedia.org/jawiki/ | |
''' | |
''' | |
実行コマンド。実行時間のログをテキストに書いておく | |
# python3 wikipedia_en_load.py | tee wikipedia_en_load.txt | |
仮想環境の作成 | |
# python3.11 -m venv myenv | |
仮想環境をアクティベート | |
# source myenv/bin/activate | |
使用後は仮想環境をデアクティベート | |
# deactivate | |
''' | |
# datetime モジュールをインポート | |
from datetime import datetime | |
from datasets import load_dataset | |
def get_current_datetime_formatted(): | |
# 現在の日時を取得 | |
current_datetime = datetime.now() | |
# 日時を「年-月-日 時:分:秒」の形式に整形 | |
formatted_datetime = current_datetime.strftime('%Y-%m-%d %H:%M:%S') | |
# 整形した日時を表示 | |
return formatted_datetime | |
print("start:" + get_current_datetime_formatted()) | |
# データセットの保存先を外付けハードディスクにしているのでchache_dirを指定 | |
# wikipediaデータセットよりenダウンロード。25分くらいかかった | |
wiki_en = load_dataset("wikipedia", "20220301.en", cache_dir="/Volumes/DataSets/DataSets") | |
# graelo/wikipediaデータセットよりenダウンロード | |
graelo_wiki = load_dataset("graelo/wikipedia", "20230901.en", cache_dir="/Volumes/DataSets/DataSets") | |
print("end:" + get_current_datetime_formatted()) |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment