Skip to content

Instantly share code, notes, and snippets.

@uchidama
Last active February 19, 2024 05:36
Show Gist options
  • Save uchidama/d31c6db8ea1a4696109745f63bbf2320 to your computer and use it in GitHub Desktop.
Save uchidama/d31c6db8ea1a4696109745f63bbf2320 to your computer and use it in GitHub Desktop.
データセット

フルスクラッチ事前学習の日本語大規模言語モデル5種で使われているデータセット

データセット LLM-jp-13B-v1.0 weblab-10b PLaMo-13B Stockmark-13b Japanese StableLM Alpha 備考
mc4
wikipedia StableLMのページからはdumps.wikipediaにリンクされてる
pile
RedPajama
cc100
the stack
OSCAR
llm-jp-corpus 上記データセットの詰め合わせ
Stockmark Web Corpus 非公開Stockmark独自データセット
日本語特許 おそらくStockmark独自データセット
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment