| データセット | LLM-jp-13B-v1.0 | weblab-10b | PLaMo-13B | Stockmark-13b | Japanese StableLM Alpha | 備考 |
|---|---|---|---|---|---|---|
| mc4 | ◯ | ◯ | ◯ | ◯ | ◯ | |
| wikipedia | ◯ | ◯ | ◯ | ◯ | StableLMのページからはdumps.wikipediaにリンクされてる | |
| pile | ◯ | ◯ | ||||
| RedPajama | ◯ | ◯ | ||||
| cc100 | ◯ | ◯ | ||||
| the stack | ◯ | |||||
| OSCAR | ◯ | |||||
| llm-jp-corpus | ◯ | 上記データセットの詰め合わせ | ||||
| Stockmark Web Corpus | ◯ | 非公開Stockmark独自データセット | ||||
| 日本語特許 | ◯ | おそらくStockmark独自データセット |
Last active
February 19, 2024 05:36
-
-
Save uchidama/d31c6db8ea1a4696109745f63bbf2320 to your computer and use it in GitHub Desktop.
データセット
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment