Skip to content

Instantly share code, notes, and snippets.

@inspirit941
Created January 18, 2020 13:30
Show Gist options
  • Save inspirit941/2c0cb2096487c6ecf352a4f713dc31d7 to your computer and use it in GitHub Desktop.
Save inspirit941/2c0cb2096487c6ecf352a4f713dc31d7 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import glob"
]
},
{
"cell_type": "code",
"execution_count": 3,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"['Untitled.ipynb', 'news_sample.hdf5']"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"glob.glob(\"*\")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": 64,
"metadata": {},
"outputs": [],
"source": [
"import tokenization\n",
"import json\n",
"tokenizer = tokenization.FullTokenizer(vocab_file=\"../models/345k/vocab.txt\", do_lower_case=False)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "code",
"execution_count": 94,
"metadata": {
"scrolled": true
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"Keys: <KeysViewHDF5 ['category']>\n",
"카테고리 개수: 54\n",
"카테고리 0 의 샘플 데이터 길이\n",
"825 273\n",
"카테고리 1 의 샘플 데이터 길이\n",
"444 295\n",
"카테고리 10 의 샘플 데이터 길이\n",
"325 341\n",
"카테고리 11 의 샘플 데이터 길이\n",
"781 420\n",
"카테고리 12 의 샘플 데이터 길이\n",
"404 339\n",
"카테고리 13 의 샘플 데이터 길이\n",
"461 633\n",
"카테고리 14 의 샘플 데이터 길이\n",
"317 286\n",
"카테고리 15 의 샘플 데이터 길이\n",
"540 414\n",
"카테고리 16 의 샘플 데이터 길이\n",
"301 308\n",
"카테고리 17 의 샘플 데이터 길이\n",
"267 292\n",
"카테고리 18 의 샘플 데이터 길이\n",
"366 931\n",
"카테고리 19 의 샘플 데이터 길이\n",
"288 304\n",
"카테고리 2 의 샘플 데이터 길이\n",
"378 430\n",
"카테고리 20 의 샘플 데이터 길이\n",
"400 468\n",
"카테고리 21 의 샘플 데이터 길이\n",
"1240 1309\n",
"카테고리 22 의 샘플 데이터 길이\n",
"445 257\n",
"카테고리 23 의 샘플 데이터 길이\n",
"466 455\n",
"카테고리 24 의 샘플 데이터 길이\n",
"607 483\n",
"카테고리 25 의 샘플 데이터 길이\n",
"488 375\n",
"카테고리 26 의 샘플 데이터 길이\n",
"316 282\n",
"카테고리 27 의 샘플 데이터 길이\n",
"468 670\n",
"카테고리 28 의 샘플 데이터 길이\n",
"441 554\n",
"카테고리 29 의 샘플 데이터 길이\n",
"571 409\n",
"카테고리 3 의 샘플 데이터 길이\n",
"493 320\n",
"카테고리 30 의 샘플 데이터 길이\n",
"518 329\n",
"카테고리 31 의 샘플 데이터 길이\n",
"477 580\n",
"카테고리 32 의 샘플 데이터 길이\n",
"518 287\n",
"카테고리 33 의 샘플 데이터 길이\n",
"384 525\n",
"카테고리 34 의 샘플 데이터 길이\n",
"561 639\n",
"카테고리 35 의 샘플 데이터 길이\n",
"425 647\n",
"카테고리 36 의 샘플 데이터 길이\n",
"572 416\n",
"카테고리 37 의 샘플 데이터 길이\n",
"1765 266\n",
"카테고리 38 의 샘플 데이터 길이\n",
"498 268\n",
"카테고리 39 의 샘플 데이터 길이\n",
"264 668\n",
"카테고리 4 의 샘플 데이터 길이\n",
"266 264\n",
"카테고리 40 의 샘플 데이터 길이\n",
"275 418\n",
"카테고리 41 의 샘플 데이터 길이\n",
"717 275\n",
"카테고리 42 의 샘플 데이터 길이\n",
"774 571\n",
"카테고리 43 의 샘플 데이터 길이\n",
"940 633\n",
"카테고리 44 의 샘플 데이터 길이\n",
"270 337\n",
"카테고리 45 의 샘플 데이터 길이\n",
"321 694\n",
"카테고리 46 의 샘플 데이터 길이\n",
"979 284\n",
"카테고리 47 의 샘플 데이터 길이\n",
"369 461\n",
"카테고리 48 의 샘플 데이터 길이\n",
"680 371\n",
"카테고리 49 의 샘플 데이터 길이\n",
"595 270\n",
"카테고리 5 의 샘플 데이터 길이\n",
"466 444\n",
"카테고리 50 의 샘플 데이터 길이\n",
"504 406\n",
"카테고리 51 의 샘플 데이터 길이\n",
"401 784\n",
"카테고리 52 의 샘플 데이터 길이\n",
"614 356\n",
"카테고리 53 의 샘플 데이터 길이\n",
"281 383\n",
"카테고리 6 의 샘플 데이터 길이\n",
"414 382\n",
"카테고리 7 의 샘플 데이터 길이\n",
"382 340\n",
"카테고리 8 의 샘플 데이터 길이\n",
"261 360\n",
"카테고리 9 의 샘플 데이터 길이\n",
"423 488\n"
]
}
],
"source": [
"import h5py\n",
"filename = 'news_sample.hdf5'\n",
"\n",
"with h5py.File(filename, 'r') as f:\n",
" # List all groups\n",
" print(\"Keys: %s\" % f.keys())\n",
" a_group_key = list(f.keys())[0]\n",
"# f.visit(printname)\n",
"# print([tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key]['10']])\n",
" # Get the data\n",
" data = list(f[a_group_key])\n",
" print(\"카테고리 개수: \", len(data))\n",
" for cate in data:\n",
" print('카테고리 {0} 의 샘플 데이터 길이'.format(cate))\n",
" print(len(f[a_group_key][cate][0]), len(f[a_group_key][cate][1]))\n",
" with open(\"category_\"+str(cate)+\" 번 sample_원본.txt\", 'w') as r:\n",
" r.write(json.dumps([list(map(int, i)) for i in f[a_group_key][cate]]))\n",
" with open(\"category_\"+str(cate)+\" 번 sample_token변환본.txt\",'w') as r:\n",
" r.write(json.dumps([[tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key][cate]]],ensure_ascii=False))\n"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {},
"outputs": [],
"source": [
"def printname(name):\n",
" print(name)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.3"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment