Created
January 18, 2020 13:30
-
-
Save inspirit941/2c0cb2096487c6ecf352a4f713dc31d7 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
{ | |
"cells": [ | |
{ | |
"cell_type": "code", | |
"execution_count": 1, | |
"metadata": {}, | |
"outputs": [], | |
"source": [ | |
"import pandas as pd\n", | |
"import glob" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 3, | |
"metadata": {}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"['Untitled.ipynb', 'news_sample.hdf5']" | |
] | |
}, | |
"execution_count": 3, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"glob.glob(\"*\")" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": null, | |
"metadata": {}, | |
"outputs": [], | |
"source": [] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 64, | |
"metadata": {}, | |
"outputs": [], | |
"source": [ | |
"import tokenization\n", | |
"import json\n", | |
"tokenizer = tokenization.FullTokenizer(vocab_file=\"../models/345k/vocab.txt\", do_lower_case=False)" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 94, | |
"metadata": { | |
"scrolled": true | |
}, | |
"outputs": [ | |
{ | |
"name": "stdout", | |
"output_type": "stream", | |
"text": [ | |
"Keys: <KeysViewHDF5 ['category']>\n", | |
"카테고리 개수: 54\n", | |
"카테고리 0 의 샘플 데이터 길이\n", | |
"825 273\n", | |
"카테고리 1 의 샘플 데이터 길이\n", | |
"444 295\n", | |
"카테고리 10 의 샘플 데이터 길이\n", | |
"325 341\n", | |
"카테고리 11 의 샘플 데이터 길이\n", | |
"781 420\n", | |
"카테고리 12 의 샘플 데이터 길이\n", | |
"404 339\n", | |
"카테고리 13 의 샘플 데이터 길이\n", | |
"461 633\n", | |
"카테고리 14 의 샘플 데이터 길이\n", | |
"317 286\n", | |
"카테고리 15 의 샘플 데이터 길이\n", | |
"540 414\n", | |
"카테고리 16 의 샘플 데이터 길이\n", | |
"301 308\n", | |
"카테고리 17 의 샘플 데이터 길이\n", | |
"267 292\n", | |
"카테고리 18 의 샘플 데이터 길이\n", | |
"366 931\n", | |
"카테고리 19 의 샘플 데이터 길이\n", | |
"288 304\n", | |
"카테고리 2 의 샘플 데이터 길이\n", | |
"378 430\n", | |
"카테고리 20 의 샘플 데이터 길이\n", | |
"400 468\n", | |
"카테고리 21 의 샘플 데이터 길이\n", | |
"1240 1309\n", | |
"카테고리 22 의 샘플 데이터 길이\n", | |
"445 257\n", | |
"카테고리 23 의 샘플 데이터 길이\n", | |
"466 455\n", | |
"카테고리 24 의 샘플 데이터 길이\n", | |
"607 483\n", | |
"카테고리 25 의 샘플 데이터 길이\n", | |
"488 375\n", | |
"카테고리 26 의 샘플 데이터 길이\n", | |
"316 282\n", | |
"카테고리 27 의 샘플 데이터 길이\n", | |
"468 670\n", | |
"카테고리 28 의 샘플 데이터 길이\n", | |
"441 554\n", | |
"카테고리 29 의 샘플 데이터 길이\n", | |
"571 409\n", | |
"카테고리 3 의 샘플 데이터 길이\n", | |
"493 320\n", | |
"카테고리 30 의 샘플 데이터 길이\n", | |
"518 329\n", | |
"카테고리 31 의 샘플 데이터 길이\n", | |
"477 580\n", | |
"카테고리 32 의 샘플 데이터 길이\n", | |
"518 287\n", | |
"카테고리 33 의 샘플 데이터 길이\n", | |
"384 525\n", | |
"카테고리 34 의 샘플 데이터 길이\n", | |
"561 639\n", | |
"카테고리 35 의 샘플 데이터 길이\n", | |
"425 647\n", | |
"카테고리 36 의 샘플 데이터 길이\n", | |
"572 416\n", | |
"카테고리 37 의 샘플 데이터 길이\n", | |
"1765 266\n", | |
"카테고리 38 의 샘플 데이터 길이\n", | |
"498 268\n", | |
"카테고리 39 의 샘플 데이터 길이\n", | |
"264 668\n", | |
"카테고리 4 의 샘플 데이터 길이\n", | |
"266 264\n", | |
"카테고리 40 의 샘플 데이터 길이\n", | |
"275 418\n", | |
"카테고리 41 의 샘플 데이터 길이\n", | |
"717 275\n", | |
"카테고리 42 의 샘플 데이터 길이\n", | |
"774 571\n", | |
"카테고리 43 의 샘플 데이터 길이\n", | |
"940 633\n", | |
"카테고리 44 의 샘플 데이터 길이\n", | |
"270 337\n", | |
"카테고리 45 의 샘플 데이터 길이\n", | |
"321 694\n", | |
"카테고리 46 의 샘플 데이터 길이\n", | |
"979 284\n", | |
"카테고리 47 의 샘플 데이터 길이\n", | |
"369 461\n", | |
"카테고리 48 의 샘플 데이터 길이\n", | |
"680 371\n", | |
"카테고리 49 의 샘플 데이터 길이\n", | |
"595 270\n", | |
"카테고리 5 의 샘플 데이터 길이\n", | |
"466 444\n", | |
"카테고리 50 의 샘플 데이터 길이\n", | |
"504 406\n", | |
"카테고리 51 의 샘플 데이터 길이\n", | |
"401 784\n", | |
"카테고리 52 의 샘플 데이터 길이\n", | |
"614 356\n", | |
"카테고리 53 의 샘플 데이터 길이\n", | |
"281 383\n", | |
"카테고리 6 의 샘플 데이터 길이\n", | |
"414 382\n", | |
"카테고리 7 의 샘플 데이터 길이\n", | |
"382 340\n", | |
"카테고리 8 의 샘플 데이터 길이\n", | |
"261 360\n", | |
"카테고리 9 의 샘플 데이터 길이\n", | |
"423 488\n" | |
] | |
} | |
], | |
"source": [ | |
"import h5py\n", | |
"filename = 'news_sample.hdf5'\n", | |
"\n", | |
"with h5py.File(filename, 'r') as f:\n", | |
" # List all groups\n", | |
" print(\"Keys: %s\" % f.keys())\n", | |
" a_group_key = list(f.keys())[0]\n", | |
"# f.visit(printname)\n", | |
"# print([tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key]['10']])\n", | |
" # Get the data\n", | |
" data = list(f[a_group_key])\n", | |
" print(\"카테고리 개수: \", len(data))\n", | |
" for cate in data:\n", | |
" print('카테고리 {0} 의 샘플 데이터 길이'.format(cate))\n", | |
" print(len(f[a_group_key][cate][0]), len(f[a_group_key][cate][1]))\n", | |
" with open(\"category_\"+str(cate)+\" 번 sample_원본.txt\", 'w') as r:\n", | |
" r.write(json.dumps([list(map(int, i)) for i in f[a_group_key][cate]]))\n", | |
" with open(\"category_\"+str(cate)+\" 번 sample_token변환본.txt\",'w') as r:\n", | |
" r.write(json.dumps([[tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key][cate]]],ensure_ascii=False))\n" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 44, | |
"metadata": {}, | |
"outputs": [], | |
"source": [ | |
"def printname(name):\n", | |
" print(name)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": null, | |
"metadata": {}, | |
"outputs": [], | |
"source": [] | |
} | |
], | |
"metadata": { | |
"kernelspec": { | |
"display_name": "Python 3", | |
"language": "python", | |
"name": "python3" | |
}, | |
"language_info": { | |
"codemirror_mode": { | |
"name": "ipython", | |
"version": 3 | |
}, | |
"file_extension": ".py", | |
"mimetype": "text/x-python", | |
"name": "python", | |
"nbconvert_exporter": "python", | |
"pygments_lexer": "ipython3", | |
"version": "3.7.3" | |
} | |
}, | |
"nbformat": 4, | |
"nbformat_minor": 2 | |
} |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment