inspirit941 · January 18, 2020 13:30
diff --git a/find_structure.ipynb b/find_structure.ipynb
 {
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import glob"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['Untitled.ipynb', 'news_sample.hdf5']"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "glob.glob(\"*\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 64,
   "metadata": {},
   "outputs": [],
   "source": [
    "import tokenization\n",
    "import json\n",
    "tokenizer = tokenization.FullTokenizer(vocab_file=\"../models/345k/vocab.txt\", do_lower_case=False)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 94,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Keys: <KeysViewHDF5 ['category']>\n",
      "카테고리 개수:  54\n",
      "카테고리 0 의 샘플 데이터 길이\n",
      "825 273\n",
      "카테고리 1 의 샘플 데이터 길이\n",
      "444 295\n",
      "카테고리 10 의 샘플 데이터 길이\n",
      "325 341\n",
      "카테고리 11 의 샘플 데이터 길이\n",
      "781 420\n",
      "카테고리 12 의 샘플 데이터 길이\n",
      "404 339\n",
      "카테고리 13 의 샘플 데이터 길이\n",
      "461 633\n",
      "카테고리 14 의 샘플 데이터 길이\n",
      "317 286\n",
      "카테고리 15 의 샘플 데이터 길이\n",
      "540 414\n",
      "카테고리 16 의 샘플 데이터 길이\n",
      "301 308\n",
      "카테고리 17 의 샘플 데이터 길이\n",
      "267 292\n",
      "카테고리 18 의 샘플 데이터 길이\n",
      "366 931\n",
      "카테고리 19 의 샘플 데이터 길이\n",
      "288 304\n",
      "카테고리 2 의 샘플 데이터 길이\n",
      "378 430\n",
      "카테고리 20 의 샘플 데이터 길이\n",
      "400 468\n",
      "카테고리 21 의 샘플 데이터 길이\n",
      "1240 1309\n",
      "카테고리 22 의 샘플 데이터 길이\n",
      "445 257\n",
      "카테고리 23 의 샘플 데이터 길이\n",
      "466 455\n",
      "카테고리 24 의 샘플 데이터 길이\n",
      "607 483\n",
      "카테고리 25 의 샘플 데이터 길이\n",
      "488 375\n",
      "카테고리 26 의 샘플 데이터 길이\n",
      "316 282\n",
      "카테고리 27 의 샘플 데이터 길이\n",
      "468 670\n",
      "카테고리 28 의 샘플 데이터 길이\n",
      "441 554\n",
      "카테고리 29 의 샘플 데이터 길이\n",
      "571 409\n",
      "카테고리 3 의 샘플 데이터 길이\n",
      "493 320\n",
      "카테고리 30 의 샘플 데이터 길이\n",
      "518 329\n",
      "카테고리 31 의 샘플 데이터 길이\n",
      "477 580\n",
      "카테고리 32 의 샘플 데이터 길이\n",
      "518 287\n",
      "카테고리 33 의 샘플 데이터 길이\n",
      "384 525\n",
      "카테고리 34 의 샘플 데이터 길이\n",
      "561 639\n",
      "카테고리 35 의 샘플 데이터 길이\n",
      "425 647\n",
      "카테고리 36 의 샘플 데이터 길이\n",
      "572 416\n",
      "카테고리 37 의 샘플 데이터 길이\n",
      "1765 266\n",
      "카테고리 38 의 샘플 데이터 길이\n",
      "498 268\n",
      "카테고리 39 의 샘플 데이터 길이\n",
      "264 668\n",
      "카테고리 4 의 샘플 데이터 길이\n",
      "266 264\n",
      "카테고리 40 의 샘플 데이터 길이\n",
      "275 418\n",
      "카테고리 41 의 샘플 데이터 길이\n",
      "717 275\n",
      "카테고리 42 의 샘플 데이터 길이\n",
      "774 571\n",
      "카테고리 43 의 샘플 데이터 길이\n",
      "940 633\n",
      "카테고리 44 의 샘플 데이터 길이\n",
      "270 337\n",
      "카테고리 45 의 샘플 데이터 길이\n",
      "321 694\n",
      "카테고리 46 의 샘플 데이터 길이\n",
      "979 284\n",
      "카테고리 47 의 샘플 데이터 길이\n",
      "369 461\n",
      "카테고리 48 의 샘플 데이터 길이\n",
      "680 371\n",
      "카테고리 49 의 샘플 데이터 길이\n",
      "595 270\n",
      "카테고리 5 의 샘플 데이터 길이\n",
      "466 444\n",
      "카테고리 50 의 샘플 데이터 길이\n",
      "504 406\n",
      "카테고리 51 의 샘플 데이터 길이\n",
      "401 784\n",
      "카테고리 52 의 샘플 데이터 길이\n",
      "614 356\n",
      "카테고리 53 의 샘플 데이터 길이\n",
      "281 383\n",
      "카테고리 6 의 샘플 데이터 길이\n",
      "414 382\n",
      "카테고리 7 의 샘플 데이터 길이\n",
      "382 340\n",
      "카테고리 8 의 샘플 데이터 길이\n",
      "261 360\n",
      "카테고리 9 의 샘플 데이터 길이\n",
      "423 488\n"
     ]
    }
   ],
   "source": [
    "import h5py\n",
    "filename = 'news_sample.hdf5'\n",
    "\n",
    "with h5py.File(filename, 'r') as f:\n",
    "    # List all groups\n",
    "    print(\"Keys: %s\" % f.keys())\n",
    "    a_group_key = list(f.keys())[0]\n",
    "#     f.visit(printname)\n",
    "#     print([tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key]['10']])\n",
    "    # Get the data\n",
    "    data = list(f[a_group_key])\n",
    "    print(\"카테고리 개수: \", len(data))\n",
    "    for cate in data:\n",
    "        print('카테고리 {0} 의 샘플 데이터 길이'.format(cate))\n",
    "        print(len(f[a_group_key][cate][0]), len(f[a_group_key][cate][1]))\n",
    "        with open(\"category_\"+str(cate)+\" 번 sample_원본.txt\", 'w') as r:\n",
    "            r.write(json.dumps([list(map(int, i)) for i in f[a_group_key][cate]]))\n",
    "        with open(\"category_\"+str(cate)+\" 번 sample_token변환본.txt\",'w') as r:\n",
    "            r.write(json.dumps([[tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key][cate]]],ensure_ascii=False))\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 44,
   "metadata": {},
   "outputs": [],
   "source": [
    "def printname(name):\n",
    "    print(name)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
 }
	{
	"cells": [
	{
	"cell_type": "code",
	"execution_count": 1,
	"metadata": {},
	"outputs": [],
	"source": [
	"import pandas as pd\n",
	"import glob"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 3,
	"metadata": {},
	"outputs": [
	{
	"data": {
	"text/plain": [
	"['Untitled.ipynb', 'news_sample.hdf5']"
	]
	},
	"execution_count": 3,
	"metadata": {},
	"output_type": "execute_result"
	}
	],
	"source": [
	"glob.glob(\"*\")"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": []
	},
	{
	"cell_type": "code",
	"execution_count": 64,
	"metadata": {},
	"outputs": [],
	"source": [
	"import tokenization\n",
	"import json\n",
	"tokenizer = tokenization.FullTokenizer(vocab_file=\"../models/345k/vocab.txt\", do_lower_case=False)"
	]
	},
	{
	"cell_type": "markdown",
	"metadata": {},
	"source": []
	},
	{
	"cell_type": "code",
	"execution_count": 94,
	"metadata": {
	"scrolled": true
	},
	"outputs": [
	{
	"name": "stdout",
	"output_type": "stream",
	"text": [
	"Keys: <KeysViewHDF5 ['category']>\n",
	"카테고리 개수: 54\n",
	"카테고리 0 의 샘플 데이터 길이\n",
	"825 273\n",
	"카테고리 1 의 샘플 데이터 길이\n",
	"444 295\n",
	"카테고리 10 의 샘플 데이터 길이\n",
	"325 341\n",
	"카테고리 11 의 샘플 데이터 길이\n",
	"781 420\n",
	"카테고리 12 의 샘플 데이터 길이\n",
	"404 339\n",
	"카테고리 13 의 샘플 데이터 길이\n",
	"461 633\n",
	"카테고리 14 의 샘플 데이터 길이\n",
	"317 286\n",
	"카테고리 15 의 샘플 데이터 길이\n",
	"540 414\n",
	"카테고리 16 의 샘플 데이터 길이\n",
	"301 308\n",
	"카테고리 17 의 샘플 데이터 길이\n",
	"267 292\n",
	"카테고리 18 의 샘플 데이터 길이\n",
	"366 931\n",
	"카테고리 19 의 샘플 데이터 길이\n",
	"288 304\n",
	"카테고리 2 의 샘플 데이터 길이\n",
	"378 430\n",
	"카테고리 20 의 샘플 데이터 길이\n",
	"400 468\n",
	"카테고리 21 의 샘플 데이터 길이\n",
	"1240 1309\n",
	"카테고리 22 의 샘플 데이터 길이\n",
	"445 257\n",
	"카테고리 23 의 샘플 데이터 길이\n",
	"466 455\n",
	"카테고리 24 의 샘플 데이터 길이\n",
	"607 483\n",
	"카테고리 25 의 샘플 데이터 길이\n",
	"488 375\n",
	"카테고리 26 의 샘플 데이터 길이\n",
	"316 282\n",
	"카테고리 27 의 샘플 데이터 길이\n",
	"468 670\n",
	"카테고리 28 의 샘플 데이터 길이\n",
	"441 554\n",
	"카테고리 29 의 샘플 데이터 길이\n",
	"571 409\n",
	"카테고리 3 의 샘플 데이터 길이\n",
	"493 320\n",
	"카테고리 30 의 샘플 데이터 길이\n",
	"518 329\n",
	"카테고리 31 의 샘플 데이터 길이\n",
	"477 580\n",
	"카테고리 32 의 샘플 데이터 길이\n",
	"518 287\n",
	"카테고리 33 의 샘플 데이터 길이\n",
	"384 525\n",
	"카테고리 34 의 샘플 데이터 길이\n",
	"561 639\n",
	"카테고리 35 의 샘플 데이터 길이\n",
	"425 647\n",
	"카테고리 36 의 샘플 데이터 길이\n",
	"572 416\n",
	"카테고리 37 의 샘플 데이터 길이\n",
	"1765 266\n",
	"카테고리 38 의 샘플 데이터 길이\n",
	"498 268\n",
	"카테고리 39 의 샘플 데이터 길이\n",
	"264 668\n",
	"카테고리 4 의 샘플 데이터 길이\n",
	"266 264\n",
	"카테고리 40 의 샘플 데이터 길이\n",
	"275 418\n",
	"카테고리 41 의 샘플 데이터 길이\n",
	"717 275\n",
	"카테고리 42 의 샘플 데이터 길이\n",
	"774 571\n",
	"카테고리 43 의 샘플 데이터 길이\n",
	"940 633\n",
	"카테고리 44 의 샘플 데이터 길이\n",
	"270 337\n",
	"카테고리 45 의 샘플 데이터 길이\n",
	"321 694\n",
	"카테고리 46 의 샘플 데이터 길이\n",
	"979 284\n",
	"카테고리 47 의 샘플 데이터 길이\n",
	"369 461\n",
	"카테고리 48 의 샘플 데이터 길이\n",
	"680 371\n",
	"카테고리 49 의 샘플 데이터 길이\n",
	"595 270\n",
	"카테고리 5 의 샘플 데이터 길이\n",
	"466 444\n",
	"카테고리 50 의 샘플 데이터 길이\n",
	"504 406\n",
	"카테고리 51 의 샘플 데이터 길이\n",
	"401 784\n",
	"카테고리 52 의 샘플 데이터 길이\n",
	"614 356\n",
	"카테고리 53 의 샘플 데이터 길이\n",
	"281 383\n",
	"카테고리 6 의 샘플 데이터 길이\n",
	"414 382\n",
	"카테고리 7 의 샘플 데이터 길이\n",
	"382 340\n",
	"카테고리 8 의 샘플 데이터 길이\n",
	"261 360\n",
	"카테고리 9 의 샘플 데이터 길이\n",
	"423 488\n"
	]
	}
	],
	"source": [
	"import h5py\n",
	"filename = 'news_sample.hdf5'\n",
	"\n",
	"with h5py.File(filename, 'r') as f:\n",
	" # List all groups\n",
	" print(\"Keys: %s\" % f.keys())\n",
	" a_group_key = list(f.keys())[0]\n",
	"# f.visit(printname)\n",
	"# print([tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key]['10']])\n",
	" # Get the data\n",
	" data = list(f[a_group_key])\n",
	" print(\"카테고리 개수: \", len(data))\n",
	" for cate in data:\n",
	" print('카테고리 {0} 의 샘플 데이터 길이'.format(cate))\n",
	" print(len(f[a_group_key][cate][0]), len(f[a_group_key][cate][1]))\n",
	" with open(\"category_\"+str(cate)+\" 번 sample_원본.txt\", 'w') as r:\n",
	" r.write(json.dumps([list(map(int, i)) for i in f[a_group_key][cate]]))\n",
	" with open(\"category_\"+str(cate)+\" 번 sample_token변환본.txt\",'w') as r:\n",
	" r.write(json.dumps([[tokenizer.convert_ids_to_tokens(i) for i in f[a_group_key][cate]]],ensure_ascii=False))\n"
	]
	},
	{
	"cell_type": "code",
	"execution_count": 44,
	"metadata": {},
	"outputs": [],
	"source": [
	"def printname(name):\n",
	" print(name)"
	]
	},
	{
	"cell_type": "code",
	"execution_count": null,
	"metadata": {},
	"outputs": [],
	"source": []
	}
	],
	"metadata": {
	"kernelspec": {
	"display_name": "Python 3",
	"language": "python",
	"name": "python3"
	},
	"language_info": {
	"codemirror_mode": {
	"name": "ipython",
	"version": 3
	},
	"file_extension": ".py",
	"mimetype": "text/x-python",
	"name": "python",
	"nbconvert_exporter": "python",
	"pygments_lexer": "ipython3",
	"version": "3.7.3"
	}
	},
	"nbformat": 4,
	"nbformat_minor": 2
	}
No results found