Skip to content

Instantly share code, notes, and snippets.

@inspirit941
Created January 18, 2020 14:38
Show Gist options
  • Save inspirit941/b86d3f0bb71a6421cb5646090827fbed to your computer and use it in GitHub Desktop.
Save inspirit941/b86d3f0bb71a6421cb5646090827fbed to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"366151"
]
},
"execution_count": 1,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"68863 + 31865 + 20751 + 175 + 2783 + 45031 + 8293 + 85823 + 10968 + 62628 + 28971"
]
},
{
"cell_type": "code",
"execution_count": 44,
"metadata": {},
"outputs": [],
"source": [
"import glob\n",
"glob.glob(\"*.csv\")\n",
"import tokenization\n",
"import pandas as pd\n",
"import numpy as np"
]
},
{
"cell_type": "code",
"execution_count": 45,
"metadata": {},
"outputs": [],
"source": [
"tokenizer = tokenization.FullTokenizer(vocab_file=\"vocab.txt\", do_lower_case=False)"
]
},
{
"cell_type": "code",
"execution_count": 145,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"['자기계발.csv',\n",
" '문학.csv',\n",
" '소설가.csv',\n",
" '에세이.csv',\n",
" '191113_텍스트모음.csv',\n",
" 'college.csv',\n",
" '사이버_tokens_ids.csv',\n",
" '대학내일에세이.csv',\n",
" '소설.csv',\n",
" '문학_token_to_id.csv',\n",
" '사이버문학광장_수필_3000개.csv',\n",
" '문학_tokenize.csv',\n",
" '에세이스트.csv',\n",
" 'novelist_id.csv',\n",
" '작가지망생.csv',\n",
" '창작.csv']"
]
},
"execution_count": 145,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"glob.glob(\"*.csv\")"
]
},
{
"cell_type": "code",
"execution_count": 179,
"metadata": {},
"outputs": [],
"source": [
"data = pd.read_csv('소설.csv')"
]
},
{
"cell_type": "code",
"execution_count": 180,
"metadata": {
"scrolled": true
},
"outputs": [
{
"data": {
"text/html": [
"<div>\n",
"<style scoped>\n",
" .dataframe tbody tr th:only-of-type {\n",
" vertical-align: middle;\n",
" }\n",
"\n",
" .dataframe tbody tr th {\n",
" vertical-align: top;\n",
" }\n",
"\n",
" .dataframe thead th {\n",
" text-align: right;\n",
" }\n",
"</style>\n",
"<table border=\"1\" class=\"dataframe\">\n",
" <thead>\n",
" <tr style=\"text-align: right;\">\n",
" <th></th>\n",
" <th>Unnamed: 0</th>\n",
" <th>profileid</th>\n",
" <th>postid</th>\n",
" <th>strings</th>\n",
" </tr>\n",
" </thead>\n",
" <tbody>\n",
" <tr>\n",
" <th>0</th>\n",
" <td>0</td>\n",
" <td>@hiphopdrum</td>\n",
" <td>92</td>\n",
" <td>책이 두툼해서 조금만 읽고 잘까 하고 펼쳤는데 결말이 너무 궁금해서 끝까지 읽고 말...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>1</th>\n",
" <td>1</td>\n",
" <td>@rpyatoo</td>\n",
" <td>22</td>\n",
" <td>아이들에게는 재미있는 영화였던 듯\\n최근 매이저 영화사들이 이런 생각을\\n했었으리라...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>2</th>\n",
" <td>2</td>\n",
" <td>@byulpd</td>\n",
" <td>64</td>\n",
" <td>부끄러운 스무살을 회상하며\\n난 매일같이 싸웠다. 논쟁을 즐기고 기꺼이 토론에 임하...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>3</th>\n",
" <td>3</td>\n",
" <td>@bookdb</td>\n",
" <td>938</td>\n",
" <td>배우 박정민 작가인터뷰\\n글을 보면 그 사람을 알 수 있다고 했다. 그 사람의 생각...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>4</th>\n",
" <td>4</td>\n",
" <td>@ireundal</td>\n",
" <td>24</td>\n",
" <td>현재진행형인 나의 분노를 위해, &lt;쓰리빌보드&gt;\\n분노는 현재진행형 명사다. 물론 그...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>5</th>\n",
" <td>5</td>\n",
" <td>@vitmania86</td>\n",
" <td>265</td>\n",
" <td>소설 마시는 시간 2회\\n11월 5일 두 번째 방송은 소설 속 매력적인 남성 캐릭터...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>6</th>\n",
" <td>6</td>\n",
" <td>@jong2band</td>\n",
" <td>141</td>\n",
" <td>채소의 온기 _ 토마토 편 레시피 동영상\\n안녕하세요. 종이밴드입니다.\\n&lt;채소의 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>7</th>\n",
" <td>7</td>\n",
" <td>@jjason</td>\n",
" <td>90</td>\n",
" <td>계단에 쭈그리고 앉은 천태준은 이게 도대체 뭐하는 짓인지 자신이 한심해지고 있었다....</td>\n",
" </tr>\n",
" <tr>\n",
" <th>8</th>\n",
" <td>8</td>\n",
" <td>@sgyang</td>\n",
" <td>348</td>\n",
" <td>사람 키우기\\n칼의 신\\n일본 여행을 하다 보면 낯선 것들이 많다. 굳이 문화 충격...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>9</th>\n",
" <td>9</td>\n",
" <td>@seunghyehan</td>\n",
" <td>200</td>\n",
" <td>&lt;벚꽃 지는 계절에 그대를 그리워하네&gt;\\n정아은 작가가 쓴 &lt;엄마의 독서&gt;는 양육서...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>10</th>\n",
" <td>10</td>\n",
" <td>@gyul</td>\n",
" <td>199</td>\n",
" <td>구름에 가려\\n별도 달도 모두 잠든 밤\\n난 구름만이 남은 밤하늘을 보며\\n어둡게 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>11</th>\n",
" <td>11</td>\n",
" <td>@vandine47</td>\n",
" <td>243</td>\n",
" <td>13. 베토벤의 [현악 4중주 제10번 E♭장조 작품번호 74 하프(String Q...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>12</th>\n",
" <td>12</td>\n",
" <td>@clementine</td>\n",
" <td>528</td>\n",
" <td>갑자기 이런 말 하기 뭐하지만, 저는 손가락이 예쁜 사람을 좋아합니다.\\n그런 건 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>13</th>\n",
" <td>13</td>\n",
" <td>@mad9335</td>\n",
" <td>125</td>\n",
" <td>지그문트 바우만 / 동녘\\n‘유동하는 근대 세계에 띄우는 편지’라는 부제를 가지고 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>14</th>\n",
" <td>14</td>\n",
" <td>@kaylalim</td>\n",
" <td>26</td>\n",
" <td>제일 좋아하는 만화책이 있다. 몇 번을 읽어도 폭풍감동과 눈물을 흘리는 만화책인데 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>15</th>\n",
" <td>15</td>\n",
" <td>@junei07</td>\n",
" <td>93</td>\n",
" <td>0089. 일본식 영어\\n일본어로 대화하면서\\n경험 없이는 이해하기 힘든 점이 두가...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>16</th>\n",
" <td>16</td>\n",
" <td>@byulpd</td>\n",
" <td>182</td>\n",
" <td>나의 모교 S고등학교. 자기소개서에 가장 큰 부분을 차지해야 할 부분은 학력에 겨우...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>17</th>\n",
" <td>17</td>\n",
" <td>@megustastu</td>\n",
" <td>28</td>\n",
" <td>언론고시생의 스타트업 적응기 #28\\n그러니까 P사는 우리에게 꿈의 직장 같은 곳이...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>18</th>\n",
" <td>18</td>\n",
" <td>@leggievi98</td>\n",
" <td>119</td>\n",
" <td>인터프리터, 테이큰 2\\n[청춘의 덫]이란 드라마에서 심은하는 ‘부셔 버리겠어’라는...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>19</th>\n",
" <td>19</td>\n",
" <td>@yunjihoon</td>\n",
" <td>278</td>\n",
" <td>바닷 바람에 실려\\n기타 선율에 얹혀\\n동백꽃 향기에 담겨\\n봄내음 가득한 숲길 따...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>20</th>\n",
" <td>20</td>\n",
" <td>@saebawi</td>\n",
" <td>3</td>\n",
" <td>주말 새벽이 되면 자연스레 일찍 잠이 깬다. 주말 아침 테니스를 즐기러 가기 때문이...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>21</th>\n",
" <td>21</td>\n",
" <td>@doyoudominic</td>\n",
" <td>32</td>\n",
" <td>슬림한 체형의 여자들조차도 자신을 뚱뚱하다고 여기는 경우가 종종 있다.\\n티브이 속...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>22</th>\n",
" <td>22</td>\n",
" <td>@wssky</td>\n",
" <td>27</td>\n",
" <td>고양이와 동생\\n고양이가 야옹야옹해요\\n동생도 맘마 맘마 해요\\n엄마가 그 소리에 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>23</th>\n",
" <td>23</td>\n",
" <td>@skyzakard</td>\n",
" <td>67</td>\n",
" <td>원래 당신이 준 것이었으니까요, &lt;심인애 씨의 소유&gt;\\n작품명 : 심인애 씨의 소유...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>24</th>\n",
" <td>24</td>\n",
" <td>@critic</td>\n",
" <td>36</td>\n",
" <td>오늘은 금요일이다. 목요일과 금요일, 멜번 센트럴 쇼핑센터는 9시까지 연장 영업한다...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>25</th>\n",
" <td>25</td>\n",
" <td>@thejude</td>\n",
" <td>9</td>\n",
" <td>목수J 작가K(3회)\\n어느날 J가 이렇게 말했다.\\n특유의 짜증섞인 말투다.\\n나...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>26</th>\n",
" <td>26</td>\n",
" <td>@seunghyehan</td>\n",
" <td>23</td>\n",
" <td>&lt;아동학대에 관한 뒤늦은 기록&gt;을 읽고\\n과거에 누군가 설문 조사 형식으로 포스팅을...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>27</th>\n",
" <td>27</td>\n",
" <td>@iamtheminor</td>\n",
" <td>2</td>\n",
" <td>&lt;마이블루베리나이츠&gt; / 노라 존스 'The Story'\\n지금으로부터 10여 년 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>28</th>\n",
" <td>28</td>\n",
" <td>@poesy</td>\n",
" <td>277</td>\n",
" <td>이런 음울한 겨울\\n투명한 입술에 사탕을 문 소녀가\\n그녀의 아름다움을 발랄하게 뽐...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>29</th>\n",
" <td>29</td>\n",
" <td>@critic</td>\n",
" <td>22</td>\n",
" <td>어떤 게 정의일까 하루에 5 번 쯤 생각한다. 나는 정의성애자다. 그러나 행동이 항...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>...</th>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" <td>...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36932</th>\n",
" <td>36932</td>\n",
" <td>@tokyomom</td>\n",
" <td>27</td>\n",
" <td>-이와사키 씨는 2016년 6월 현재도 여행길에 있습니다.\\n만일 당신 손안에 2천...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36933</th>\n",
" <td>36933</td>\n",
" <td>@dladl11</td>\n",
" <td>6</td>\n",
" <td>마요르카에서 본 스페인 사람들의 와인사랑\\n와인 속물(wine snob)이란 말을 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36934</th>\n",
" <td>36934</td>\n",
" <td>@leewoosview</td>\n",
" <td>60</td>\n",
" <td>많은 글을 써왔다. 누가 강요한 것도 아니었지만, 나는 부단하게도 글을 써왔다. 무...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36935</th>\n",
" <td>36935</td>\n",
" <td>@yunjihoon</td>\n",
" <td>261</td>\n",
" <td>오리를 굽다가 네가 생각났다\\n버섯도 있었다\\n울컥했다\\n왜 하필 지금일까\\n아무 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36936</th>\n",
" <td>36936</td>\n",
" <td>@xkdkxkdk690</td>\n",
" <td>167</td>\n",
" <td>인생의 중간 모든 것이 절반 착한 것도 절반\\n악한 것도 절반 영혼 도악 한 것과 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36937</th>\n",
" <td>36937</td>\n",
" <td>@ung</td>\n",
" <td>11</td>\n",
" <td>기주가 말했다.\\n- 그거 생각 나? 너 술 마시고 정신 줄 놓고 했던 얘기. 아버...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36938</th>\n",
" <td>36938</td>\n",
" <td>@daljasee</td>\n",
" <td>43</td>\n",
" <td>어떤 청년이 홀딱 반한 여배우\\n늦은 점심을 때울 겸, 시장통에 있는 국숫집에 들렀...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36939</th>\n",
" <td>36939</td>\n",
" <td>@talkerandwalker</td>\n",
" <td>36</td>\n",
" <td>생각은\\n유연하다.\\n안 좋게 말하면\\n변덕이겠지.\\n생각은 어디에든 끼워 맞출 수...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36940</th>\n",
" <td>36940</td>\n",
" <td>@tarajay</td>\n",
" <td>92</td>\n",
" <td>우리는 어쩌면 모두 반쯤 미친 세상에 살고 있는지도 모른다.\\n모예는 며칠 후, 다...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36941</th>\n",
" <td>36941</td>\n",
" <td>@begintalk</td>\n",
" <td>2</td>\n",
" <td>1. THE MAGICIAN (마법사)\\n1. 마법사(THE MAGICIAN)\\n\\...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36942</th>\n",
" <td>36942</td>\n",
" <td>@kisin</td>\n",
" <td>286</td>\n",
" <td>가끔, 이 세상이 아닌 다른 세상을 꿈꾼다.\\n아주 어린 시절, 처음 망원경을 본 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36943</th>\n",
" <td>36943</td>\n",
" <td>@haine80</td>\n",
" <td>53</td>\n",
" <td>블라디미르 나보코프 &lt;창백한 불꽃&gt;\\n‘&lt;창백한 불꽃&gt;, 999행의 영웅시격 2행 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36944</th>\n",
" <td>36944</td>\n",
" <td>@adamneve3</td>\n",
" <td>146</td>\n",
" <td>4월 공통주제 &lt;봄&gt; ㅣ 최미애\\n작가 프로필 ㅣ 최미애\\nIT 9년차 직장인.\\...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36945</th>\n",
" <td>36945</td>\n",
" <td>@parkdabin</td>\n",
" <td>557</td>\n",
" <td>어젯밤, 개구리들이 한바탕 요란하게 울더니, 오늘은 새벽부터 하늘이 거멓게 얼룩져 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36946</th>\n",
" <td>36946</td>\n",
" <td>@sgyang</td>\n",
" <td>351</td>\n",
" <td>삼국유사\\n&lt;통에 아직 물이 남은 까닭&gt;\\n살다 보면 누군가의 뒤를 쫓고 있는 자신...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36947</th>\n",
" <td>36947</td>\n",
" <td>@seunghyehan</td>\n",
" <td>219</td>\n",
" <td>&lt;도플갱어의 섬&gt;\\n소싯적에 만화책 좀 봤다 하는 사람 중에 &lt;소년탐정 김전일&gt;과 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36948</th>\n",
" <td>36948</td>\n",
" <td>@litteratus</td>\n",
" <td>108</td>\n",
" <td>수학자의 아침, 김소연\\n한 작가의 시를 꼭꼭 씹어서 한 권의 시집을 덮은 건 이번...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36949</th>\n",
" <td>36949</td>\n",
" <td>@gyul</td>\n",
" <td>180</td>\n",
" <td>외로운 밤\\n나는 촛불 앞에 앉아\\n멍하니 불빛을 바라본다\\n흔들리는 불빛\\n아슬아...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36950</th>\n",
" <td>36950</td>\n",
" <td>@cli-annah</td>\n",
" <td>88</td>\n",
" <td>책으로 다독다독 &lt;한 알의 씨앗이 들려주는 작은 철학&gt;\\n처음으로 가슴이 뻥 뚫리는...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36951</th>\n",
" <td>36951</td>\n",
" <td>@roh222</td>\n",
" <td>347</td>\n",
" <td>얼마전에 오랜친구를 만나서 이야기를 나누다. 제가 정말 궁금해서 그 친구에게 물었어...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36952</th>\n",
" <td>36952</td>\n",
" <td>@jjason</td>\n",
" <td>89</td>\n",
" <td>천태준은 서울 외곽의 초등학교 앞에 와 있었다. 어제 배혁진과장의 와이프를 뒤를 밟...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36953</th>\n",
" <td>36953</td>\n",
" <td>@seriousong</td>\n",
" <td>135</td>\n",
" <td>촬영 D-1\\n오늘은 드디어 바디프로필을 촬영하는 날이에요.\\n지난 6주는 정말 숨...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36954</th>\n",
" <td>36954</td>\n",
" <td>@cli-annah</td>\n",
" <td>465</td>\n",
" <td>얼마 전 오마이뉴스 기자님에게 '올해 이룬 계획'에 관한 글을 한 편 써달라는 연락...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36955</th>\n",
" <td>36955</td>\n",
" <td>@whyall</td>\n",
" <td>25</td>\n",
" <td>영화 &lt;싱글라이더&gt;\\n'사실 그놈이 그놈이 아니었어.' 등과 같은 영화의 흔한 반전...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36956</th>\n",
" <td>36956</td>\n",
" <td>@bookdb</td>\n",
" <td>1046</td>\n",
" <td>배수원 반니출판사 사업부장\\n\\n\"여전히 이 자리에서 책을 만들고 있는 것에 대한 ...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36957</th>\n",
" <td>36957</td>\n",
" <td>@skyzakard</td>\n",
" <td>170</td>\n",
" <td>본격 딸이 아빠 저작권 침해하는(?) 드라마 &lt;W&gt;, 이거… 흥미롭잖아?\\n어느 곳...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36958</th>\n",
" <td>36958</td>\n",
" <td>@rose602</td>\n",
" <td>7</td>\n",
" <td>버려진 우산의 고백,\\n\"필요할 때만 나를 찾는 당신!\\n그런 당신이 밉지만 그래도...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36959</th>\n",
" <td>36959</td>\n",
" <td>@marupress</td>\n",
" <td>323</td>\n",
" <td>[영화] 히든 피겨스\\n흥미롭고 재미있으며 멋진 영화. 1960년대 미국 우주항공국...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36960</th>\n",
" <td>36960</td>\n",
" <td>@bookdb</td>\n",
" <td>921</td>\n",
" <td>제18회 백석문학상 수상작으로 장철문 시인의 시집 &lt;비유의 바깥&gt;(문학동네/ 201...</td>\n",
" </tr>\n",
" <tr>\n",
" <th>36961</th>\n",
" <td>36961</td>\n",
" <td>@yoonshun</td>\n",
" <td>645</td>\n",
" <td>&lt;Schubert, Trio Klavier, Vn und Vc Nr.2&gt;\\n피아노 ...</td>\n",
" </tr>\n",
" </tbody>\n",
"</table>\n",
"<p>36962 rows × 4 columns</p>\n",
"</div>"
],
"text/plain": [
" Unnamed: 0 profileid postid \\\n",
"0 0 @hiphopdrum 92 \n",
"1 1 @rpyatoo 22 \n",
"2 2 @byulpd 64 \n",
"3 3 @bookdb 938 \n",
"4 4 @ireundal 24 \n",
"5 5 @vitmania86 265 \n",
"6 6 @jong2band 141 \n",
"7 7 @jjason 90 \n",
"8 8 @sgyang 348 \n",
"9 9 @seunghyehan 200 \n",
"10 10 @gyul 199 \n",
"11 11 @vandine47 243 \n",
"12 12 @clementine 528 \n",
"13 13 @mad9335 125 \n",
"14 14 @kaylalim 26 \n",
"15 15 @junei07 93 \n",
"16 16 @byulpd 182 \n",
"17 17 @megustastu 28 \n",
"18 18 @leggievi98 119 \n",
"19 19 @yunjihoon 278 \n",
"20 20 @saebawi 3 \n",
"21 21 @doyoudominic 32 \n",
"22 22 @wssky 27 \n",
"23 23 @skyzakard 67 \n",
"24 24 @critic 36 \n",
"25 25 @thejude 9 \n",
"26 26 @seunghyehan 23 \n",
"27 27 @iamtheminor 2 \n",
"28 28 @poesy 277 \n",
"29 29 @critic 22 \n",
"... ... ... ... \n",
"36932 36932 @tokyomom 27 \n",
"36933 36933 @dladl11 6 \n",
"36934 36934 @leewoosview 60 \n",
"36935 36935 @yunjihoon 261 \n",
"36936 36936 @xkdkxkdk690 167 \n",
"36937 36937 @ung 11 \n",
"36938 36938 @daljasee 43 \n",
"36939 36939 @talkerandwalker 36 \n",
"36940 36940 @tarajay 92 \n",
"36941 36941 @begintalk 2 \n",
"36942 36942 @kisin 286 \n",
"36943 36943 @haine80 53 \n",
"36944 36944 @adamneve3 146 \n",
"36945 36945 @parkdabin 557 \n",
"36946 36946 @sgyang 351 \n",
"36947 36947 @seunghyehan 219 \n",
"36948 36948 @litteratus 108 \n",
"36949 36949 @gyul 180 \n",
"36950 36950 @cli-annah 88 \n",
"36951 36951 @roh222 347 \n",
"36952 36952 @jjason 89 \n",
"36953 36953 @seriousong 135 \n",
"36954 36954 @cli-annah 465 \n",
"36955 36955 @whyall 25 \n",
"36956 36956 @bookdb 1046 \n",
"36957 36957 @skyzakard 170 \n",
"36958 36958 @rose602 7 \n",
"36959 36959 @marupress 323 \n",
"36960 36960 @bookdb 921 \n",
"36961 36961 @yoonshun 645 \n",
"\n",
" strings \n",
"0 책이 두툼해서 조금만 읽고 잘까 하고 펼쳤는데 결말이 너무 궁금해서 끝까지 읽고 말... \n",
"1 아이들에게는 재미있는 영화였던 듯\\n최근 매이저 영화사들이 이런 생각을\\n했었으리라... \n",
"2 부끄러운 스무살을 회상하며\\n난 매일같이 싸웠다. 논쟁을 즐기고 기꺼이 토론에 임하... \n",
"3 배우 박정민 작가인터뷰\\n글을 보면 그 사람을 알 수 있다고 했다. 그 사람의 생각... \n",
"4 현재진행형인 나의 분노를 위해, <쓰리빌보드>\\n분노는 현재진행형 명사다. 물론 그... \n",
"5 소설 마시는 시간 2회\\n11월 5일 두 번째 방송은 소설 속 매력적인 남성 캐릭터... \n",
"6 채소의 온기 _ 토마토 편 레시피 동영상\\n안녕하세요. 종이밴드입니다.\\n<채소의 ... \n",
"7 계단에 쭈그리고 앉은 천태준은 이게 도대체 뭐하는 짓인지 자신이 한심해지고 있었다.... \n",
"8 사람 키우기\\n칼의 신\\n일본 여행을 하다 보면 낯선 것들이 많다. 굳이 문화 충격... \n",
"9 <벚꽃 지는 계절에 그대를 그리워하네>\\n정아은 작가가 쓴 <엄마의 독서>는 양육서... \n",
"10 구름에 가려\\n별도 달도 모두 잠든 밤\\n난 구름만이 남은 밤하늘을 보며\\n어둡게 ... \n",
"11 13. 베토벤의 [현악 4중주 제10번 E♭장조 작품번호 74 하프(String Q... \n",
"12 갑자기 이런 말 하기 뭐하지만, 저는 손가락이 예쁜 사람을 좋아합니다.\\n그런 건 ... \n",
"13 지그문트 바우만 / 동녘\\n‘유동하는 근대 세계에 띄우는 편지’라는 부제를 가지고 ... \n",
"14 제일 좋아하는 만화책이 있다. 몇 번을 읽어도 폭풍감동과 눈물을 흘리는 만화책인데 ... \n",
"15 0089. 일본식 영어\\n일본어로 대화하면서\\n경험 없이는 이해하기 힘든 점이 두가... \n",
"16 나의 모교 S고등학교. 자기소개서에 가장 큰 부분을 차지해야 할 부분은 학력에 겨우... \n",
"17 언론고시생의 스타트업 적응기 #28\\n그러니까 P사는 우리에게 꿈의 직장 같은 곳이... \n",
"18 인터프리터, 테이큰 2\\n[청춘의 덫]이란 드라마에서 심은하는 ‘부셔 버리겠어’라는... \n",
"19 바닷 바람에 실려\\n기타 선율에 얹혀\\n동백꽃 향기에 담겨\\n봄내음 가득한 숲길 따... \n",
"20 주말 새벽이 되면 자연스레 일찍 잠이 깬다. 주말 아침 테니스를 즐기러 가기 때문이... \n",
"21 슬림한 체형의 여자들조차도 자신을 뚱뚱하다고 여기는 경우가 종종 있다.\\n티브이 속... \n",
"22 고양이와 동생\\n고양이가 야옹야옹해요\\n동생도 맘마 맘마 해요\\n엄마가 그 소리에 ... \n",
"23 원래 당신이 준 것이었으니까요, <심인애 씨의 소유>\\n작품명 : 심인애 씨의 소유... \n",
"24 오늘은 금요일이다. 목요일과 금요일, 멜번 센트럴 쇼핑센터는 9시까지 연장 영업한다... \n",
"25 목수J 작가K(3회)\\n어느날 J가 이렇게 말했다.\\n특유의 짜증섞인 말투다.\\n나... \n",
"26 <아동학대에 관한 뒤늦은 기록>을 읽고\\n과거에 누군가 설문 조사 형식으로 포스팅을... \n",
"27 <마이블루베리나이츠> / 노라 존스 'The Story'\\n지금으로부터 10여 년 ... \n",
"28 이런 음울한 겨울\\n투명한 입술에 사탕을 문 소녀가\\n그녀의 아름다움을 발랄하게 뽐... \n",
"29 어떤 게 정의일까 하루에 5 번 쯤 생각한다. 나는 정의성애자다. 그러나 행동이 항... \n",
"... ... \n",
"36932 -이와사키 씨는 2016년 6월 현재도 여행길에 있습니다.\\n만일 당신 손안에 2천... \n",
"36933 마요르카에서 본 스페인 사람들의 와인사랑\\n와인 속물(wine snob)이란 말을 ... \n",
"36934 많은 글을 써왔다. 누가 강요한 것도 아니었지만, 나는 부단하게도 글을 써왔다. 무... \n",
"36935 오리를 굽다가 네가 생각났다\\n버섯도 있었다\\n울컥했다\\n왜 하필 지금일까\\n아무 ... \n",
"36936 인생의 중간 모든 것이 절반 착한 것도 절반\\n악한 것도 절반 영혼 도악 한 것과 ... \n",
"36937 기주가 말했다.\\n- 그거 생각 나? 너 술 마시고 정신 줄 놓고 했던 얘기. 아버... \n",
"36938 어떤 청년이 홀딱 반한 여배우\\n늦은 점심을 때울 겸, 시장통에 있는 국숫집에 들렀... \n",
"36939 생각은\\n유연하다.\\n안 좋게 말하면\\n변덕이겠지.\\n생각은 어디에든 끼워 맞출 수... \n",
"36940 우리는 어쩌면 모두 반쯤 미친 세상에 살고 있는지도 모른다.\\n모예는 며칠 후, 다... \n",
"36941 1. THE MAGICIAN (마법사)\\n1. 마법사(THE MAGICIAN)\\n\\... \n",
"36942 가끔, 이 세상이 아닌 다른 세상을 꿈꾼다.\\n아주 어린 시절, 처음 망원경을 본 ... \n",
"36943 블라디미르 나보코프 <창백한 불꽃>\\n‘<창백한 불꽃>, 999행의 영웅시격 2행 ... \n",
"36944 4월 공통주제 <봄> ㅣ 최미애\\n작가 프로필 ㅣ 최미애\\nIT 9년차 직장인.\\... \n",
"36945 어젯밤, 개구리들이 한바탕 요란하게 울더니, 오늘은 새벽부터 하늘이 거멓게 얼룩져 ... \n",
"36946 삼국유사\\n<통에 아직 물이 남은 까닭>\\n살다 보면 누군가의 뒤를 쫓고 있는 자신... \n",
"36947 <도플갱어의 섬>\\n소싯적에 만화책 좀 봤다 하는 사람 중에 <소년탐정 김전일>과 ... \n",
"36948 수학자의 아침, 김소연\\n한 작가의 시를 꼭꼭 씹어서 한 권의 시집을 덮은 건 이번... \n",
"36949 외로운 밤\\n나는 촛불 앞에 앉아\\n멍하니 불빛을 바라본다\\n흔들리는 불빛\\n아슬아... \n",
"36950 책으로 다독다독 <한 알의 씨앗이 들려주는 작은 철학>\\n처음으로 가슴이 뻥 뚫리는... \n",
"36951 얼마전에 오랜친구를 만나서 이야기를 나누다. 제가 정말 궁금해서 그 친구에게 물었어... \n",
"36952 천태준은 서울 외곽의 초등학교 앞에 와 있었다. 어제 배혁진과장의 와이프를 뒤를 밟... \n",
"36953 촬영 D-1\\n오늘은 드디어 바디프로필을 촬영하는 날이에요.\\n지난 6주는 정말 숨... \n",
"36954 얼마 전 오마이뉴스 기자님에게 '올해 이룬 계획'에 관한 글을 한 편 써달라는 연락... \n",
"36955 영화 <싱글라이더>\\n'사실 그놈이 그놈이 아니었어.' 등과 같은 영화의 흔한 반전... \n",
"36956 배수원 반니출판사 사업부장\\n\\n\"여전히 이 자리에서 책을 만들고 있는 것에 대한 ... \n",
"36957 본격 딸이 아빠 저작권 침해하는(?) 드라마 <W>, 이거… 흥미롭잖아?\\n어느 곳... \n",
"36958 버려진 우산의 고백,\\n\"필요할 때만 나를 찾는 당신!\\n그런 당신이 밉지만 그래도... \n",
"36959 [영화] 히든 피겨스\\n흥미롭고 재미있으며 멋진 영화. 1960년대 미국 우주항공국... \n",
"36960 제18회 백석문학상 수상작으로 장철문 시인의 시집 <비유의 바깥>(문학동네/ 201... \n",
"36961 <Schubert, Trio Klavier, Vn und Vc Nr.2>\\n피아노 ... \n",
"\n",
"[36962 rows x 4 columns]"
]
},
"execution_count": 180,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"data"
]
},
{
"cell_type": "code",
"execution_count": 181,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"# data['strings'] = data['content']"
]
},
{
"cell_type": "code",
"execution_count": 182,
"metadata": {},
"outputs": [],
"source": [
"data['string_tokenize'] = data['strings'].astype(str).map(lambda x: tokenizer.tokenize(x))"
]
},
{
"cell_type": "code",
"execution_count": 183,
"metadata": {},
"outputs": [],
"source": [
"data['string_length'] = data['string_tokenize'].map(lambda x: len(x))"
]
},
{
"cell_type": "code",
"execution_count": 184,
"metadata": {},
"outputs": [],
"source": [
"data['string_ids'] = data['string_tokenize'].map(lambda x: np.array(tokenizer.convert_tokens_to_ids(x)))"
]
},
{
"cell_type": "code",
"execution_count": 185,
"metadata": {},
"outputs": [],
"source": [
"over_256 = data.loc[data['string_length'] > 256,:]"
]
},
{
"cell_type": "code",
"execution_count": 186,
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"28971"
]
},
"execution_count": 186,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"len(over_256)"
]
},
{
"cell_type": "code",
"execution_count": 153,
"metadata": {},
"outputs": [],
"source": [
"# data = pd.read_csv('novelist_id.csv')"
]
},
{
"cell_type": "code",
"execution_count": 154,
"metadata": {},
"outputs": [],
"source": [
"# data"
]
},
{
"cell_type": "code",
"execution_count": 155,
"metadata": {},
"outputs": [],
"source": [
"# over_256 = data.loc[data['string_length'] > 256,:]"
]
},
{
"cell_type": "code",
"execution_count": 156,
"metadata": {},
"outputs": [],
"source": [
"# over_256['string_ids'] = over_256['string_ids'].map(lambda x: np.array(eval(x)))"
]
},
{
"cell_type": "code",
"execution_count": 157,
"metadata": {},
"outputs": [],
"source": [
"# over_256['string_ids'][0].dtype"
]
},
{
"cell_type": "code",
"execution_count": 158,
"metadata": {},
"outputs": [],
"source": [
"# len(over_256)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 각 카테고리별 키워드 - 256자 이상의 글\n",
"# 0 = 문학 글 30000\n",
"# 1 = 에세이스트 45000 -> 191119 학습 돌림"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 0 = 자기계발 - 85823개\n",
"# 1 = 창작 - 10968\n",
"# 2 = 작가지망생 - 20751"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 소설가, 창작, 소설"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# 191120: 아예 다 모아서 돌려버리기\n",
"# 0 = 191113 데이터모음 - 68863\n",
"# 1 = 문학 = 31865\n",
"# 2 = 작가지망생 = 20751\n",
"# 3 = 대학내일 에세이 = 175\n",
"# 4 = 사이버문학광장수필 = 2783\n",
"# 5 = 에세이스트 = 45031\n",
"# 6 = 소설가 = 8293\n",
"# 7 = 자기계발 = 85823\n",
"# 8 = 창작 = 10968\n",
"# 9 = 에세이 = 62628\n",
"# 10 = 소설 = 28971"
]
},
{
"cell_type": "code",
"execution_count": 54,
"metadata": {},
"outputs": [],
"source": [
"import h5py\n",
"import numpy as np\n",
"\n",
"f = h5py.File('get_all_data.hdf5', 'w')\n",
"category = f.create_group('category')"
]
},
{
"cell_type": "code",
"execution_count": 55,
"metadata": {},
"outputs": [],
"source": [
"dt = h5py.special_dtype(vlen=np.dtype('int32'))"
]
},
{
"cell_type": "code",
"execution_count": 56,
"metadata": {},
"outputs": [],
"source": [
"d0 = category.create_dataset('0', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 57,
"metadata": {},
"outputs": [],
"source": [
"d0[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 74,
"metadata": {
"collapsed": true
},
"outputs": [
{
"ename": "OSError",
"evalue": "Unable to create link (name already exists)",
"output_type": "error",
"traceback": [
"\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
"\u001b[0;31mOSError\u001b[0m Traceback (most recent call last)",
"\u001b[0;32m<ipython-input-74-8414c35acd5c>\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[0;32m----> 1\u001b[0;31m \u001b[0md1\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mcategory\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mcreate_dataset\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m'1'\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mover_256\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m'string_ids'\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mto_numpy\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mshape\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mdtype\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdt\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m",
"\u001b[0;32m/anaconda3/envs/python3/lib/python3.7/site-packages/h5py/_hl/group.py\u001b[0m in \u001b[0;36mcreate_dataset\u001b[0;34m(self, name, shape, dtype, data, **kwds)\u001b[0m\n\u001b[1;32m 137\u001b[0m \u001b[0mdset\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdataset\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mDataset\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mdsid\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 138\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0mname\u001b[0m \u001b[0;32mis\u001b[0m \u001b[0;32mnot\u001b[0m \u001b[0;32mNone\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 139\u001b[0;31m \u001b[0mself\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0mname\u001b[0m\u001b[0;34m]\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mdset\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 140\u001b[0m \u001b[0;32mreturn\u001b[0m \u001b[0mdset\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 141\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n",
"\u001b[0;32m/anaconda3/envs/python3/lib/python3.7/site-packages/h5py/_hl/group.py\u001b[0m in \u001b[0;36m__setitem__\u001b[0;34m(self, name, obj)\u001b[0m\n\u001b[1;32m 369\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 370\u001b[0m \u001b[0;32mif\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobj\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mHLObject\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 371\u001b[0;31m \u001b[0mh5o\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mlink\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobj\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mid\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mid\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mname\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mlcpl\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mlcpl\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mlapl\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0m_lapl\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m 372\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m 373\u001b[0m \u001b[0;32melif\u001b[0m \u001b[0misinstance\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mobj\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mSoftLink\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
"\u001b[0;32mh5py/_objects.pyx\u001b[0m in \u001b[0;36mh5py._objects.with_phil.wrapper\u001b[0;34m()\u001b[0m\n",
"\u001b[0;32mh5py/_objects.pyx\u001b[0m in \u001b[0;36mh5py._objects.with_phil.wrapper\u001b[0;34m()\u001b[0m\n",
"\u001b[0;32mh5py/h5o.pyx\u001b[0m in \u001b[0;36mh5py.h5o.link\u001b[0;34m()\u001b[0m\n",
"\u001b[0;31mOSError\u001b[0m: Unable to create link (name already exists)"
]
}
],
"source": [
"d1 = category.create_dataset('1', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 75,
"metadata": {},
"outputs": [],
"source": [
"d1[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 83,
"metadata": {},
"outputs": [],
"source": [
"d2 = category.create_dataset('2', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 84,
"metadata": {},
"outputs": [],
"source": [
"d2[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 90,
"metadata": {},
"outputs": [],
"source": [
"d3 = category.create_dataset('3', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 106,
"metadata": {},
"outputs": [],
"source": [
"d3[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 119,
"metadata": {},
"outputs": [],
"source": [
"d4 = category.create_dataset('4', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 120,
"metadata": {},
"outputs": [],
"source": [
"d4[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 128,
"metadata": {},
"outputs": [],
"source": [
"d5 = category.create_dataset('5', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 129,
"metadata": {},
"outputs": [],
"source": [
"d5[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 137,
"metadata": {},
"outputs": [],
"source": [
"d6 = category.create_dataset('6', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 144,
"metadata": {},
"outputs": [],
"source": [
"d6[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 159,
"metadata": {},
"outputs": [],
"source": [
"d7 = category.create_dataset('7', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 160,
"metadata": {},
"outputs": [],
"source": [
"d7[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 168,
"metadata": {},
"outputs": [],
"source": [
"d8 = category.create_dataset('8', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 169,
"metadata": {},
"outputs": [],
"source": [
"d8[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 177,
"metadata": {},
"outputs": [],
"source": [
"d9 = category.create_dataset('9', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 178,
"metadata": {},
"outputs": [],
"source": [
"d9[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": 187,
"metadata": {},
"outputs": [],
"source": [
"d10 = category.create_dataset('10', over_256['string_ids'].to_numpy().shape, dtype = dt)"
]
},
{
"cell_type": "code",
"execution_count": 188,
"metadata": {},
"outputs": [],
"source": [
"d10[...] = over_256['string_ids'].to_numpy()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": 35,
"metadata": {
"scrolled": true
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"3765\n",
"1267\n",
"556\n",
"1894\n",
"2542\n",
"1386\n",
"3062\n",
"624\n",
"2300\n",
"407\n",
"523\n"
]
}
],
"source": [
"for idx, i in enumerate(d1):\n",
" print(len(i))\n",
" if idx == 10:\n",
" break"
]
},
{
"cell_type": "code",
"execution_count": 189,
"metadata": {},
"outputs": [],
"source": [
"f.close()"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.3"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment