Created
February 7, 2017 08:21
-
-
Save hiroto-takatoshi/c593aba20e3c0bb44bfd43182390fac3 to your computer and use it in GitHub Desktop.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
{ | |
"cells": [ | |
{ | |
"cell_type": "code", | |
"execution_count": 1, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [ | |
"import numpy as np\n", | |
"from sklearn.feature_extraction.text import TfidfVectorizer\n", | |
"from sklearn.cluster import KMeans\n", | |
"import jieba" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 2, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [ | |
"np.set_printoptions(precision=2)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 5, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [ | |
"import nltk\n", | |
"import codecs" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 13, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [], | |
"source": [ | |
"with codecs.open('text.txt','r','utf-8') as f:\n", | |
" docs = f.readlines()" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 16, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [], | |
"source": [ | |
"doc = []\n", | |
"for x in docs:\n", | |
" doc.append(x.rstrip())" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 53, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [], | |
"source": [ | |
"docs = []\n", | |
"for x in doc:\n", | |
" y = jieba.cut(x)\n", | |
" yy = []\n", | |
" for z in y:\n", | |
" if re.findall(r\"[\\w']+\", z):\n", | |
" yy.append(z)\n", | |
" docs.append(yy)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 54, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"[['新世纪',\n", | |
" '以来',\n", | |
" '指导',\n", | |
" '三农',\n", | |
" '工作',\n", | |
" '的',\n", | |
" '第',\n", | |
" '14',\n", | |
" '份',\n", | |
" '中央',\n", | |
" '一号',\n", | |
" '文件',\n", | |
" '5',\n", | |
" '日',\n", | |
" '由',\n", | |
" '新华社',\n", | |
" '受权',\n", | |
" '发布'],\n", | |
" ['这份',\n", | |
" '文件',\n", | |
" '题为',\n", | |
" '中共中央',\n", | |
" '国务院',\n", | |
" '关于',\n", | |
" '深入',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '加快',\n", | |
" '培育',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '新',\n", | |
" '动能',\n", | |
" '的',\n", | |
" '若干意见',\n", | |
" '全文',\n", | |
" '约',\n", | |
" '13000',\n", | |
" '字',\n", | |
" '共分',\n", | |
" '6',\n", | |
" '个',\n", | |
" '部分',\n", | |
" '33',\n", | |
" '条',\n", | |
" '包括',\n", | |
" '优化',\n", | |
" '产品',\n", | |
" '产业结构',\n", | |
" '着力',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '提质',\n", | |
" '增效',\n", | |
" '推行',\n", | |
" '绿色',\n", | |
" '生产方式',\n", | |
" '增强',\n", | |
" '农业',\n", | |
" '可',\n", | |
" '持续',\n", | |
" '发展',\n", | |
" '能力',\n", | |
" '壮大',\n", | |
" '新',\n", | |
" '产业',\n", | |
" '新',\n", | |
" '业态',\n", | |
" '拓展',\n", | |
" '农业',\n", | |
" '产业链',\n", | |
" '价值链',\n", | |
" '强化',\n", | |
" '科技',\n", | |
" '创新',\n", | |
" '驱动',\n", | |
" '引领',\n", | |
" '现代农业',\n", | |
" '加快',\n", | |
" '发展',\n", | |
" '补齐',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '短板',\n", | |
" '夯实',\n", | |
" '农村',\n", | |
" '共享',\n", | |
" '发展',\n", | |
" '基础',\n", | |
" '加大',\n", | |
" '农村',\n", | |
" '改革',\n", | |
" '力度',\n", | |
" '激活',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '内生',\n", | |
" '发展',\n", | |
" '动力'],\n", | |
" ['文件',\n", | |
" '指出',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '要',\n", | |
" '在',\n", | |
" '确保',\n", | |
" '国家',\n", | |
" '粮食安全',\n", | |
" '的',\n", | |
" '基础',\n", | |
" '上',\n", | |
" '紧紧围绕',\n", | |
" '市场需求',\n", | |
" '变化',\n", | |
" '以',\n", | |
" '增加',\n", | |
" '农民收入',\n", | |
" '保障',\n", | |
" '有效',\n", | |
" '供给',\n", | |
" '为',\n", | |
" '主要',\n", | |
" '目标',\n", | |
" '以',\n", | |
" '提高',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '质量',\n", | |
" '为主',\n", | |
" '攻',\n", | |
" '方向',\n", | |
" '以',\n", | |
" '体制改革',\n", | |
" '和',\n", | |
" '机制',\n", | |
" '创新',\n", | |
" '为',\n", | |
" '根本途径',\n", | |
" '优化',\n", | |
" '农业产业',\n", | |
" '体系',\n", | |
" '生产',\n", | |
" '体系',\n", | |
" '经营',\n", | |
" '体系',\n", | |
" '提高',\n", | |
" '土地',\n", | |
" '产出率',\n", | |
" '资源',\n", | |
" '利用率',\n", | |
" '劳动生产率',\n", | |
" '促进',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '由',\n", | |
" '过度',\n", | |
" '依赖',\n", | |
" '资源',\n", | |
" '消耗',\n", | |
" '主要',\n", | |
" '满足',\n", | |
" '量',\n", | |
" '的',\n", | |
" '需求',\n", | |
" '向',\n", | |
" '追求',\n", | |
" '绿色生态',\n", | |
" '可',\n", | |
" '持续',\n", | |
" '更加',\n", | |
" '注重',\n", | |
" '满足',\n", | |
" '质',\n", | |
" '的',\n", | |
" '需求',\n", | |
" '转变'],\n", | |
" ['文件',\n", | |
" '强调',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '是',\n", | |
" '一个',\n", | |
" '长期',\n", | |
" '过程',\n", | |
" '处理',\n", | |
" '好',\n", | |
" '政府',\n", | |
" '和',\n", | |
" '市场',\n", | |
" '关系',\n", | |
" '协调',\n", | |
" '好',\n", | |
" '各',\n", | |
" '方面',\n", | |
" '利益',\n", | |
" '面临',\n", | |
" '许多',\n", | |
" '重大',\n", | |
" '考验',\n", | |
" '必须',\n", | |
" '直面',\n", | |
" '困难',\n", | |
" '和',\n", | |
" '挑战',\n", | |
" '坚定不移',\n", | |
" '推进改革',\n", | |
" '勇于',\n", | |
" '承受',\n", | |
" '改革',\n", | |
" '阵痛',\n", | |
" '尽力',\n", | |
" '降低',\n", | |
" '改革',\n", | |
" '成本',\n", | |
" '积极',\n", | |
" '防范',\n", | |
" '改革',\n", | |
" '风险',\n", | |
" '确保',\n", | |
" '粮食',\n", | |
" '生产能力',\n", | |
" '不',\n", | |
" '降低',\n", | |
" '农民',\n", | |
" '增收',\n", | |
" '势头',\n", | |
" '不',\n", | |
" '逆转',\n", | |
" '农村',\n", | |
" '稳定',\n", | |
" '不',\n", | |
" '出',\n", | |
" '问题'],\n", | |
" ['近几年',\n", | |
" '我国',\n", | |
" '在',\n", | |
" '农业',\n", | |
" '转',\n", | |
" '方式',\n", | |
" '调',\n", | |
" '结构',\n", | |
" '促',\n", | |
" '改革',\n", | |
" '等',\n", | |
" '方面',\n", | |
" '进行',\n", | |
" '了',\n", | |
" '积极探索',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '虽然',\n", | |
" '开',\n", | |
" '了',\n", | |
" '头',\n", | |
" '有',\n", | |
" '进展',\n", | |
" '但',\n", | |
" '需要',\n", | |
" '在',\n", | |
" '发展',\n", | |
" '目标',\n", | |
" '上',\n", | |
" '再',\n", | |
" '聚焦',\n", | |
" '在',\n", | |
" '工作',\n", | |
" '路数',\n", | |
" '上',\n", | |
" '再',\n", | |
" '理清',\n", | |
" '在',\n", | |
" '政策',\n", | |
" '举措',\n", | |
" '上',\n", | |
" '再',\n", | |
" '加力',\n", | |
" '中央',\n", | |
" '农村',\n", | |
" '工作',\n", | |
" '领导小组',\n", | |
" '副组长',\n", | |
" '中央',\n", | |
" '农办',\n", | |
" '主任',\n", | |
" '唐仁健',\n", | |
" '说',\n", | |
" '只有',\n", | |
" '牢牢',\n", | |
" '把握住',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '这',\n", | |
" '条',\n", | |
" '主线',\n", | |
" '为',\n", | |
" '整个',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '当好',\n", | |
" '先锋',\n", | |
" '提供',\n", | |
" '支撑',\n", | |
" '才能',\n", | |
" '开辟',\n", | |
" '出',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '的',\n", | |
" '新',\n", | |
" '境界']]" | |
] | |
}, | |
"execution_count": 54, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"docs" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 50, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [], | |
"source": [ | |
"import re\n", | |
"stopwords = codecs.open('stopwords.txt', 'r', 'utf-8').read()\n", | |
"stopwords = re.findall(r\"[\\w']+\", stopwords)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 55, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [], | |
"source": [ | |
"for x in stopwords:\n", | |
" for y in docs:\n", | |
" while x in y:\n", | |
" y.remove(x)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 56, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"[['新世纪',\n", | |
" '指导',\n", | |
" '三农',\n", | |
" '工作',\n", | |
" '14',\n", | |
" '份',\n", | |
" '中央',\n", | |
" '一号',\n", | |
" '文件',\n", | |
" '5',\n", | |
" '日',\n", | |
" '新华社',\n", | |
" '受权',\n", | |
" '发布'],\n", | |
" ['这份',\n", | |
" '文件',\n", | |
" '题为',\n", | |
" '中共中央',\n", | |
" '国务院',\n", | |
" '关于',\n", | |
" '深入',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '加快',\n", | |
" '培育',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '新',\n", | |
" '动能',\n", | |
" '若干意见',\n", | |
" '全文',\n", | |
" '约',\n", | |
" '13000',\n", | |
" '字',\n", | |
" '共分',\n", | |
" '6',\n", | |
" '部分',\n", | |
" '33',\n", | |
" '条',\n", | |
" '包括',\n", | |
" '优化',\n", | |
" '产品',\n", | |
" '产业结构',\n", | |
" '着力',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '提质',\n", | |
" '增效',\n", | |
" '推行',\n", | |
" '绿色',\n", | |
" '生产方式',\n", | |
" '增强',\n", | |
" '农业',\n", | |
" '持续',\n", | |
" '发展',\n", | |
" '能力',\n", | |
" '壮大',\n", | |
" '新',\n", | |
" '产业',\n", | |
" '新',\n", | |
" '业态',\n", | |
" '拓展',\n", | |
" '农业',\n", | |
" '产业链',\n", | |
" '价值链',\n", | |
" '强化',\n", | |
" '科技',\n", | |
" '创新',\n", | |
" '驱动',\n", | |
" '引领',\n", | |
" '现代农业',\n", | |
" '加快',\n", | |
" '发展',\n", | |
" '补齐',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '短板',\n", | |
" '夯实',\n", | |
" '农村',\n", | |
" '共享',\n", | |
" '发展',\n", | |
" '基础',\n", | |
" '加大',\n", | |
" '农村',\n", | |
" '改革',\n", | |
" '力度',\n", | |
" '激活',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '内生',\n", | |
" '发展',\n", | |
" '动力'],\n", | |
" ['文件',\n", | |
" '指出',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '确保',\n", | |
" '国家',\n", | |
" '粮食安全',\n", | |
" '基础',\n", | |
" '紧紧围绕',\n", | |
" '市场需求',\n", | |
" '变化',\n", | |
" '增加',\n", | |
" '农民收入',\n", | |
" '保障',\n", | |
" '有效',\n", | |
" '供给',\n", | |
" '主要',\n", | |
" '目标',\n", | |
" '提高',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '质量',\n", | |
" '为主',\n", | |
" '攻',\n", | |
" '方向',\n", | |
" '体制改革',\n", | |
" '机制',\n", | |
" '创新',\n", | |
" '根本途径',\n", | |
" '优化',\n", | |
" '农业产业',\n", | |
" '体系',\n", | |
" '生产',\n", | |
" '体系',\n", | |
" '经营',\n", | |
" '体系',\n", | |
" '提高',\n", | |
" '土地',\n", | |
" '产出率',\n", | |
" '资源',\n", | |
" '利用率',\n", | |
" '劳动生产率',\n", | |
" '促进',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '过度',\n", | |
" '依赖',\n", | |
" '资源',\n", | |
" '消耗',\n", | |
" '主要',\n", | |
" '满足',\n", | |
" '量',\n", | |
" '需求',\n", | |
" '追求',\n", | |
" '绿色生态',\n", | |
" '持续',\n", | |
" '更加',\n", | |
" '注重',\n", | |
" '满足',\n", | |
" '质',\n", | |
" '需求',\n", | |
" '转变'],\n", | |
" ['文件',\n", | |
" '强调',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '一个',\n", | |
" '长期',\n", | |
" '过程',\n", | |
" '处理',\n", | |
" '政府',\n", | |
" '市场',\n", | |
" '关系',\n", | |
" '协调',\n", | |
" '方面',\n", | |
" '利益',\n", | |
" '面临',\n", | |
" '重大',\n", | |
" '考验',\n", | |
" '必须',\n", | |
" '直面',\n", | |
" '困难',\n", | |
" '挑战',\n", | |
" '坚定不移',\n", | |
" '推进改革',\n", | |
" '勇于',\n", | |
" '承受',\n", | |
" '改革',\n", | |
" '阵痛',\n", | |
" '尽力',\n", | |
" '降低',\n", | |
" '改革',\n", | |
" '成本',\n", | |
" '积极',\n", | |
" '防范',\n", | |
" '改革',\n", | |
" '风险',\n", | |
" '确保',\n", | |
" '粮食',\n", | |
" '生产能力',\n", | |
" '降低',\n", | |
" '农民',\n", | |
" '增收',\n", | |
" '势头',\n", | |
" '逆转',\n", | |
" '农村',\n", | |
" '稳定',\n", | |
" '出',\n", | |
" '问题'],\n", | |
" ['近几年',\n", | |
" '我国',\n", | |
" '农业',\n", | |
" '转',\n", | |
" '方式',\n", | |
" '调',\n", | |
" '结构',\n", | |
" '促',\n", | |
" '改革',\n", | |
" '方面',\n", | |
" '进行',\n", | |
" '积极探索',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '开',\n", | |
" '头',\n", | |
" '进展',\n", | |
" '需要',\n", | |
" '发展',\n", | |
" '目标',\n", | |
" '聚焦',\n", | |
" '工作',\n", | |
" '路数',\n", | |
" '理清',\n", | |
" '政策',\n", | |
" '举措',\n", | |
" '加力',\n", | |
" '中央',\n", | |
" '农村',\n", | |
" '工作',\n", | |
" '领导小组',\n", | |
" '副组长',\n", | |
" '中央',\n", | |
" '农办',\n", | |
" '主任',\n", | |
" '唐仁健',\n", | |
" '说',\n", | |
" '牢牢',\n", | |
" '把握住',\n", | |
" '推进',\n", | |
" '农业',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '条',\n", | |
" '主线',\n", | |
" '整个',\n", | |
" '供给',\n", | |
" '侧',\n", | |
" '结构性',\n", | |
" '改革',\n", | |
" '当好',\n", | |
" '先锋',\n", | |
" '提供',\n", | |
" '支撑',\n", | |
" '开辟',\n", | |
" '出',\n", | |
" '农业',\n", | |
" '农村',\n", | |
" '发展',\n", | |
" '新',\n", | |
" '境界']]" | |
] | |
}, | |
"execution_count": 56, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"docs" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 57, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [ | |
"doc1 = np.array(docs)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 58, | |
"metadata": { | |
"collapsed": false, | |
"scrolled": true | |
}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"array([ ['新世纪', '指导', '三农', '工作', '14', '份', '中央', '一号', '文件', '5', '日', '新华社', '受权', '发布'],\n", | |
" ['这份', '文件', '题为', '中共中央', '国务院', '关于', '深入', '推进', '农业', '供给', '侧', '结构性', '改革', '加快', '培育', '农业', '农村', '发展', '新', '动能', '若干意见', '全文', '约', '13000', '字', '共分', '6', '部分', '33', '条', '包括', '优化', '产品', '产业结构', '着力', '推进', '农业', '提质', '增效', '推行', '绿色', '生产方式', '增强', '农业', '持续', '发展', '能力', '壮大', '新', '产业', '新', '业态', '拓展', '农业', '产业链', '价值链', '强化', '科技', '创新', '驱动', '引领', '现代农业', '加快', '发展', '补齐', '农业', '农村', '短板', '夯实', '农村', '共享', '发展', '基础', '加大', '农村', '改革', '力度', '激活', '农业', '农村', '内生', '发展', '动力'],\n", | |
" ['文件', '指出', '推进', '农业', '供给', '侧', '结构性', '改革', '确保', '国家', '粮食安全', '基础', '紧紧围绕', '市场需求', '变化', '增加', '农民收入', '保障', '有效', '供给', '主要', '目标', '提高', '农业', '供给', '质量', '为主', '攻', '方向', '体制改革', '机制', '创新', '根本途径', '优化', '农业产业', '体系', '生产', '体系', '经营', '体系', '提高', '土地', '产出率', '资源', '利用率', '劳动生产率', '促进', '农业', '农村', '发展', '过度', '依赖', '资源', '消耗', '主要', '满足', '量', '需求', '追求', '绿色生态', '持续', '更加', '注重', '满足', '质', '需求', '转变'],\n", | |
" ['文件', '强调', '推进', '农业', '供给', '侧', '结构性', '改革', '一个', '长期', '过程', '处理', '政府', '市场', '关系', '协调', '方面', '利益', '面临', '重大', '考验', '必须', '直面', '困难', '挑战', '坚定不移', '推进改革', '勇于', '承受', '改革', '阵痛', '尽力', '降低', '改革', '成本', '积极', '防范', '改革', '风险', '确保', '粮食', '生产能力', '降低', '农民', '增收', '势头', '逆转', '农村', '稳定', '出', '问题'],\n", | |
" ['近几年', '我国', '农业', '转', '方式', '调', '结构', '促', '改革', '方面', '进行', '积极探索', '农业', '供给', '侧', '结构性', '改革', '开', '头', '进展', '需要', '发展', '目标', '聚焦', '工作', '路数', '理清', '政策', '举措', '加力', '中央', '农村', '工作', '领导小组', '副组长', '中央', '农办', '主任', '唐仁健', '说', '牢牢', '把握住', '推进', '农业', '供给', '侧', '结构性', '改革', '条', '主线', '整个', '供给', '侧', '结构性', '改革', '当好', '先锋', '提供', '支撑', '开辟', '出', '农业', '农村', '发展', '新', '境界']], dtype=object)" | |
] | |
}, | |
"execution_count": 58, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"doc1" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 64, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"['新世纪 指导 三农 工作 14 份 中央 一号 文件 5 日 新华社 受权 发布',\n", | |
" '这份 文件 题为 中共中央 国务院 关于 深入 推进 农业 供给 侧 结构性 改革 加快 培育 农业 农村 发展 新 动能 若干意见 全文 约 13000 字 共分 6 部分 33 条 包括 优化 产品 产业结构 着力 推进 农业 提质 增效 推行 绿色 生产方式 增强 农业 持续 发展 能力 壮大 新 产业 新 业态 拓展 农业 产业链 价值链 强化 科技 创新 驱动 引领 现代农业 加快 发展 补齐 农业 农村 短板 夯实 农村 共享 发展 基础 加大 农村 改革 力度 激活 农业 农村 内生 发展 动力',\n", | |
" '文件 指出 推进 农业 供给 侧 结构性 改革 确保 国家 粮食安全 基础 紧紧围绕 市场需求 变化 增加 农民收入 保障 有效 供给 主要 目标 提高 农业 供给 质量 为主 攻 方向 体制改革 机制 创新 根本途径 优化 农业产业 体系 生产 体系 经营 体系 提高 土地 产出率 资源 利用率 劳动生产率 促进 农业 农村 发展 过度 依赖 资源 消耗 主要 满足 量 需求 追求 绿色生态 持续 更加 注重 满足 质 需求 转变',\n", | |
" '文件 强调 推进 农业 供给 侧 结构性 改革 一个 长期 过程 处理 政府 市场 关系 协调 方面 利益 面临 重大 考验 必须 直面 困难 挑战 坚定不移 推进改革 勇于 承受 改革 阵痛 尽力 降低 改革 成本 积极 防范 改革 风险 确保 粮食 生产能力 降低 农民 增收 势头 逆转 农村 稳定 出 问题',\n", | |
" '近几年 我国 农业 转 方式 调 结构 促 改革 方面 进行 积极探索 农业 供给 侧 结构性 改革 开 头 进展 需要 发展 目标 聚焦 工作 路数 理清 政策 举措 加力 中央 农村 工作 领导小组 副组长 中央 农办 主任 唐仁健 说 牢牢 把握住 推进 农业 供给 侧 结构性 改革 条 主线 整个 供给 侧 结构性 改革 当好 先锋 提供 支撑 开辟 出 农业 农村 发展 新 境界']" | |
] | |
}, | |
"execution_count": 64, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"doc2 = []\n", | |
"for x in doc1:\n", | |
" doc2.append(' '.join(x))\n", | |
"doc2" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 65, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [ | |
"vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\\\b\\\\w+\\\\b')\n", | |
"vecs = vectorizer.fit_transform(doc2)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 67, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [ | |
{ | |
"name": "stdout", | |
"output_type": "stream", | |
"text": [ | |
"[[ 0. 0.28 0. 0.28 0. 0. 0.28 0.28 0. 0. 0.23 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28 0.28\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0.23 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.16 0. 0.28 0.28 0. 0. 0. 0.28 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. ]\n", | |
" [ 0.1 0. 0.1 0. 0.1 0. 0. 0. 0.1 0.1 0. 0. 0.\n", | |
" 0. 0. 0. 0.1 0.1 0.1 0. 0.1 0.1 0. 0.08 0. 0.\n", | |
" 0.06 0. 0.06 0. 0. 0. 0. 0.1 0.1 0.1 0.1 0.\n", | |
" 0.1 0.4 0. 0. 0.28 0. 0. 0. 0.08 0. 0. 0.\n", | |
" 0.1 0. 0.1 0.2 0.1 0.1 0. 0. 0. 0.1 0. 0.34\n", | |
" 0. 0. 0. 0. 0. 0.1 0. 0. 0. 0.1 0.08 0. 0.\n", | |
" 0.1 0. 0.1 0.1 0. 0.1 0. 0.1 0. 0. 0. 0. 0.\n", | |
" 0. 0.1 0.1 0. 0. 0. 0. 0. 0. 0. 0.1 0.08\n", | |
" 0. 0. 0. 0.1 0.11 0. 0. 0.1 0. 0. 0.11 0. 0.\n", | |
" 0. 0. 0.06 0.24 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.08 0. 0. 0. 0.1 0. 0.1 0. 0.1 0. 0. 0.1\n", | |
" 0. 0. 0. 0.1 0.1 0. 0.1 0. 0. 0. 0. 0. 0.\n", | |
" 0.1 0. 0. 0.06 0.1 0. 0. 0. 0.1 0.1 0.1 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.1 0. 0. 0.\n", | |
" 0. 0.1 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.1 0. 0.1 ]\n", | |
" [ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.11\n", | |
" 0. 0. 0.23 0. 0. 0. 0. 0.11 0. 0. 0. 0.09\n", | |
" 0.11 0.34 0.19 0.11 0.06 0. 0.11 0.11 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0.19 0.11 0. 0.06 0. 0.11 0. 0.09 0.11 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0.11 0. 0. 0. 0. 0.08\n", | |
" 0. 0. 0.11 0. 0. 0. 0.11 0.11 0. 0. 0.09 0.\n", | |
" 0.11 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.11 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.09 0.11 0. 0. 0. 0.06 0. 0. 0. 0.23 0. 0.06\n", | |
" 0.11 0. 0. 0. 0.06 0. 0. 0. 0.11 0. 0. 0.\n", | |
" 0.11 0.11 0.11 0. 0.11 0.11 0.11 0. 0.23 0. 0. 0. 0.\n", | |
" 0.11 0. 0. 0.09 0. 0. 0. 0.09 0. 0. 0. 0. 0.\n", | |
" 0.11 0.11 0. 0.11 0. 0.06 0. 0.11 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0.11 0.11 0.23 0. 0. 0.11 0.11 0. 0. 0. 0.\n", | |
" 0. 0.11 0. 0. 0. 0.11 0. 0. 0. 0. 0. 0.23\n", | |
" 0. 0. 0. 0. 0. 0. ]\n", | |
" [ 0. 0. 0. 0. 0. 0.14 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0.08 0. 0.08 0. 0. 0. 0. 0. 0. 0. 0. 0.14\n", | |
" 0. 0.08 0. 0. 0.08 0.14 0. 0.12 0. 0. 0.14 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0.14 0.14 0. 0.14 0. 0. 0.\n", | |
" 0. 0. 0.14 0. 0. 0. 0.14 0. 0. 0. 0. 0.\n", | |
" 0.14 0. 0. 0.14 0. 0. 0. 0.14 0. 0.14 0. 0. 0.\n", | |
" 0. 0. 0.14 0. 0.14 0.14 0. 0.14 0. 0. 0. 0. 0.\n", | |
" 0.14 0. 0.08 0.14 0. 0. 0. 0. 0.32 0. 0.14 0. 0.\n", | |
" 0.08 0. 0. 0. 0. 0. 0.12 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.14 0.\n", | |
" 0.14 0. 0. 0.12 0. 0.14 0. 0.14 0.14 0. 0. 0. 0.\n", | |
" 0. 0.08 0. 0. 0.14 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0. 0. 0. 0. 0.14 0. 0. 0. 0. 0. 0.14\n", | |
" 0. 0.14 0. 0.14 0.14 0.14 0.14 0.29 0. 0. 0.14 0. 0.\n", | |
" 0.14 0. ]\n", | |
" [ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.2 0.\n", | |
" 0.12 0.12 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0. 0.\n", | |
" 0. 0.21 0. 0.21 0.12 0. 0. 0.12 0. 0. 0. 0. 0.\n", | |
" 0. 0.28 0. 0.12 0.14 0. 0. 0.1 0. 0. 0. 0.12\n", | |
" 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.17\n", | |
" 0. 0. 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0.12\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0.12 0. 0. 0.2 0. 0.\n", | |
" 0.12 0.12 0. 0. 0. 0.12 0. 0. 0.12 0. 0.12 0. 0.\n", | |
" 0. 0. 0. 0. 0.07 0. 0.12 0. 0. 0.12 0.28 0. 0.\n", | |
" 0.12 0.12 0. 0.1 0. 0. 0. 0.12 0.1 0. 0. 0. 0.\n", | |
" 0.1 0. 0. 0. 0. 0. 0. 0.12 0. 0.12 0. 0. 0.\n", | |
" 0.1 0. 0. 0. 0. 0. 0. 0.12 0. 0. 0. 0. 0.\n", | |
" 0. 0.12 0.21 0. 0. 0. 0.12 0. 0. 0. 0.12 0.12\n", | |
" 0. 0. 0. 0.12 0.12 0. 0. 0. 0.12 0. 0.12 0.12\n", | |
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.12\n", | |
" 0. 0.12 0. 0. 0. ]]\n" | |
] | |
} | |
], | |
"source": [ | |
"print (vecs.toarray())" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 70, | |
"metadata": { | |
"collapsed": false | |
}, | |
"outputs": [ | |
{ | |
"name": "stdout", | |
"output_type": "stream", | |
"text": [ | |
"0 ['新世纪', '指导', '三农', '工作', '14', '份', '中央', '一号', '文件', '5', '日', '新华社', '受权', '发布']\n", | |
"1 ['这份', '文件', '题为', '中共中央', '国务院', '关于', '深入', '推进', '农业', '供给', '侧', '结构性', '改革', '加快', '培育', '农业', '农村', '发展', '新', '动能', '若干意见', '全文', '约', '13000', '字', '共分', '6', '部分', '33', '条', '包括', '优化', '产品', '产业结构', '着力', '推进', '农业', '提质', '增效', '推行', '绿色', '生产方式', '增强', '农业', '持续', '发展', '能力', '壮大', '新', '产业', '新', '业态', '拓展', '农业', '产业链', '价值链', '强化', '科技', '创新', '驱动', '引领', '现代农业', '加快', '发展', '补齐', '农业', '农村', '短板', '夯实', '农村', '共享', '发展', '基础', '加大', '农村', '改革', '力度', '激活', '农业', '农村', '内生', '发展', '动力']\n", | |
"1 ['文件', '指出', '推进', '农业', '供给', '侧', '结构性', '改革', '确保', '国家', '粮食安全', '基础', '紧紧围绕', '市场需求', '变化', '增加', '农民收入', '保障', '有效', '供给', '主要', '目标', '提高', '农业', '供给', '质量', '为主', '攻', '方向', '体制改革', '机制', '创新', '根本途径', '优化', '农业产业', '体系', '生产', '体系', '经营', '体系', '提高', '土地', '产出率', '资源', '利用率', '劳动生产率', '促进', '农业', '农村', '发展', '过度', '依赖', '资源', '消耗', '主要', '满足', '量', '需求', '追求', '绿色生态', '持续', '更加', '注重', '满足', '质', '需求', '转变']\n", | |
"2 ['文件', '强调', '推进', '农业', '供给', '侧', '结构性', '改革', '一个', '长期', '过程', '处理', '政府', '市场', '关系', '协调', '方面', '利益', '面临', '重大', '考验', '必须', '直面', '困难', '挑战', '坚定不移', '推进改革', '勇于', '承受', '改革', '阵痛', '尽力', '降低', '改革', '成本', '积极', '防范', '改革', '风险', '确保', '粮食', '生产能力', '降低', '农民', '增收', '势头', '逆转', '农村', '稳定', '出', '问题']\n", | |
"1 ['近几年', '我国', '农业', '转', '方式', '调', '结构', '促', '改革', '方面', '进行', '积极探索', '农业', '供给', '侧', '结构性', '改革', '开', '头', '进展', '需要', '发展', '目标', '聚焦', '工作', '路数', '理清', '政策', '举措', '加力', '中央', '农村', '工作', '领导小组', '副组长', '中央', '农办', '主任', '唐仁健', '说', '牢牢', '把握住', '推进', '农业', '供给', '侧', '结构性', '改革', '条', '主线', '整个', '供给', '侧', '结构性', '改革', '当好', '先锋', '提供', '支撑', '开辟', '出', '农业', '农村', '发展', '新', '境界']\n" | |
] | |
} | |
], | |
"source": [ | |
"clusters = KMeans(n_clusters=3, random_state=0).fit_predict(vecs)\n", | |
"for doc, cls in zip(docs, clusters):\n", | |
" print (cls, doc)" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": null, | |
"metadata": { | |
"collapsed": true | |
}, | |
"outputs": [], | |
"source": [] | |
} | |
], | |
"metadata": { | |
"anaconda-cloud": {}, | |
"kernelspec": { | |
"display_name": "Python [conda root]", | |
"language": "python", | |
"name": "conda-root-py" | |
}, | |
"language_info": { | |
"codemirror_mode": { | |
"name": "ipython", | |
"version": 3 | |
}, | |
"file_extension": ".py", | |
"mimetype": "text/x-python", | |
"name": "python", | |
"nbconvert_exporter": "python", | |
"pygments_lexer": "ipython3", | |
"version": "3.5.2" | |
} | |
}, | |
"nbformat": 4, | |
"nbformat_minor": 1 | |
} |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment