|
|
@@ -0,0 +1,35 @@ |
|
|
|
# -*- coding: utf-8 -*- |
|
|
|
|
|
|
|
from flashtext import KeywordProcessor |
|
|
|
import pandas as pd |
|
|
|
|
|
|
|
def loadKeyWord(keyword_processor): |
|
|
|
data = pd.read_table('./result.txt', |
|
|
|
header=None, # 表示不要导入原文件内的表头 |
|
|
|
names=['keyword','count'], #自定义列名 |
|
|
|
sep=',', # 原文件的分隔符是'::',此处是按此分隔符将数据导入 |
|
|
|
engine= 'python') |
|
|
|
keywords = data['keyword'] |
|
|
|
for keyword in keywords: |
|
|
|
keyword_processor.add_keyword(str(keyword),) |
|
|
|
|
|
|
|
keyword_processor = KeywordProcessor(case_sensitive=False) |
|
|
|
loadKeyWord(keyword_processor) |
|
|
|
|
|
|
|
def wordCut(): |
|
|
|
with open('../data_and_result/data-艺术-去重.txt', 'r', encoding='utf-8') as lines: |
|
|
|
for line in lines: |
|
|
|
print(line) |
|
|
|
#定义要去掉的标点字 |
|
|
|
drop_dict = [u',', u'\n', u'。', u'、', u':', u'(', u')', u'[', u']', u'.', u',', u' ', u'\u3000', u'”', u'“', u'?', u'?', u'!', u'‘', u'’', u'…'] |
|
|
|
for i in drop_dict: #去掉标点字 |
|
|
|
line = line.replace(i, '') |
|
|
|
|
|
|
|
keywords_found = keyword_processor.extract_keywords(line, span_info=False) |
|
|
|
print(keywords_found) |
|
|
|
|
|
|
|
# wordCut() |
|
|
|
|
|
|
|
keywords_found = keyword_processor.extract_keywords('1862-1942),俄罗斯和苏联著名画家,美术教育家,巡回展览画派画家,1941年斯大林奖章的获得者。1862年5月19日他出生在乌法一个传统的商人家庭,自幼对绘画感兴趣,早年进入莫斯科绘画雕刻建筑学院学习,先后跟著名画家谢洛夫和马科夫斯基学习,创作了不少风俗画,获得了自由画家的称号和古典画家的称号。1888年《爱情魔药》是画家取材俄罗斯民间传说故事的尝试,画作《隐士》被科特列季亚科夫购买。1900年他开始痛苦寻找新的创作题材,这时期完成的《高尔基像》(1901)才真正显示出他的创作才能和油画技巧。1905年的革命促使画家转变了创作方向,选择日常生活中的普通人为主题,1905年的《画家妻子涅斯捷洛娃》,1906年又画了女儿的肖像,同年前往托尔斯泰庄园为作家画像。十月革命后,特别是20世纪20年代末,他的创造力再次焕发,完成了许多当代名人的肖像,最著名是1935年的《伊凡・巴甫洛夫》,这幅画在1941年被前苏联政府授予“斯大林奖”及“劳动红旗”的荣誉。1941年6月苏德战争爆发后,他的健 康状况和经济状况迅速恶化。1942年,他在创作《村庄里的秋天》时中风去世。主要作品有《爱情魔药》、《软禁家中》、《巴甫洛夫肖像》、《画家妻子涅斯捷罗娃肖像》等。', span_info=False) |
|
|
|
print(keywords_found) |
|
|
|
|