diff --git a/README.md b/README.md index 1fd9fda..58cfaaa 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ pip安装 ```shell pip install -U jiagu ``` -如果比较慢,可以使用清华的pip源:`-i https://pypi.tuna.tsinghua.edu.cn/simple` +如果比较慢,可以使用清华的pip源:`pip install -U jiagu -i https://pypi.tuna.tsinghua.edu.cn/simple` 源码安装 ```shell @@ -73,14 +73,15 @@ print(words) ``` 3. 知识图谱关系抽取 + +仅用于测试用,可以pip3 install jiagu==0.1.8,只能使用百科的描述进行测试。效果更佳的后期将会开放api。 ```python3 import jiagu # 吻别是由张学友演唱的一首歌曲。 -# 苏州大学(Soochow University),简称“苏大”,坐落于历史文化名城苏州。 # 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧,改编自南派三叔所著的同名小说,由郑保瑞和罗永昌联合导演,李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。 -text = '姚明(Yao Ming),1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' +text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' knowledge = jiagu.knowledge(text) print(knowledge) ``` @@ -215,3 +216,4 @@ B-ORG、I-ORG 机构名 4. [frankchen7788](https://github.com/frankchen7788) + diff --git a/jiagu/textrank.py b/jiagu/textrank.py index 80f8f66..17b7fa8 100644 --- a/jiagu/textrank.py +++ b/jiagu/textrank.py @@ -1,6 +1,5 @@ # -*- encoding:utf-8 -*- import sys -import numpy as np from jiagu import utils from heapq import nlargest from collections import defaultdict @@ -26,7 +25,6 @@ class Keywords(object): with open(self.__stop_words_file, 'r', encoding='utf-8') as f: for word in f: self.__stop_words.add(word.strip()) - np.seterr(all='warn') @staticmethod def build_vocab(sents): @@ -94,7 +92,6 @@ class Summarize(object): if use_stopword: for word in open(self.__stop_words_file, 'r', encoding='utf-8'): self.__stop_words.add(word.strip()) - np.seterr(all='warn') def filter_dictword(self, sents): _sents = [] diff --git a/setup.py b/setup.py index 8a01fe6..d17b053 100644 --- a/setup.py +++ b/setup.py @@ -3,7 +3,7 @@ from setuptools import setup setup(name='jiagu', - version='0.2.2', + version='0.2.3', description='Jiagu Natural Language Processing', author='Yener(Zheng Wenyu)', author_email='help@ownthink.com', diff --git a/test.py b/test.py deleted file mode 100644 index 223522a..0000000 --- a/test.py +++ /dev/null @@ -1,30 +0,0 @@ -import jiagu -import jieba - -text = '辽宁省铁岭市西丰县房木镇潭清村东屯' -text = '黑龙江省双鸭山市宝清县宝清镇通达街341号' -text = '''茶饮界的流行元素每隔几个月就会更新一次,现在各大咖啡品牌也玩起了跨界。今年9月3日,星巴克在中国内地首次上线了南瓜丝绒拿铁(Pumpkin Spice Latte,简称PSL),这款产品最初于2003年在美国上市,在全球累计卖出2亿杯;在被可口可乐以51亿美元从韦博得集团(Whitbread)收购一年后,一贯低调的COSTA也在今年6月表示将推出冷藏即饮咖啡,中国亦在首批上市市场之列。 - -最近,连锁咖啡品牌太平洋咖啡与东阿阿胶达成合作,推出5款名为咖啡如此多“胶”的联名产品,分别是:OATLY阿胶红枣拿铁、东阿阿胶拿铁、阿胶红枣拿铁、东阿阿胶抹茶拿铁及东阿阿胶银耳茶拿铁,平均售价约36元。据了解,这一系列产品于2019年10月16日起陆续在北京、上海、广州、深圳、西安、成都、无锡七个城市的太平洋咖啡指定门店内上市。总的来看,阿胶和咖啡相处地比较“融洽”,跨界没有违和感。 - - -太平洋咖啡这次推出的阿胶产品的包装也突出了中国风,咖啡杯套上的人物形象是穿着汉服和旗袍的中国女性形象。太平洋咖啡副董事长李海涛表示:“太平洋咖啡自成立27年来,始终坚持在咖啡这一‘舶来品’中融入中国元素,探求‘中西文化融合’的别样体验。东阿阿胶有近三千年传承历史,作为国家非物质文化遗产代表性传承技艺,可谓是中国传统滋补上品。本次发布的5款合作新饮,既保留了西方咖啡的醇香,又将东阿阿胶的胶香融入其中,充分彰显了‘中西’融合。” - - -此次与东阿阿胶的合作也可以看做是一种跨界。咖啡品牌与东方滋补产品的结合也显现了“年轻态”、“创新化”的品牌趋势。太平洋咖啡与东阿阿胶的主要消费者都为女性,也都力求在年轻市场实现突破,这样两个品牌的合作也属意料之外、情理之中。''' - -words = jiagu.cut(text) - -print(words) - -print(list(jieba.cut(text))) - - - -# 合并只合并中文四个词以内的 -# 字典出现大量的单子,表示可能会出错 - -# 在里面合并 - - -