@@ -28,7 +28,7 @@ pip安装 | |||||
```shell | ```shell | ||||
pip install -U jiagu | pip install -U jiagu | ||||
``` | ``` | ||||
如果比较慢,可以使用清华的pip源:`-i https://pypi.tuna.tsinghua.edu.cn/simple` | |||||
如果比较慢,可以使用清华的pip源:`pip install -U jiagu -i https://pypi.tuna.tsinghua.edu.cn/simple` | |||||
源码安装 | 源码安装 | ||||
```shell | ```shell | ||||
@@ -73,14 +73,15 @@ print(words) | |||||
``` | ``` | ||||
3. 知识图谱关系抽取 | 3. 知识图谱关系抽取 | ||||
仅用于测试用,可以pip3 install jiagu==0.1.8,只能使用百科的描述进行测试。效果更佳的后期将会开放api。 | |||||
```python3 | ```python3 | ||||
import jiagu | import jiagu | ||||
# 吻别是由张学友演唱的一首歌曲。 | # 吻别是由张学友演唱的一首歌曲。 | ||||
# 苏州大学(Soochow University),简称“苏大”,坐落于历史文化名城苏州。 | |||||
# 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧,改编自南派三叔所著的同名小说,由郑保瑞和罗永昌联合导演,李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。 | # 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧,改编自南派三叔所著的同名小说,由郑保瑞和罗永昌联合导演,李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。 | ||||
text = '姚明(Yao Ming),1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' | |||||
text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。' | |||||
knowledge = jiagu.knowledge(text) | knowledge = jiagu.knowledge(text) | ||||
print(knowledge) | print(knowledge) | ||||
``` | ``` | ||||
@@ -215,3 +216,4 @@ B-ORG、I-ORG 机构名 | |||||
4. [frankchen7788](https://github.com/frankchen7788) | 4. [frankchen7788](https://github.com/frankchen7788) | ||||
@@ -1,6 +1,5 @@ | |||||
# -*- encoding:utf-8 -*- | # -*- encoding:utf-8 -*- | ||||
import sys | import sys | ||||
import numpy as np | |||||
from jiagu import utils | from jiagu import utils | ||||
from heapq import nlargest | from heapq import nlargest | ||||
from collections import defaultdict | from collections import defaultdict | ||||
@@ -26,7 +25,6 @@ class Keywords(object): | |||||
with open(self.__stop_words_file, 'r', encoding='utf-8') as f: | with open(self.__stop_words_file, 'r', encoding='utf-8') as f: | ||||
for word in f: | for word in f: | ||||
self.__stop_words.add(word.strip()) | self.__stop_words.add(word.strip()) | ||||
np.seterr(all='warn') | |||||
@staticmethod | @staticmethod | ||||
def build_vocab(sents): | def build_vocab(sents): | ||||
@@ -94,7 +92,6 @@ class Summarize(object): | |||||
if use_stopword: | if use_stopword: | ||||
for word in open(self.__stop_words_file, 'r', encoding='utf-8'): | for word in open(self.__stop_words_file, 'r', encoding='utf-8'): | ||||
self.__stop_words.add(word.strip()) | self.__stop_words.add(word.strip()) | ||||
np.seterr(all='warn') | |||||
def filter_dictword(self, sents): | def filter_dictword(self, sents): | ||||
_sents = [] | _sents = [] | ||||
@@ -3,7 +3,7 @@ | |||||
from setuptools import setup | from setuptools import setup | ||||
setup(name='jiagu', | setup(name='jiagu', | ||||
version='0.2.2', | |||||
version='0.2.3', | |||||
description='Jiagu Natural Language Processing', | description='Jiagu Natural Language Processing', | ||||
author='Yener(Zheng Wenyu)', | author='Yener(Zheng Wenyu)', | ||||
author_email='help@ownthink.com', | author_email='help@ownthink.com', | ||||
@@ -1,30 +0,0 @@ | |||||
import jiagu | |||||
import jieba | |||||
text = '辽宁省铁岭市西丰县房木镇潭清村东屯' | |||||
text = '黑龙江省双鸭山市宝清县宝清镇通达街341号' | |||||
text = '''茶饮界的流行元素每隔几个月就会更新一次,现在各大咖啡品牌也玩起了跨界。今年9月3日,星巴克在中国内地首次上线了南瓜丝绒拿铁(Pumpkin Spice Latte,简称PSL),这款产品最初于2003年在美国上市,在全球累计卖出2亿杯;在被可口可乐以51亿美元从韦博得集团(Whitbread)收购一年后,一贯低调的COSTA也在今年6月表示将推出冷藏即饮咖啡,中国亦在首批上市市场之列。 | |||||
最近,连锁咖啡品牌太平洋咖啡与东阿阿胶达成合作,推出5款名为咖啡如此多“胶”的联名产品,分别是:OATLY阿胶红枣拿铁、东阿阿胶拿铁、阿胶红枣拿铁、东阿阿胶抹茶拿铁及东阿阿胶银耳茶拿铁,平均售价约36元。据了解,这一系列产品于2019年10月16日起陆续在北京、上海、广州、深圳、西安、成都、无锡七个城市的太平洋咖啡指定门店内上市。总的来看,阿胶和咖啡相处地比较“融洽”,跨界没有违和感。 | |||||
太平洋咖啡这次推出的阿胶产品的包装也突出了中国风,咖啡杯套上的人物形象是穿着汉服和旗袍的中国女性形象。太平洋咖啡副董事长李海涛表示:“太平洋咖啡自成立27年来,始终坚持在咖啡这一‘舶来品’中融入中国元素,探求‘中西文化融合’的别样体验。东阿阿胶有近三千年传承历史,作为国家非物质文化遗产代表性传承技艺,可谓是中国传统滋补上品。本次发布的5款合作新饮,既保留了西方咖啡的醇香,又将东阿阿胶的胶香融入其中,充分彰显了‘中西’融合。” | |||||
此次与东阿阿胶的合作也可以看做是一种跨界。咖啡品牌与东方滋补产品的结合也显现了“年轻态”、“创新化”的品牌趋势。太平洋咖啡与东阿阿胶的主要消费者都为女性,也都力求在年轻市场实现突破,这样两个品牌的合作也属意料之外、情理之中。''' | |||||
words = jiagu.cut(text) | |||||
print(words) | |||||
print(list(jieba.cut(text))) | |||||
# 合并只合并中文四个词以内的 | |||||
# 字典出现大量的单子,表示可能会出错 | |||||
# 在里面合并 | |||||