Browse Source

Merge pull request #1 from ownthink/master

拉取最新代码
master
abtion GitHub 5 years ago
parent
commit
6e58525e98
No known key found for this signature in database GPG Key ID: 4AEE18F83AFDEB23
4 changed files with 6 additions and 37 deletions
  1. +5
    -3
      README.md
  2. +0
    -3
      jiagu/textrank.py
  3. +1
    -1
      setup.py
  4. +0
    -30
      test.py

+ 5
- 3
README.md View File

@@ -28,7 +28,7 @@ pip安装
```shell ```shell
pip install -U jiagu pip install -U jiagu
``` ```
如果比较慢,可以使用清华的pip源:`-i https://pypi.tuna.tsinghua.edu.cn/simple`
如果比较慢,可以使用清华的pip源:`pip install -U jiagu -i https://pypi.tuna.tsinghua.edu.cn/simple`


源码安装 源码安装
```shell ```shell
@@ -73,14 +73,15 @@ print(words)
``` ```


3. 知识图谱关系抽取 3. 知识图谱关系抽取

仅用于测试用,可以pip3 install jiagu==0.1.8,只能使用百科的描述进行测试。效果更佳的后期将会开放api。
```python3 ```python3
import jiagu import jiagu


# 吻别是由张学友演唱的一首歌曲。 # 吻别是由张学友演唱的一首歌曲。
# 苏州大学(Soochow University),简称“苏大”,坐落于历史文化名城苏州。
# 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧,改编自南派三叔所著的同名小说,由郑保瑞和罗永昌联合导演,李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。 # 《盗墓笔记》是2014年欢瑞世纪影视传媒股份有限公司出品的一部网络季播剧,改编自南派三叔所著的同名小说,由郑保瑞和罗永昌联合导演,李易峰、杨洋、唐嫣、刘天佐、张智尧、魏巍等主演。


text = '姚明(Yao Ming),1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
knowledge = jiagu.knowledge(text) knowledge = jiagu.knowledge(text)
print(knowledge) print(knowledge)
``` ```
@@ -215,3 +216,4 @@ B-ORG、I-ORG 机构名
4. [frankchen7788](https://github.com/frankchen7788) 4. [frankchen7788](https://github.com/frankchen7788)






+ 0
- 3
jiagu/textrank.py View File

@@ -1,6 +1,5 @@
# -*- encoding:utf-8 -*- # -*- encoding:utf-8 -*-
import sys import sys
import numpy as np
from jiagu import utils from jiagu import utils
from heapq import nlargest from heapq import nlargest
from collections import defaultdict from collections import defaultdict
@@ -26,7 +25,6 @@ class Keywords(object):
with open(self.__stop_words_file, 'r', encoding='utf-8') as f: with open(self.__stop_words_file, 'r', encoding='utf-8') as f:
for word in f: for word in f:
self.__stop_words.add(word.strip()) self.__stop_words.add(word.strip())
np.seterr(all='warn')


@staticmethod @staticmethod
def build_vocab(sents): def build_vocab(sents):
@@ -94,7 +92,6 @@ class Summarize(object):
if use_stopword: if use_stopword:
for word in open(self.__stop_words_file, 'r', encoding='utf-8'): for word in open(self.__stop_words_file, 'r', encoding='utf-8'):
self.__stop_words.add(word.strip()) self.__stop_words.add(word.strip())
np.seterr(all='warn')


def filter_dictword(self, sents): def filter_dictword(self, sents):
_sents = [] _sents = []


+ 1
- 1
setup.py View File

@@ -3,7 +3,7 @@
from setuptools import setup from setuptools import setup


setup(name='jiagu', setup(name='jiagu',
version='0.2.2',
version='0.2.3',
description='Jiagu Natural Language Processing', description='Jiagu Natural Language Processing',
author='Yener(Zheng Wenyu)', author='Yener(Zheng Wenyu)',
author_email='help@ownthink.com', author_email='help@ownthink.com',


+ 0
- 30
test.py View File

@@ -1,30 +0,0 @@
import jiagu
import jieba

text = '辽宁省铁岭市西丰县房木镇潭清村东屯'
text = '黑龙江省双鸭山市宝清县宝清镇通达街341号'
text = '''茶饮界的流行元素每隔几个月就会更新一次,现在各大咖啡品牌也玩起了跨界。今年9月3日,星巴克在中国内地首次上线了南瓜丝绒拿铁(Pumpkin Spice Latte,简称PSL),这款产品最初于2003年在美国上市,在全球累计卖出2亿杯;在被可口可乐以51亿美元从韦博得集团(Whitbread)收购一年后,一贯低调的COSTA也在今年6月表示将推出冷藏即饮咖啡,中国亦在首批上市市场之列。

最近,连锁咖啡品牌太平洋咖啡与东阿阿胶达成合作,推出5款名为咖啡如此多“胶”的联名产品,分别是:OATLY阿胶红枣拿铁、东阿阿胶拿铁、阿胶红枣拿铁、东阿阿胶抹茶拿铁及东阿阿胶银耳茶拿铁,平均售价约36元。据了解,这一系列产品于2019年10月16日起陆续在北京、上海、广州、深圳、西安、成都、无锡七个城市的太平洋咖啡指定门店内上市。总的来看,阿胶和咖啡相处地比较“融洽”,跨界没有违和感。


太平洋咖啡这次推出的阿胶产品的包装也突出了中国风,咖啡杯套上的人物形象是穿着汉服和旗袍的中国女性形象。太平洋咖啡副董事长李海涛表示:“太平洋咖啡自成立27年来,始终坚持在咖啡这一‘舶来品’中融入中国元素,探求‘中西文化融合’的别样体验。东阿阿胶有近三千年传承历史,作为国家非物质文化遗产代表性传承技艺,可谓是中国传统滋补上品。本次发布的5款合作新饮,既保留了西方咖啡的醇香,又将东阿阿胶的胶香融入其中,充分彰显了‘中西’融合。”


此次与东阿阿胶的合作也可以看做是一种跨界。咖啡品牌与东方滋补产品的结合也显现了“年轻态”、“创新化”的品牌趋势。太平洋咖啡与东阿阿胶的主要消费者都为女性,也都力求在年轻市场实现突破,这样两个品牌的合作也属意料之外、情理之中。'''

words = jiagu.cut(text)

print(words)

print(list(jieba.cut(text)))



# 合并只合并中文四个词以内的
# 字典出现大量的单子,表示可能会出错

# 在里面合并




Loading…
Cancel
Save