From 5a6b882b53743820d3480ee9ed980c6ad3f31b99 Mon Sep 17 00:00:00 2001 From: wangsheng Date: Tue, 28 Sep 2021 14:17:14 +0800 Subject: [PATCH] =?UTF-8?q?=E5=80=99=E9=80=89=E8=AF=8D=E8=AF=AD=E7=9A=84?= =?UTF-8?q?=E6=9C=80=E5=A4=A7=E5=AD=97=E6=95=B0=E6=94=B9=E4=B8=BA7?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../短语挖掘与新词发现/苏剑林/main_sujianlin.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/自然语言处理/短语挖掘与新词发现/苏剑林/main_sujianlin.py b/自然语言处理/短语挖掘与新词发现/苏剑林/main_sujianlin.py index 1b93b41..07c5632 100644 --- a/自然语言处理/短语挖掘与新词发现/苏剑林/main_sujianlin.py +++ b/自然语言处理/短语挖掘与新词发现/苏剑林/main_sujianlin.py @@ -17,7 +17,7 @@ myre = {2:'(..)', 3:'(...)', 4:'(....)', 5:'(.....)', 6:'(......)', 7:'(.......) min_count = 10 #录取词语最小出现次数 min_support = 30 #录取词语最低支持度,1代表着随机组合 min_s = 3 #录取词语最低信息熵,越大说明越有可能独立成词 -max_sep = 4 #候选词语的最大字数 +max_sep = 7 #候选词语的最大字数 t=[] #保存结果用。 t.append(pd.Series(list(s)).value_counts()) #逐字统计