- 环境
Anaconda3 Python 3.6, Window 64bit
- 目的
利用 jieba 进行分词,关键词提取
- 代码
# -*- coding: utf-8 -*-import jiebaimport jieba.posseg as jbposimport jieba.analyse as jbal'''词性说明:a:形容词d:副词i:成语m:数词n:名词nr:人名ns:地名nt:机构团体nz:其他专有名词t:时间v:动词x:标点符号f:方位词un:未知'''string1 = "国内掀起了大数据、云计算的热潮。"# 全模式w1 = jieba.cut(string1, cut_all=True)# for i in w1:# print(i)# 精准模式,默认是精准模式w2 = jieba.cut(string1)# for i in w2:# print(i)# print("<----------->")# 搜索引擎模式w3 = jieba.cut_for_search(string1)# for i in w3:# print(i)# print("<----------->")# 词性标注w4 = jbpos.cut(string1)# for i in w4:# print(i.word + "--" + i.flag)# print("<----------->")# 词典加载# jieba.load_userdict("dict2.txt")string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"#word 词语,flag 词性w5 = jbpos.cut(string2)for i in w5: print(i.word + "--" + i.flag)print("<----------->\n")# 更改词频-单个词jieba.suggest_freq("大数据", True)jieba.suggest_freq("云计算", True)w6 = jbpos.cut(string2)for i in w6: print(i.word + "--" + i.flag)print("<----------->\n")# 动态修改词典 删除词 del_wordjieba.add_word("仙鹤门")w7 = jbpos.cut(string2)for i in w7: print(i.word + "--" + i.flag)print("<----------->\n")# 提取关键词 第二个参数控制提取参数个数w8 = jbal.extract_tags(string2, 5)print(w8)
- 结果展示