博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python jieba 分词
阅读量:5291 次
发布时间:2019-06-14

本文共 1228 字,大约阅读时间需要 4 分钟。

  • 环境

Anaconda3 Python 3.6, Window 64bit

  • 目的

利用 jieba 进行分词,关键词提取

  • 代码
# -*- coding: utf-8 -*-import jiebaimport jieba.posseg as jbposimport jieba.analyse as jbal'''词性说明:a:形容词d:副词i:成语m:数词n:名词nr:人名ns:地名nt:机构团体nz:其他专有名词t:时间v:动词x:标点符号f:方位词un:未知'''string1 = "国内掀起了大数据、云计算的热潮。"# 全模式w1 = jieba.cut(string1, cut_all=True)# for i in w1:#     print(i)# 精准模式,默认是精准模式w2 = jieba.cut(string1)# for i in w2:#     print(i)# print("<----------->")# 搜索引擎模式w3 = jieba.cut_for_search(string1)# for i in w3:#     print(i)# print("<----------->")# 词性标注w4 = jbpos.cut(string1)# for i in w4:#     print(i.word + "--" + i.flag)# print("<----------->")# 词典加载# jieba.load_userdict("dict2.txt")string2 = "国内掀起了大数据、云计算的热潮。仙鹤门地区。"#word 词语,flag 词性w5 = jbpos.cut(string2)for i in w5:    print(i.word + "--" + i.flag)print("<----------->\n")# 更改词频-单个词jieba.suggest_freq("大数据", True)jieba.suggest_freq("云计算", True)w6 = jbpos.cut(string2)for i in w6:    print(i.word + "--" + i.flag)print("<----------->\n")# 动态修改词典 删除词 del_wordjieba.add_word("仙鹤门")w7 = jbpos.cut(string2)for i in w7:    print(i.word + "--" + i.flag)print("<----------->\n")# 提取关键词 第二个参数控制提取参数个数w8 = jbal.extract_tags(string2, 5)print(w8)
View Code

 

  • 结果展示

 

转载于:https://www.cnblogs.com/kimbo/p/6607042.html

你可能感兴趣的文章
mysql 存储引擎对索引的支持
查看>>
Linq 学习(1) Group & Join--网摘
查看>>
asp.net 调用前台JS调用后台,后台掉前台JS
查看>>
【转】iOS 宏(define)与常量(const)的正确使用-- 不错
查看>>
【转】iOS开发UI篇—iPad和iPhone开发的比较
查看>>
【转】Android底层库和程序
查看>>
OnContextMenu事件(转)
查看>>
Comparación para 2019 Nueva Lonsdor K518S y K518ISE
查看>>
论文笔记——MobileNets(Efficient Convolutional Neural Networks for Mobile Vision Applications)
查看>>
从今天开始
查看>>
Attribute(特性)与AOP
查看>>
[翻译] CBStoreHouseTransition
查看>>
第三次作业
查看>>
Codeforces 962 /2错误 相间位置排列 堆模拟 X轴距离最小值 前向星点双连通分量求只存在在一个简单环中的边...
查看>>
Matrix快速幂 模板
查看>>
laravel command调用方法命令
查看>>
20162302 - 20162319 结对编程项目-四则运算(第一周)
查看>>
用python2和python3伪装浏览器爬取网页
查看>>
MySQL开启远程连接权限
查看>>
tomcat7.0.27的bio,nio.apr高级运行模式
查看>>