教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

Python文本数据分析:NLTK与jieba概述

更新时间:2022年11月08日10时11分 来源:传智教育 浏览次数:

好口碑IT培训

  NLTK全称为Natural Language Toolkit,它是一套基于Python的自然语言处理工具包,可以方便地完成自然语言处理的任务,包括分词、词性标注、命名实体识别(NER)及句法分析等。

  NLTK是一个免费的、开源的、社区驱动的项目,它为超过50个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记化、词干化、解析和语义推理的文本处理库。接下来,通过一张表来列举NLTK中用于语言处理任务的一些常用模块,具体如表8-1所示。

  表8-1 NLTK中的常用模块

NLTK中的常用模块

  GitHub上有一段描述Jieba的句子:

  “jieba”(Chinese for “to stutter”)Chinese text segmentation:built to be the best Python Chinese word segmentation module.

  翻译:“Jieba”中文分词:最好的Python中文分词组件。

  由此可见,jieba最适合做中文分词,这离不开它拥有的一些特点:

  (1)支持三种分词模式:

  ◆精确模式:视图将句子最精确地切开,适合文本分析。

  ◆全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。

  ◆搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

  (2)支持繁体分词。

  (3)支持自定义词典。

  (4)MIT授权协议。

  jieba库中主要的功能包括分词、添加自定义词典、关键词提取、词性标注、并行分词等,大家可以参考https://github.com/fxsjy/jieba网址进行全面学习。后期在使用到jieba库的某些功能时,会再另行单独介绍。

0 分享到:
和我们在线交谈!