首页Python+大数据学习常见问题正文

文本数据分析：分词是什么意思？

更新时间:2022年11月28日12时21分来源:传智教育浏览次数:

好口碑IT培训

　　分词是指将由连续字符组成的语句，按照一定的规则划分成一个个独立词语的过程。不同的语言具有不同的语法结构，以常见的英文和中文为例，英文的句子中是以空格为分隔符的，所以可以指定空格为分词的标记，而中文并没有一个形式上的分界符，它只有字、句和段能通过明显的分界符来简单地划分。因此，中文分词要比英文分词困难很多。

　　根据中文的结构特点，可以把分词算法分为以下三类：

　　1.基于规则的分词方法

　　基于规则的分词方法，又称为机械分词方法，它是按照一定的策略将待分析的中文句子与一个“充分大的”机器词典中的词条进行匹配。如果在词典中找到了某个字或词语，则表示匹配成功。

　　基于规则的分词方法，其优点是简单且易于实现，缺点是匹配速度慢，而且不同的词典产生的歧义也那你慢慢弄，，，吗会不同。

　　2.基于统计的分词方法

　　基于统计的分词方法，它的基本思想是常用的词语是比较稳定的组合。在上下文中，相邻的字同时出现的次数多，就越有可能构成一个词，所以字与字相邻出现的频率能够较好地反映成词的可信度。当训练文本中相邻出现的紧密程度高于某个阈值时，便可以认为此字组可能构成了一个词。

　　基于统计的分词方法所应用的主要统计模型有：N元文法模型（N-gram）、隐马尔可夫模型（Hiden Markov Model，HMM）、最大熵模型（ME）、条件随机场模型（Conditional Random Fields,CRF）等。

　　3.基于理解的分词方法

　　基于理解的分词方法是通过计算机模拟人对句子的理解，达到识别词的效果，它的基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息处理歧义对象。这种分词方法需要使用大量的语言知识和信息。

　　由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

上一篇：Python读写结构化数据库MySQL 下一篇：数据分析与数据化运营：竞争端的主要影响有哪些？

最新资讯

相关阅读

0 分享到：

javaee

python

web

design

cloud

test

c

netmarket

pm

Linux

movies

robot

uids

Python

jdbc

北京校区

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

申请试听名额

热门课程推荐

更多>>

黑马程序员AI智能助手

首页|校区分布|师资力量|关于我们|报名流程

常见问题|技术资讯

江苏传智播客教育科技股份有限公司版权所有
Copyright 2006-2023, All Rights Reserved

在线咨询我要报名

和我们在线交谈！