网赚论坛

 找回密码
 免费注册
查看: 218|回复: 0
打印 上一主题 下一主题

站长们一定要清楚的百度分词技术

[复制链接]

16

主题

16

帖子

64

积分

Ⅰ级财主

Rank: 1

积分
64
跳转到指定楼层
楼主
发表于 2017-9-13 19:53:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
  百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。
  好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动,比如:"节油器"这个词,前提是一个完整的词,百度是不会切分的,当字符串长度大于4个中文字符的时候,百度的分词程序就会启动了。例如"节油器价格",看看返回结果中标为红字的地方,不难看出来,查询已经被切割成“节油器”,“价格”两个单词了,再试着换一个词。例如:我们来看"汽车节油器",百度里提交查询一下,发现标红的关键字都是每一个是"节油器","汽车",连续出现的情况,可以看到将"节油器"与"汽车"切分成两个词,如果我们搜"汽车节油添加剂"呢,发现标题是没有,网页内容比较完整是"汽车节油添加剂",可能是这个网站还没收录的原故,这个长尾词被切成了"汽车"/"节油添加剂"。
  那现我们在来研究一下百度是分词算法,通过几年的发展,百度的分词算法已经算是相当成熟了,这其中也少不了SEOER 的功劳,有一位SEOER的前辈说过:"百度的算法有简单的有复杂的,有正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。“让我们总结一下吧,这里面也有我个人的猜测, 百度拥有一个强大的词汇数据库,里面有我们通用所用的各种词语比如"人名,地名,产品的名称",举个例子"幻影","汽车","节油器",这些都是词库中有的,在切词时将专有名称切出,如"添加"这个词,词库中没有,下面的采用双向最大匹配分词算法,假如正向和反向匹配分词结果一致当然最好,就可直接输出即可;如果两者不一致,正向匹配一种结果,反向匹配一种结果.
  百度一直自称是全球最大中文搜索引擎,但分词技术也并无特殊,也许就是因为百度拥有一个超大的专用词典,这个专用词典登录了关键字的名称,如:节油,汽车,能源,油价等.这就比google强大的一个方面,google在于分词来说,及词库明显比不上百度,这正是google本身要加强的地方.
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

广告合作|Archiver|手机版|小黑屋|财富吧

GMT+8, 2024-11-27 18:31 , Processed in 0.468001 second(s), 35 queries , Gzip On.

Powered by Discuz! X3.1

© 2014-2021 财富吧

快速回复 返回顶部 返回列表