深圳网站建设公司易捷网络科技
网站建设资讯
网站建设技术支持网站建设行业资讯网站建设公司新闻
联系我们
联系人:陈先生
电话:0755-61603557
邮箱:info@ejaket.com
传真:0755-61603557
地址:深圳市宝安区宝源路鸿源大厦7楼
你现在所在的位置:网站首页 > 网站建设资讯 > 浅析新浪微博搜索分词技术的不足之处

浅析新浪微博搜索分词技术的不足之处

信息来源:惠州网站建设公司易捷网络    添加时间:2018-04-28

不是故意迫害新浪微博,也不是对新浪微博不满,在这里指手画脚。我是一个过路人,秉承技术学习的态度,来和大家分析新浪微博搜索分词的不足。迭词是非常重要的测试元素,我们以阿里巴 巴作为测试词汇,去评测效果:效果是惊人的不令人满意。那么真实的测试阿里巴巴效果应该是这样子的:

可见阿里巴 巴和阿里巴巴这两个看似相同的词,但是在新浪微博的搜索中,差异竟然这么明显。其原因据我推测是: 没有做全局分词 。例如,阿里巴 巴至少应该分为三个词组,但是通过观察,它只用了专业名词词库。阿里巴巴应该切分的5个词组阿里,巴,巴,巴巴阿里巴巴。如果没有这样做,将会直接导致搜索阿里巴 巴效果非常差,几乎搜索不到阿里巴 巴相关词汇。


同理,搜索阿里 巴巴效果也会很差,事实也证明如此:当然,他们这样分词也有自己的道理,那就是用户给定的空格,那一定是词与词的分隔符,或者他们自己分词用的分隔符就是空格。在以前可以这样解释,但是搜索在N年前就进入了语义时代,如果还保留以前思想,那一定会落伍。尤其是:你把这三个case放入到百度、360、搜狗搜索里面去,他们都能很好处理。让若你把QQ、Q Q放入新浪微博搜索,结果会更差。可见新浪微博的搜索非常依赖于词库,可是呢,往往是细节决定成败 !

惠州网站建设公司易捷网络科技主营业务:企业网站建设、网站推广优化、企业邮箱申请、域名空间购买、网站备案、论坛网站建设和企业网站维护。
网站建设服务热线:13714247375
深圳市易捷网络科技有限公司版权所有 备案号:粤ICP备2022153140号