Python中怎么实现文本分析

发布时间:2021-07-10 17:40 来源:亿速云 阅读:0 作者:Leah 栏目: 编程语言 欢迎投稿:712375056

这期内容当中小编将会给大家带来有关Python中怎么实现文本分析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

任务(Task)

人为判断同义词很简单,但用程序来判断就不简单了。小爱想到了两种方式:制作一个同义词库;计算所有词语的相似度,将相似度高于阈值的词语作为同义词。

  • 同义词库。在网上百度一番,只发现了一个哈工大的同义词库,满心欢喜地点进去一看,发现页面已经不存在了,真是欲哭无泪!小爱心想,要不自己制作一个同义词库?再仔细一思考其中工作量,算了,还是打消念头吧,这种方式行不通。

  • 相似度计算。小爱查询到Python中的synonyms库提供了计算两个词语相似度的方法,结果还较为靠谱,于是就准备采用此种方式了。

行动(Action)

在找了一篇几百字的文章进行测试之后,小爱发现这种方式行得通。于是就正式开始运用于公司的文本数据了。这时,新的问题又出现了。

公司的客户反馈数据有数十上百万条,分词后的词语集合在去除停用词之后也有几万个,小爱的代码在计算相似度的时候卡住了。这个时候小爱才醒悟过来:样本数据分词的词语量少,计算量自然少,但随着词语数量的增加,计算量也是呈指数增长的。

免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。