网络舆情的关联度它是指舆情事件发生后,牵扯到的企业单位、媒体、个人、地区、历史事件等,与舆情事件之间的关联性。
面向网络舆情的关联度分析方法
在这里以某舆情系统产品为例:
步骤一:数据预处理
步骤二:建模和诊断
步骤三:模型优化
步骤 1:数据预处理
(1)缺失值处理
在用户信息表中,一些用户的身份证是错误的,无法修正,当成缺失值,因此该用户的身份证这一项不列入用户属性中。在提取 html 文件中,不一定能够把所需要的属性(如:性别,地址)提取出来,若不能根据网址和标题分词得到的地址对地址进行填补,计算时当缺失值处理。
(2)重复值处理
在原始数据中,同样的事件可能会出现很多次,而经过访问,这些事件大多是抓取时间不同,代表了网站有更新,即事件的更新度,该事件的频率可以作为一个热度进行考虑,但在本次挖掘中,我们是研究用户与用户之间的关系,一个事件可能关系着几个用户,那么如果本事件重复出现,就会使这 2 个用户的关联更大,影响着最后结果的正确性。因此把重复事件全都去掉,只保留第一次出现的事件,同时提取了重复事件频率,方便研究事件的热度以及用户和事件频率的关系。
(3)分词处理
运用中科院的分词软件,将每个 txt 文本中事件标题进行分词,词性标注,以方便提取各个属性的词语。
(4)异常值处理
在分词后,由于分词软件的词库是有限大的,因此有些词语是识别不了。例如:奥巴马,会被自动分成 3 个单独的名词:奥,巴,马。因此,对于这些分词异常的词语,要进行人工处理,修正。
(5)相关处理
步骤 2:建模与诊断
(1)用户与用户关联度
(2)用户与事件关联度
(3)模型诊断
步骤 3:模型分析和优化
(1)模型缺点
(2)模型优点
(3)模型改进
相关推荐:重大舆情统计工作总结汇报
【文章声明】识达科技网倡导尊重与保护知识产权。本网站文章发布目的在于分享舆情知识。部分内容仅是发稿人为完善客观信息整理参考,不代表发稿人的观点。未经许可,不得复制、转载、或以其他方式使用本网站的内容。如发现本网站文章、图片等存在版权问题,请及时联系客服,我们会在第一时间删除或处理相关内容。