面向网络舆情的关联度分析方法_舆情应对

网络舆情的关联度它是指舆情事件发生后，牵扯到的企业单位、媒体、个人、地区、历史事件等，与舆情事件之间的关联性。

面向网络舆情的关联度分析方法

在这里以某舆情系统产品为例：

步骤一：数据预处理

步骤二：建模和诊断

步骤三：模型优化

步骤 1：数据预处理

（1）缺失值处理

在用户信息表中，一些用户的身份证是错误的，无法修正，当成缺失值，因此该用户的身份证这一项不列入用户属性中。在提取 html 文件中，不一定能够把所需要的属性（如：性别，地址）提取出来，若不能根据网址和标题分词得到的地址对地址进行填补，计算时当缺失值处理。

（2）重复值处理

在原始数据中，同样的事件可能会出现很多次，而经过访问，这些事件大多是抓取时间不同，代表了网站有更新，即事件的更新度，该事件的频率可以作为一个热度进行考虑，但在本次挖掘中，我们是研究用户与用户之间的关系，一个事件可能关系着几个用户，那么如果本事件重复出现，就会使这 2 个用户的关联更大，影响着最后结果的正确性。因此把重复事件全都去掉，只保留第一次出现的事件，同时提取了重复事件频率，方便研究事件的热度以及用户和事件频率的关系。

（3）分词处理

运用中科院的分词软件，将每个 txt 文本中事件标题进行分词，词性标注，以方便提取各个属性的词语。

（4）异常值处理

在分词后，由于分词软件的词库是有限大的，因此有些词语是识别不了。例如：奥巴马，会被自动分成 3 个单独的名词：奥，巴，马。因此，对于这些分词异常的词语，要进行人工处理，修正。

（5）相关处理

步骤 2：建模与诊断

（1）用户与用户关联度

（2）用户与事件关联度

（3）模型诊断

步骤 3：模型分析和优化

（1）模型缺点

（2）模型优点