基于Web信息抽取的网络舆情统计与分析

黎康

安庆师范大学

下载全文

在线阅读

引用

摘要：

自1994年中国正式接入Internet起，中国网民规模呈逐年持续快速增长的趋势。据2015年12月统计数据显示，中国网民已达6.88亿，超过半数的中国人已经开始使用互联网。互联网代替传统信息以纸质文字材料传播的形式，成为群众思想、文化、信息获取和交流的主要方式，又因为其传播速度快，波及范围广，参与人员多的特点，它也成为社会舆论的主要聚集地。大到震惊世界的朝鲜核问题、轰动全国的天津大爆炸事件，小到某明星参加奥斯卡颁奖典礼摔倒、某高校推出玉米炒提子菜系等，网络舆情的传播越来越牵动全社会人们的心。如何从数量庞大的网络信息中获取舆情信息，从而第一时间掌握舆情现状，预测舆情走势，及时正确引导舆情走向，对社会健康稳定的发展具有非常重要的意义。　　本文的研究思路就是在这个背景下产生的，具体的研究内容如下：　　（1）首先对在本文研究过程中使用到的理论知识进行介绍，如Web信息抽取方法、文本表示方法，数据降维方法、聚类方法等。　　（2）针对网络信息（以新浪微博为例），主要是通过网络爬虫技术，大量爬取所需信息。本文采用的是企业开发并已投入使用的新闻爬取系统，该系统可以针对不同网页结构进行合适的DOM解析模板配置，从而方便快捷的进行数据爬取。　　（3）针对短文本的特征，采用具有针对性的处理方式，对表情符号、转发链接、标点符号、图片的预处理，主要借助网络语料库并辅助以人工标注的方式。对预处理后的数据进行切词处理，本文采用的中文分词工具是R语言中的Rwordseg程序包。　　（4）为了使实验数据达到理想聚类效果，本文提出一种基于词项关联关系的FCM聚类算法，并对该算法的实际可操作性进行的验证；在舆情分析方面，本论文使用基于支持向量机的情感倾向性方法进行研究，并给出实例分析。

关键词：Web信息抽取;网络舆情;聚类分析;词项关联

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计学

导师姓名：程玉胜

学位年度：2016

语种：中文

分类号：TP391.1

页数：71

在线出版日期：2017-07-26（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于Web信息抽取的网络舆情统计与分析