学位专题

<
DOI:10.7666/d.D01106840

基于Web信息抽取的网络舆情统计与分析

黎康
安庆师范大学
引用
自1994年中国正式接入Internet起,中国网民规模呈逐年持续快速增长的趋势。据2015年12月统计数据显示,中国网民已达6.88亿,超过半数的中国人已经开始使用互联网。互联网代替传统信息以纸质文字材料传播的形式,成为群众思想、文化、信息获取和交流的主要方式,又因为其传播速度快,波及范围广,参与人员多的特点,它也成为社会舆论的主要聚集地。大到震惊世界的朝鲜核问题、轰动全国的天津大爆炸事件,小到某明星参加奥斯卡颁奖典礼摔倒、某高校推出玉米炒提子菜系等,网络舆情的传播越来越牵动全社会人们的心。如何从数量庞大的网络信息中获取舆情信息,从而第一时间掌握舆情现状,预测舆情走势,及时正确引导舆情走向,对社会健康稳定的发展具有非常重要的意义。  本文的研究思路就是在这个背景下产生的,具体的研究内容如下:  (1)首先对在本文研究过程中使用到的理论知识进行介绍,如Web信息抽取方法、文本表示方法,数据降维方法、聚类方法等。  (2)针对网络信息(以新浪微博为例),主要是通过网络爬虫技术,大量爬取所需信息。本文采用的是企业开发并已投入使用的新闻爬取系统,该系统可以针对不同网页结构进行合适的DOM解析模板配置,从而方便快捷的进行数据爬取。  (3)针对短文本的特征,采用具有针对性的处理方式,对表情符号、转发链接、标点符号、图片的预处理,主要借助网络语料库并辅助以人工标注的方式。对预处理后的数据进行切词处理,本文采用的中文分词工具是R语言中的Rwordseg程序包。  (4)为了使实验数据达到理想聚类效果,本文提出一种基于词项关联关系的FCM聚类算法,并对该算法的实际可操作性进行的验证;在舆情分析方面,本论文使用基于支持向量机的情感倾向性方法进行研究,并给出实例分析。

Web信息抽取;网络舆情;聚类分析;词项关联

安庆师范大学

硕士

统计学

程玉胜

2016

中文

TP391.1

71

2017-07-26(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅