数据创造价值 智慧改变生活
全国咨询热线:400-189-9309

大数据下水行业网络舆情监控系统的设计与实现

发布时间:2020-04-21 14:31:07 人气: 来源:

关键词:舆情;网络舆情;网络舆情监控系统

 

 

一、引言

中国互联网络信息中心(CNNIC)2016 年 1 月 22 发布的《第 37 次中国互联网发展状况统计报告》显示:“我国网民规模达 6.88 亿,互联网普及率为 50.3%,中国居民上网数已过半上网设备正在向手机端集中,手机成为拉动网民规模增长的主要因素。截至 2015 年 12

月,我国手机网民规模达 6.2 亿,90.1%网民通过手机上网。众所周知,互联网作为继电视、广播、报纸之外的第四媒体,已经成为反映社会舆情的一个最重要的载体。

 

水务行业是关乎国计民生的重大行业,与民众的生活、生产息息相关,影响巨大。随着水企逐年的改革,水行业的竞争格局初步形成,水行业外,媒体对水企的关注度空前提高,特别关注智慧水务、用水安全、水资源利用等等;在水行业内,水价听证、调整、归口管理、行业竞争、公共服务、社会责任、官员廉政建设等重大事件受到广大网民、境内、境外媒体的强烈关注。网络舆情的监控和引导,已经成为水行业各企事业单位必须解决好的一项重要工作。网络舆情正在成为水企决策的重要依据,因此新形势下,在每次突发性事件发生后,水企相关职能部门如何以最快速度收集网上相关舆情信息,跟踪事态发展,及时向有关部门通报,快速应对处理等,是水行业亟需解决的问题,以下是最近一段时间以来部分涉水典型

 

舆情事件:

2016 年 6 月 26 日:江苏沭阳城区自来水出现大面积异味

2016 年 5 月 25 日:北京回龙观部分小区自来水现异味停水,官方称突发性中水污染

2016 年 4 月 9 日:媒体报道中国“超八成地下水不能饮用”水利部澄清

2016 年 3 月 8 日:一位二年级小学生写信给北京市水务局:我家门前的河好臭

2015 年 6 月 15 日:广东练江水污染

2015 年 3 月 4 日:兰州市自来水异味事件

 

第二届中国城市智慧水务高峰论坛

网络舆情监控通过对热点问题和重点领域比较集中的网站信息(如传统媒体网页、论坛、贴吧、微博、微信公众号等)进行二十四小时全天候监控,随时抓取最新的信息内容和网民评论意见。对所采集到的信息,进行初步过滤和预处理,对热点问题和重要领域实施监控,通过人际交互建立舆情监控的知识库,用来指导智能分析的过程。对热点问题的智能分析通过传统基于向量空间的特征分析技术,对抓取的内容进行分类、聚类和摘要分析,对信息完成初步的再组织,然后在监控知识库的指导下进行基于舆情的语义分析,使管理者看到的网民意见更有效,更符合现实;最后将监控的结果,分别推送到不同的职能部门,以供重大决策。

 

二、监控系统原理

由于网上信息量十分巨大,且水企没有专门的部门或人员负责舆情收集、分析、研判的工作,仅靠机械式人工搜索的方法,难以应对大数据信息的收集和处理,而利用计算机网络技术可以实现自动化的网络舆情预警与分析,解决网络舆情管理过程中的舆情采集、分析、表达、干预等难题,从而客观呈现互联网上的热点舆情。以下从普通用户使用网络舆情监控系统的角度按照自上而下的方法描述舆情监控执行过程。

 

1、用户通过浏览器查询或者提交查询的词或者短语“水务集团”,舆情监控引擎根据用户的查询返回匹配的网页信息列表

 

2、上述过程涉及到 2 个问题: 如何匹配用户的查询以及网页信息列表从何而来,如何进行排序。用户的查询“水务集团”经过分词器被切割成小词组<水务集团 1,水务集团 2…水务集团 n>,并被剔除停用词(的、了、是等字),根据系统维护的一个倒排索引可以查询某个词水务集团 i 在哪些网页中出现过,匹配那些 <水务集团 1,水务集团 2…水务集团 n>都出现的网页集即可作为初始结果,下一步,返回的初始网页集通过计算与查询词的相关度从而得到排名,按照网页的排名顺序即可得到最终的网页列表。

 

3、假设分词器和网页排名的计算公式都是既定的,确定倒排索引以及原始网页集就变得至关重 要。原始网页集由采集网页组成并被保存在本地;而倒排索引,即词组到网页的映射表则建立在正排索引的基础上,后者是分析了网页的内容并对其内容进行分词后,得到的网页到词组的映射表,将正排索引倒置即可得到倒排索引。

 

4、由于爬虫收集来的原始网页中可以包含很多信息,如 HTML 表单以及一些垃圾信息等,网页分析可以去除这些信息,并抽取其中的正文信息作为后续的基础数据。采集子系统从 Internet 中抓取众多的网页作为原始网页库存储于本地,然后网页分析器抽取网页中的主题内容交给分词器进行分词,得到的结果用索引器建立正排和倒排索引,这样就得到了索引

 

第二届中国城市智慧水务高峰论坛

数据库,用户查询时,通过分词器切割输入的查询词组,并通过检索器在索引数据库中进行查询,得到的结果返回给用户。

 

三、数据采集系统

数据采集系统根据用户信息需求,设定主题目标,使用人工参与和自动信息采集结合的方法完成信息收集任务。用户只需输入一个待采集的目标网址即可实现将图文结合的信息采集到本地的目的。

 

 

在线客服
联系方式

热线电话

181 2451 4293

上班时间

周一到周五

公司电话

400-189-9309

二维码
线