網絡輿情監測分析系統軟件
1.1總體需求
Ø 輿情選題子系統負責輿情的宏觀選題,為采集子系統實施采集提供大致范疇和關鍵詞。
Ø 輿情采集子系統是整個系統的直接數據來源,它根據選題系統提供的采集范疇和關鍵詞,從互聯網上按照不同的權重、不通的采集時間間隔和不通的采集方式,獲取輿情信息的第一手資料,為分析子系統提供數據支撐。
Ø 輿情分析子系統將采集子系統從互聯網上抽取的數據通過過濾、分類、聚合等數據挖掘方式,進行定性分析、定量分析,為人工分析和研判提供技術支撐。
Ø 輿情報警子系統將輿情分析子系統分析后的數據,按照預先設定的報警指標進行判別,達到一定的條件及時通過各種方式通知相關人員,為輿情處置贏得時間。
Ø 輿情發布子系統為用戶提供友好的人機界面,進行實時監控、數據查詢、統計與分析,同時提供豐富的服務接口為其它系統的二次開發提供數據和業務支撐。
Ø 任務管理子系統對選題子系統、采集子系統、分析子系統和報警子系統的工作進行調度,充分利用有限的軟硬件和網絡資源,合理分配調度任務,使得整個系統的運行條件和服務能力達到優。北京軟件公司有哪些?
Ø 數據管理子系統對整個系統的數據進行管理,及時分類、歸檔、清洗、備份,優化數據庫的查詢效率,提高用戶的體驗。
Ø 客戶服務子系統對個系統的用戶進行注冊、訂購、支付、權限管理、滿意度調查等,為系統的循序漸近的優化提供參考依據。
開發過程中需要針對軟件的每個功能細節進行設計和開發,以求開發出一款卓越的人機交互界面更加人性化、執行效率更高、可操作性更強的軟件,確保該軟件成為一款高品質的產品。其需求總結如下:北京大數據公司有哪些?
Ø 圖形化設計更符合用戶的使用習慣,方便操作;
Ø 人機交互界面風格基本統一;
Ø 數據結構保持完整性和統一性;
Ø 體現系統強大的交互式功能;
Ø 系統功能具備很強的可擴展性;
Ø 系統管理和數據交互功能更加智能;
1.2網絡拓撲結構
網絡拓撲結構圖
輿情監測分析內網包括選題及采集服務器、分析服務器、報警服務器、任務管理服務器、輿情發布及客服Web服務器集群、數據庫服務器集群、數據存儲。外網互聯網對象包括各類用戶和各類監測對象,其中用戶通過“發布服務系統”專用網絡鏈路接入到系統中;系統對互聯網對象進行數據采集時,則通過“監測采集系統專用網絡鏈路”對監測對象進行采集。外網對象接入內網時,先要經過防火墻進行過濾。北京軟件開發公司有哪些?
1.3系統主要功能需求
網絡輿情監測分析系統包括:輿情選題子系統、輿情采集子系統、輿情分析子系統、輿情報警子系統、輿情發布子系統、任務管理子系統、數據管理子系統、客戶服務子系統八大了系統。1.3.1需求功能圖如下圖所示:
需求功能圖
1.3.3功能模塊
1.3.3.1輿情選題子系統
網絡輿情的選題是輿情監測機構對于準備實施監測的輿情主題或題目的一種設想和構思,選題名稱一般由監測范圍、關鍵詞、服務對象等構成。通過實時監測論壇首頁推薦、門戶網站新聞排行、BBS熱帖排行、博客標簽排行、微博話題排行和搜索引擎與百科熱詞,可直接獲得網絡輿情的選題。
1.3.3.1.1對門戶網站及論壇首頁進行監測
在網絡輿情監測中,為了迅速查找近期重大網絡熱點,我們應該關注新聞門戶網站和論壇的熱點排行榜。另外,對于當天的重大網絡輿情監測也要注意門戶新聞網熱點排行。包括:新浪熱門新聞排行、人民網新聞排行榜、騰訊新聞排行、新華網24小時新聞排行、鳳凰網點擊新聞排行、央視網新聞臺排行、網易新聞排行、搜狐新聞網評排行榜等。
論壇首頁推薦內容連接到頻道頁面的方式在各大網站都是普遍采用的處理方式。一般通過采集當天的重點論壇首頁和重要板塊首頁,可以在要聞區獲得相關重大輿情信息。包括:
天涯社區、網易論壇、華聲論壇、中華網論壇、鳳凰論壇、大洋論壇、京華論壇、Tom社區、鐵血社區、QQ論壇、雅虎口碑論壇、西祠胡同、中新網論壇、在線論壇、南方論壇、請柬論壇、環球論壇、新華社區、凱迪社區、新浪論壇、貓撲社區、央視網論壇、搜狐社區、人民網強國社區、奧一網等。
1.3.3.1.2對BBS熱帖排行進行監測
全國部分論壇熱帖排行榜:天涯雜談新帖排行、天涯聚焦周報、凱迪社區凱迪頭條、凱迪社區熱點事件、凱迪社區排行榜、強國論壇熱帖排行、強國論壇熱評排行、強國論壇熱帖推薦、強國社區每日精華、人民網掘客最熱排行、鳳凰論壇有料天天報、鳳凰論壇熱帖排行、新華社區24小時排行、新華社區特貼排行、網易論壇風云榜、新浪熱帖排行榜、搜狐新聞社區熱帖、搜狐社區熱門評論、華聲論壇搜索排行、騰訊論壇新聞論壇、大旗網焦點訪談、大旗網社會熱點精選、大旗網社會頭條精選、大旗網社會版熱點排行等。北京軟件開發公司。
1.3.3.1.3對博客/微博標簽排行進行監測
我國知名的博客平臺包括新浪博客、搜狐博客、博客大巴、博客中國、鳳凰博報等,博客標簽排行榜一般是根據相關文章數量、網民關注度、社會影響力等因素進行的綜合排行。主要包括:博客大巴熱門Tag搜索、新浪博客標簽排行搜索、搜狐博客熱門標簽搜索、天涯首頁熱門標簽、博客中國百科熱門標簽、博客中國百科新聞維客、新浪博客排行榜、搜狐博文排行榜、天涯博客排行榜、博客中國排行榜、博客中國支持排行榜、科技中國排行榜大全、騰訊博文熱門排行、和訊新博報等。
知名微博話題榜包括:
新浪微博話題榜、新浪微博熱門標簽、騰訊微博話題榜、搜狐微博話題榜、網易微博話題榜、和訊微博話題首頁、人民網微博熱榜等。軟件公司。
1.3.3.1.4固定選題
固定選題是持續關注、連續監測的選題,例如在消防輿情監測系統中,以消防綜合、消防管理、滅火救援、部隊管理等專題作為持續關注的選題,對各類網站進行監測。主要包括以下方面:1) 消防綜合類:消防、消防官兵、消防干部、消防警官、消防戰士、消防士官、消防文員、合同制消防員、消防文職雇員、消防志愿者、消防人員、消防隊、消防站、火災、大火、火警、滅火等。
2) 消防管理類:消防坑爹、消防執法不作為、消防無法無天、消防亂處罰、消防亂罰款、消防亂收費、消防培訓收費、消防吃拿卡要、消防腐敗、消防收賄、消防受賄、消防打人、消防抓人、消防執法蠻橫等。
3) 滅火救援類:消防滅火收費、119報警電話無人接聽、消防隊出警慢、消防隊到場慢、消防車無水、消火栓無水、消防員見死不救、消防隊不作為、消防隊救援不力、消防隊撲救不力、消防指揮不力、消防人員死亡、消防人員受傷等。
4) 部隊管理類:消防車輛事故、消防戰士犧牲、消防裝萌、消防賣萌、消防屌絲、消防2B、消防炫富、消防高富帥、消防白富美、消防富二代、消防官二代、消防對罵、消防女警官、消防美女等。軟件公司有哪些
需要針對這些主題內容,精準篩選出關鍵詞。
1.3.3.2輿情采集子系統
輿情采集的方法是通過輿情采集工具,抓取不同背景和來源的言論媒介上的第一手樣本數據。平臺除了基本的關鍵詞的新聞搜索以外,還能對微博進行定向抓取、閱讀數量、轉發數量等。對于采集功能,需要采用先進的自動分析抽取網頁結構的技術,支持網站模版的配置,提供多種網站模版庫資源,實現抽取網頁中的有效信息。針對目前很多網站、博客、論壇大量使用JS(JavaScript)腳本的情況,需要在采集平臺中內置js腳本執行引擎。對于采集數據量大的情況,支持分布式集群采集,通過任務管理子系統對這些采集程序進行調度。
對于采集的對象,主要考慮網站載體權重、內容版面權重、意見領袖權重等。
1.3.3.2.1網站載體
輿情抽樣的網站權重是指根據網站瀏覽量的大小和地域性范圍的定位、專業權威的特質等,在輿情工作中,作為重點監測和采集的對象。重點輿情監測網站上的文章的影響力要比一般網頁大很多,在數量積累方面要加大權重。1) 全國性網絡論壇
全國性論壇在往上較為火爆的有天涯社區、凱迪社區、西祠胡同、央視復興論壇、人民網強國論壇、新華發展論壇、百度貼吧、奇虎社區、大旗網、鳳凰網社區、新浪論壇、搜狐社區、網易論壇、騰訊論壇、貓撲、中華網社區、鐵血論壇等。
2) 熱點思想類網站
國內論壇網站中,除了天涯社區天涯雜談、凱迪社區貓眼看人、人民網強國論壇、新華網發展論壇和中華網雜談之外,還有幾個思想類網站需要重點關注,如中國選舉與治理網、共識網、烏有之鄉、愛思想、噴嚏網、牛博網、一五一十部落等。這些網站往往會有很多政治性話題,高度關注國內外輿情熱點,也匯集了不少持有不同觀點的活躍網友,需要重視。
3) 門戶網站排行
依照網站影響力與公信力系數,門戶網站的權重從高到低一次分別是:
a) 中央重點新聞網站,如新華網、人民網、中新網、中國網等;
b) 全國性門戶網站,如新浪、搜狐、騰訊、網易、百度新聞、財經網等;軟件公司。
c) 地方重點新聞網站,地方都市報網站
d) 三大證券報(中國證券報、上海證券報、證券時報)和其它財經媒體網站
e) 行業與專業網站
f) 政府機構網站
g) 大學、科研機構網站
h) 一般網站等
4) 地方重點網站
側重權威性、影響大的論壇、博客、新聞網站,如黑磚窯《400位父親泣血呼救》從大河網轉到天涯社區,才發生全國性影響。
1.3.3.2.2內容版面
在對于輿情采集的標準上,事件或話題敏感、關注度高、點擊多、回復多、人氣高的新聞或者評論;時效性強、以新失態發展為由頭的新帖;各大媒體和網站的首頁、頭版頭條、置頂帖和專題等,是重點的采集對象。互聯網上的往右言論主要分布在各種論壇/BBS原帖、博客、網站專題、新聞評論等平臺中,采集時還應關注貼文的瀏覽數、轉載數、回復量、支持率、反對率等。
1.3.3.2.3意見領袖
在近幾年的社會熱點中,網絡意見領袖的作用突顯,立場出現分化趨勢。在一些突發事件中,在官方傳統媒體失語或者報道不及時的情況下,網民習慣于打開網絡意見領袖的博客或追逐其微博上的只言片語,從他們哪里尋找解讀、剖析和批判。首先是數量龐大的傳統媒體從業者迅速在網絡中成長,如笑蜀、李承鵬、黃健翔、梁樹新、鄧飛、王克勤、連岳、雷宇、長平、邊民、五岳散人、十年砍柴等人。互聯網上段、平、快和無障礙的報道新聞、尖銳評說時事的方式,比他們從業的傳統媒體更具活力,而且逐漸形成了品牌和名人效應,引起全社會的廣泛重視。
其次,在“公共知識分子”范疇的意見領袖,包括作家、學者、藝術家、律師等,如韓寒、于建嶸、戴旭、周澤、牧沐、孫云曉、陳銘龍、沈志華、袁騰飛等,他們以身后的文化工地觀察和描繪社會,對于各種突發事件和社會熱點暢所欲言,觀點更為開放透明,所以給媒體記者提供了極為便利的信息渠道。
第三類是網上活躍的明星、名人等,如劉翔、徐靜蕾、姚晨、周立波等。經驗表明,明星和公共人物往往一上網就會獲得比普通網友更高的關注度和影響力。再以財經業余觀察家和自由撰稿人而言,網絡關注度較高的有徐小明、葉檀、時寒冰、曹建海、牛刀、水皮、秋風等。
第四類是積極接觸網絡的黨政官員。如云南省委宣傳部副部長伍皓、國務院新聞辦處長侯召迅和湖南湘潭雨湖區官員張洪峰等。今年中國政壇形成部分官員上網、部分官員的“網絡恐懼癥”和“雷人雷語”并存的特有現象。體制內一線領袖能夠促進官民溝通,呼喚官場的黨性、良知和改革動力,有利于輿論新格局的形成。
第五類是真正的普通自由職業者和活躍網友,如著名的往右“屠夫”對鄧玉嬌案的現實參與。
1.3.3.3輿情分析子系統
輿情分析子系統需要提供豐富的信息處理工具,可以對信息進行自動分類,自動聚類,自動提取關鍵詞和摘要,自動排重,過濾垃圾信息等。另外帶有人物、地域、機構等知識庫,能夠通過算法和規則自動識別出這些實體名稱。用戶通過對這些處理工具的組合應用,可以化繁為簡,及時準確監測到自己需要監控的輿情信息。1.3.3.3.1自動分類
分析輿情文章的特征,并與實現定義好的各種類別具有的共同特征進行比較,然后將輿情對象劃歸為特征接近的一類,并賦予相應的分類代碼。1.3.3.3.2自動聚類
基于相似性算法的自動聚類技術,自動對海量的無規則文檔進行歸類,把內容相近的文檔歸為一類,并自動為其生成主題詞,為確定類目名稱提供方便。1.3.3.3.3自動排重
通過相似性檢索,找出輿情信息內容雷同文章,對相似、雷同文章消重處理;還根據文章主題相似性,生成專題報道,背景分析等。1.3.3.3.4垃圾信息過濾
通過設定關鍵詞和判別規則,將明顯與輿情專題無關的信息排除掉。1.3.3.3.5人物名稱識別
通過建立人物名稱知識庫,對輿情信息中包含的人物名稱進行判別。1.3.3.3.6地理位置識別
通過建立地理位置知識庫,對輿情信息中包含的地理位置進行判別。1.3.3.3.7機構名稱識別
通過建立機構名稱知識庫,對輿情信息中包含的機構名稱進行判別。1.3.3.4輿情報警子系統
將輿情分析子系統分析后的數據,按照預先設定的報警指標進行判別,達到一定的條件及時通過各種方式通知相關人員,為輿情處置贏得時間。1.3.3.4.1首頁報警
針對輿情信息在首頁位置出現的特殊意義和影響,針對各大網站(比如新浪、搜狐、網易、騰訊、人民網等和本地有名的地方性門戶)、著名論壇、地方性論壇等權重比較大的網站首頁信息進行的高效率監控,系統以非常迅速的方法掃描這些網站的首頁,如果發現首頁中出現了要監控的關鍵字,則會以醒目的方式進行報警。1.3.3.4.2敏感詞報警
對通過輿情分析子系統之后的產生的數據進行再次分析,報警系統自動對文章的內容進行中文分詞并自動比照,如果發現文章內容中涉及到敏感詞,則以醒目的方式在“敏感報警”欄目中顯示。如“法輪功”。1.3.3.4.3敏感地域報警
對通過輿情分析子系統之后的產生的數據進行再次分析,通過對用戶配置的地理位置關鍵詞分析,如果出現的地理名稱達到一定的指標,則產生“敏感地域”報警。如“汶川”。1.3.3.4.4敏感機構報警
對通過輿情分析子系統之后的產生的數據進行再次分析,通過對用戶配置的機構名稱關鍵詞分析,如果出現的人物名稱達到一定的指標,則產生“敏感機構報警。如“紅十字會”。1.3.3.4.5敏感人物報警
對通過輿情分析子系統之后的產生的數據進行再次分析,通過對用戶配置的人物名稱關鍵詞分析,如果出現的人物名稱達到一定的指標,則產生“敏感人物報警。如“郭美美”。1.3.3.4.6推送對象與推送方式
產生報警時,將報警信息推送到預先設定的對象,可通過網站客戶端、電子郵件、手機短信等方式進行推送。1.3.3.5輿情發布子系統
在已經采集和分析的這個龐大信息庫里,提供各類輿情展示界面和豐富的高級檢索功能,包括可以按關鍵詞、時間、分類、地域、人物、機構、信息源等組合進行高級檢索,方便用戶準確鎖定自己關注的輿情信息,并提供這些數據內在的聯系和趨勢圖,便于用戶從事件起源、傳播、發展、平息等角度把握輿情時間發展動態。1.3.3.5.1個性化桌面
個性化桌面上,用戶可以根據自己的工作習慣定義,用戶通過“添加記錄”功能即可添加要顯示的模塊。1.3.3.5.2今日輿情
輿情展示子系統中對眾多采集下來的網絡輿情進行了科學的分類,當天采集到的網絡輿情會統計集中在今日輿情中(輿情),通過這個欄目可以對當天發生的網絡輿情一目了然。1.3.3.5.3報警輿情
將“輿情報警子系統”中產生的首頁報警、敏感詞報警、敏感地域報警、敏感任務報警、敏感機構報警等各類報警信息推送到此處。1.3.3.5.4輿情檢索
系統提供統一的查詢檢索入口,對各種來源各種格式的社會公開信息進行查詢和檢索。檢索結果可按類別、相似度、重復度、信息發布時間等多種方式進行排序。該系統支持元搜索技術,可以對多個通用的互聯網搜索引擎進行聯和檢索,并在同一個界面返回檢索結果,配合合理的檢索策略,可大大提高檢索效率。1.3.3.5.5統計報表
按照時間、選題、分類、地域、人物、機構等各種維度對輿情信息進行查詢與統計,可用不同的方法對數據進行展示,如直方圖、餅圖等,并形成相應的報表。1.3.3.6任務管理子系統
對選題子系統、采集子系統、分析子系統和報警子系統的工作進行調度,充分利用有限的軟硬件和網絡資源,合理分配調度任務,使得整個系統的運行條件和服務能力達到。同時任務管理子系統定期對監測對象的網站結構和網頁結構進行分析,如果對象的結構發生變化,則告知后臺工作人員對采集分析模版進行相應的調整。
1.3.3.6.1選題調度
調度選題子系統抽樣的頻率、采樣對象空間、時間、模版及權重。1.3.3.6.2采集調度
調度采集子系統的任務進程分配、采集頻率、采集對象空間、解析模版及權重、COOKIE管理等。1.3.3.6.3分析調度
調度分析系統的任務進程分配、分析頻率、分析算法及分析模版。1.3.3.6.4報警調度
調度報警子系統的進程分配、檢測頻率、報警算法、推送對象及推送方式。1.3.3.6.5網站結構監測
系統定期對監測對象的網站結構和網頁結構進行分析,如果對象的結構發生變化,則告知后臺工作人員對采集分析模版進行相應的調整。1.3.3.7數據管理子系統
輿情數據庫是一個龐大的數據庫,需要性能優秀的數據存儲硬件和功能強大的數據庫管理平臺,以對整個系統的數據進行存儲、管理,及時分類、歸檔、清洗、備份,優化數據庫的查詢效率,提高用戶的體驗。1.3.3.7.1數據存儲
數據存儲的速率和容量主要依托于存儲硬件設備,擬通過光纖通道(Fibre Channel)技術連接存儲設備和應用服務器,使得存儲設備具有很好的傳輸速率和擴展性能。1.3.3.7.2數據管理
采用已經關系型數據庫系統,在數據庫系統中所建立的數據結構,充分地描述數據間的內在聯系,便于數據修改、更新與擴充,同時保證了數據的獨立性、可靠、安全性與完整性,減少了數據冗余,提高數據共享程度及數據管理效率。1.3.3.7.3數據歸檔
在數據庫中劃分獨立的數據歸檔空間,將不再經常使用的數據移到這個空間來進行長期保存的過程。數據歸檔由舊的數據組成,但它是以后參考所必需且很重要的數據,其數據必須遵從規則來保存。數據歸檔具有索引和搜索功能,這樣數據可以很容易地找到。1.3.3.7.4數據清洗
因為輿情數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個其它網站中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。按照一定的規則把“臟數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之后再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。1.3.3.7.5數據備份
數據備份是容災的基礎,是指為防止系統出現操作失誤或系統故障導致數據丟失,而將全部或部分數據集合從應用主機的硬盤或陣列復制到其它的存儲介質的過程。傳統的數據備份主要是采用內置或外置的磁帶機進行冷備份。但是這種方式只能防止操作失誤等人為故障,而且其恢復時間也很長。隨著技術的不斷發展,數據的海量增加,不少的企業開始采用網絡備份。網絡備份一般通過專業的數據存儲管理軟件結合相應的硬件和存儲設備來實現。1.3.3.8客戶服務子系統
對個系統的用戶進行注冊、訂購、支付、權限管理、滿意度調查等,為系統的循序漸近的優化提供參考依據。1.3.3.8.1用戶注冊
匿名用戶通過域名登錄系統可注冊用戶,注冊并通過審核之后可憑登錄名和密碼進入系統。1.3.3.8.2產品訂購
注冊用戶可訂購不同類型的產品,可按照選題類型、監測網站類型、分析復雜度等維度,來進行訂購;訂購之后登錄系統能查看到相關范圍內的內容。數據庫中暫時沒有的內容,用戶也可提出相關需求,視情況進行個性化研發,不斷豐富輿情產品線。1.3.3.8.3權限管理
根據用戶訂購產品,擁有查看相關輿情內容的權限;對于沒有訂購的產品,則只提供有限時間、有限性能的服務。1.3.3.8.4滿意度調查
調查用戶使用的滿意度,以提高服務及技術水平。1.3.3.8.5意見反饋
收集用戶對使用產品、服務的意見和建議,以促進服務及技術能力。1.4開發建議
鑒于本系統功能強大、流程復雜,尤其是網絡抓取工作量極大,建議本系統分期分批開發。1.4.1第一階段開發工作
將“輿情選題子系統”“輿情采集子系統”中的選題內容進行壓縮,以網站2-5個;論壇2-5個、博客2-5個;微博2-5個等進行一期開發。將“輿情發布子系統”中的個性化桌面留待后期開發,這樣一來其它子系統的開發工作也會有所減少,保證在極短的時間內開發出一個可演示的版本;前期硬件投入也會相應減少。
聯系方式:北京軟件開發公司
電話:010-52895342,400-886-7161
郵件:service@hivekion.com
網址:http://www.51400.net
【北京華盛恒輝科技有限公司 ——(hivekion)是一家軟件定制開發公司,在軟件產品研發與服務,華盛恒輝堅持穩健經營、持續創新、開放合作,在安全生產、大數據處理等領域構筑了端到端的解決方案優勢,為企業客戶提供有競爭力的IT解決方案、 產品和服務。】