基于大數(shù)據(jù)的重大突發(fā)公共衛(wèi)生事件網(wǎng)絡輿情預測
輿情應對是重大突發(fā)公共衛(wèi)生應急管理中的重要問題。自2019年底新型冠狀病毒肺炎爆發(fā)以來,互聯(lián)網(wǎng)成為這次疫情最大的信息源,網(wǎng)上關于疫情的各種信息真?zhèn)位祀s、謠言和未經(jīng)證實的信息的產(chǎn)生與傳播引發(fā)一波又一波輿情,嚴重擾亂疫情防控,網(wǎng)絡由此被稱為此次戰(zhàn)“疫”的“第二戰(zhàn)場”。因此,亟待對網(wǎng)絡輿情進行有效預測,從源頭上預防和降低輿情風險、有效防范輿情事件發(fā)生及蔓延,為疫情防控營造有利的輿論場。
大數(shù)據(jù)作為國家基礎性戰(zhàn)略資源,與人工智能、云計算等數(shù)字技術的綜合運用,能夠精準地助力網(wǎng)絡輿情的預測、引導和智能管控,推動決策的科學化,提升重大突發(fā)公共衛(wèi)生事件應急管理能力。充分發(fā)揮大數(shù)據(jù)在重大突發(fā)公共衛(wèi)生事件網(wǎng)絡輿情應對中的重要作用,需要做好以下三個方面的工作。
一、輿情數(shù)據(jù)的采集
首先,需要確定數(shù)據(jù)的來源渠道。最簡單易行的方法是借助于新浪輿情通、眾云大數(shù)據(jù)平臺等輿情監(jiān)測平臺,但這些平臺數(shù)據(jù)的實時性取決于其爬取網(wǎng)頁的速度。為獲取覆蓋面更廣、更新更為及時的數(shù)據(jù),則需要考慮多個媒體平臺。中國互聯(lián)網(wǎng)絡信息中心的調查表明,個人即時通信工具中,微信和QQ的用戶占比分別高達92.6%和87%,是中國網(wǎng)民使用最多的社交工具,但其中聊天等數(shù)據(jù)的爬取涉及公民隱私權保護等問題。新浪微博是我國具有代表性的自媒體平臺,其使用率達37.1%,被視為輿情監(jiān)測首選的數(shù)據(jù)來源。此外,百度貼吧、豆瓣、知乎、天涯社區(qū)等社交應用分別占有34.4%、8.1%、7.6%、7.0%的市場份額,為使數(shù)據(jù)采集更加全面,可以同時從上述更多元化的平臺獲取數(shù)據(jù)。另據(jù)艾瑞數(shù)據(jù)研究報告,以抖音和快手等為代表的短視頻行業(yè)市場規(guī)模將進一步擴大,預計2020年短視頻市場的同比增長率將達70.9%;視頻類媒體的數(shù)據(jù)采集在視頻的解析方面有更高的技術要求,其版權侵權的風險也更大,不同形式的輿情數(shù)據(jù)采集都可能涉及版權問題,視頻成為作品的可能性更大,故侵犯著作權的風險也更大。
其次,選擇數(shù)據(jù)采集的方式。在法律允許的范圍內,可以選擇目前廣泛使用的八爪魚等爬蟲軟件;也可以編寫網(wǎng)絡爬蟲、爬取網(wǎng)頁資源;或者通過網(wǎng)站提供的數(shù)據(jù)API接口獲得有價值的數(shù)據(jù)。
最后,清洗數(shù)據(jù)。為確保數(shù)據(jù)質量,對于從上述不同渠道采集而來的數(shù)據(jù),需要通過觀察數(shù)據(jù)的規(guī)律,設定清洗規(guī)則、進行數(shù)據(jù)清洗。
二、輿情數(shù)據(jù)的提取與結構化處理
為了自動化處理和分析輿情大數(shù)據(jù),實時地對輿情進行研判和預測,需要對輿情數(shù)據(jù)進行提取和結構化處理。
(一)多維揭示數(shù)據(jù)
在數(shù)據(jù)特征的提取中,主要考慮的維度有:用戶特征、時間特征、空間特征和內容特征。不同人群對同一事件的看法和反應,及其參與討論所造成的后果呈現(xiàn)出不同特征,有必要提取其性別、年齡、受教育水平、職業(yè)、行業(yè)等用戶特征數(shù)據(jù)。在時間特征方面,輿情事件生命周期一般分為潛伏期、形成期、波動期、消退期等必經(jīng)階段,提取事件生命周期有利于精準地預測輿情所處的發(fā)展階段。某一主題在一天中不同時間段內所受的關注程度也是網(wǎng)絡輿情分析的常見要素。關于疫情的輿情和地理空間緊密相關,可以通過輿情的地理分布規(guī)律,預測輿情在不同地理區(qū)域的分布和某一地理空間的歷時變化。內容特征的揭示在這個環(huán)節(jié)占據(jù)重要比重,包括文本主題、文本結構、事件關鍵字等內容,也包括文本的情感傾向因素。
。ǘ┎捎枚喾N相關技術
由于輿情數(shù)據(jù)的多元化與海量化,傳統(tǒng)的對網(wǎng)頁信息的人工提取、標引、分類耗費的時間成本高、速度慢、且不可避免地帶有主觀傾向,不能有效滿足快速預測輿情的需要,有必要借助于自動化的分類標引方法、潛在語義標引技術、開放關聯(lián)數(shù)據(jù)等技術,如利用自然語言處理與信息檢索共享平臺(NLPIR)和語言技術平臺(LTP)等具備高效和高精度的詞法、句法和語義分析與標引功能的開放中文自然語言處理系統(tǒng),甚至進一步運用詞頻、逆文檔指數(shù)(TF-IDF)和隱狄利克雷分配模型(LDA)算法對熱點主題進行統(tǒng)計和甄別。
。ㄈ┳裱嚓P的標準
輿情數(shù)據(jù)的分類、標引質量直接影響到后續(xù)的輿情數(shù)據(jù)分析工作,建議在數(shù)據(jù)處理工作中遵循一定的質量標準與活動原則。信息資源的分類與標引是圖書情報學的核心研究領域,其理論與方法值得借鑒于輿情數(shù)據(jù)處理中,如分類學要求對信息資源的分類標引工作遵循“準確、一致、適度、實用”的質量標準,即主題分析準確、歸類一致、標引深度適中、有針對性。對輿情數(shù)據(jù)文本主題和事件關鍵字的內容揭示,可以使用《漢語主題詞表》或者《醫(yī)學主題詞表》(MeSH)對輿情主題、關鍵詞進行標引以提高標引的準確度;用資源描述框架(RDF)、網(wǎng)絡本體語言(OWL)、統(tǒng)一資源定位符(URL)等關聯(lián)數(shù)據(jù)技術存儲、發(fā)布輿情數(shù)據(jù),為其賦予語義以建立與其他數(shù)據(jù)開放平臺的互聯(lián)互通。對輿情數(shù)據(jù)的時間特征描述可以采用國際化標準組織(ISO)用于表示日期和時間的國際標準(ISO 8601)或萬維網(wǎng)聯(lián)盟制定的《時間和日期編碼規(guī)則》(W3CDTF)。對輿情數(shù)據(jù)空間特征的名稱描述可用《Getty地理名稱敘詞表》、代碼可用國際標準組織(ISO)的國家和地區(qū)代碼國際標準(ISO 3166)。這些標準的應用有助于提升輿情數(shù)據(jù)分析的效率,增強大規(guī)模輿情知識庫和輿情查詢分析系統(tǒng)的互操作性。
三、輿情數(shù)據(jù)的分析
輿情數(shù)據(jù)的分析旨在從海量多源數(shù)據(jù)中迅速地識別關鍵信息,厘清民眾的主要觀點和情緒、揭示輿情事件的事實和趨勢,幫助相關部門做出正確的研判和及時應對。
輿情數(shù)據(jù)分析可從輿情的參與人群、傳播路徑、情感傾向,以及影響力等角度出發(fā)。參與輿情討論人群的社會角色、利益訴求、認知水平等方面的差異將引導輿情向不同的方向發(fā)展,需要利用用戶特征數(shù)據(jù),通過標簽提取和聚合分析等方法構建語義化、標準化的用戶畫像模型,并進一步分析輿情參與者的群體特征。傳播路徑分析通過挖掘不同主題輿情的傳播路徑與輿情平臺的關聯(lián)規(guī)則,揭示主題與輿情平臺的關聯(lián)模式,進而發(fā)現(xiàn)不同輿情平臺的主題傾向性。輿論情感分析則暗示著輿論文本中攜帶的情感傾向,如在新型冠狀病毒肺炎疫情防控中,面對疫情爆發(fā)、救援物資緊缺,輿論普遍帶有焦慮、不安、恐懼、懷疑等負面情緒;在抗“疫”工作取得進展時,輿論情感傾向則明顯轉向積極、樂觀。
輿情影響力分析是輿情數(shù)據(jù)分析的重點。有助于識別近期受關注的熱點話題、地區(qū)和人群關注度,研判與疫情消息、救援進展、政府應對等方面的輿情事件的熱點。從空間上來看,輿情影響力可以是單平臺的、局限于部分群體的;而在重大突發(fā)公共衛(wèi)生事件中,更有可能具有跨平臺、波及全民的特性;從時間上看,在輿情生命周期的不同階段,輿論影響力程度也存在差別;應從輿情影響力入手,借助圖悅等詞頻分析工具精準定位輿論熱點事件、熱點區(qū)域,展示輿情詞云。為了更好地展示數(shù)據(jù)分析結果,不妨借助百度ECharts、數(shù)據(jù)觀、微博足跡可視化等數(shù)據(jù)可視化工具,以便直觀地觀察輿情演化與發(fā)展態(tài)勢;通過回溯輿情傳播的信息鏈、時間鏈和發(fā)展鏈、確定關鍵節(jié)點,最終鎖定輿情生成源頭,進一步利用清博輿情系統(tǒng)等輿情分析工具,能夠更加全面、多維地挖掘輿情數(shù)據(jù),進行科學評估、判斷和重大預警。
人工智能相關技術的發(fā)展為智能分析輿情數(shù)據(jù)帶來了可能。首先,對結構化的輿情數(shù)據(jù)進一步語義化,建立用戶畫像、輿情主題、輿情事件等要素之間的知識關聯(lián);然后,經(jīng)過知識融合、知識加工和質量評估,自動化地構建大規(guī)模輿情知識庫,使用gStore等圖數(shù)據(jù)庫管理系統(tǒng)對知識圖譜進行存儲和管理,并在此基礎上建立基于大規(guī)模知識庫的輿情查詢分析系統(tǒng),具備語義檢索、智能問答、交互分析、知識推理等功能;利用特征抽取技術發(fā)現(xiàn)影響輿情事件的重要因素,如主題關注度、情感傾向等,建立輿情預警模型;最后,基于輿情查詢分析系統(tǒng)實現(xiàn)輿情事件的智能分析和預警,當模型綜合各個特征的計算結果超出閾值,則觸發(fā)預警,從而支持重大突發(fā)公共衛(wèi)生事件的應急管理和決策。(作者:黃如花為武漢大學信息管理學院副院長、教授;洪亮,武漢大學信息管理學院副教授;黃雨婷,武漢大學信息管理學院研究生)
責任編輯:admin
1、凡本網(wǎng)注明“來源:互聯(lián)網(wǎng)輿情忻州” 的所有作品,版權均屬于互聯(lián)網(wǎng)輿情忻州(本網(wǎng)另有聲明的除外);未經(jīng)本網(wǎng)授權,任何單位及個人不得轉載、摘編或以其它方式使用上述作品;已經(jīng)與本網(wǎng)簽署相關授權使用協(xié)議的單位及個人,應注意該等作品中是否有相應的授權使用限制聲明,不得違反該等限制聲明,且在授權范圍內使用時應注明“來源:互聯(lián)網(wǎng)輿情忻州”。違反前述聲明者,本網(wǎng)將追究其相關法律責任。
2、凡本網(wǎng)注明 “來源:XXX(非互聯(lián)網(wǎng)輿情忻州)” 的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。
3、如因作品內容、版權和其它問題需要同本網(wǎng)聯(lián)系的,請在30日內進行。
※ 網(wǎng)站聯(lián)系電話:18295883981 郵箱:hlwyqxz@163.com