淺談大數據在抗疫中的應用和啟示

1 評論 2501 瀏覽 2 收藏 19 分鐘

編輯導讀:新冠疫情發生以來,大數據、云計算、人工智能等新一代信息技術加速與交通、醫療、教育、金融等領域深度融合,讓疫情防控的組織和執行更加高效,成為戰“疫”的強有力武器。本文作者分析了大數據在抗疫中的應用,以及給我們帶來的啟示,希望對你有幫助。

一、概述

手機掃描健康碼,社區、鄉村工作人員精準排查來往人員;在機場、碼頭、車站,用大數據實現旅客行蹤可追溯;實時疫情地圖將疫情數據的空間特征、時間特征和數量特征進行可視化表達……

新冠肺炎疫情發生以來,大數據、云計算、人工智能等新一代信息技術加速與交通、醫療、教育、金融等領域深度融合,讓疫情防控的組織和執行更加高效,成為戰“疫”的強有力武器。

從疫情信息統計分析,到流動人員健康監測、確診病例追蹤,再到疫情態勢研判、預測,大數據技術助力筑牢疫情防控網,為科學防控、復工復產、民生保障等提供了有力支撐。

圖1:科技公司積極參與到抗疫行動中

資料來源:IDC中國,2020

二、大數據在抗疫中的應用

1. 構建知識圖譜,追蹤傳播路徑

大數據技術可以梳理感染者的移動軌跡,追蹤人群接觸史,建立知識圖譜,為精準定位疫情傳播路徑,防控疫情擴散等方面提供重要信息。

追蹤移動軌跡、建立知識圖譜,已經是大數據領域比較成熟的技術。位置數據方面,除了航空、鐵路、公路、輪渡等交通部門統計的出行數據外,在用戶授權的前提下,電信運營商可以基于手機信令等包含地理位置和時間戳信息的數據有效定位用戶的手機位置?;ヂ摼W企業也可以通過APP授權調用用戶手機位置數據。

此外,地圖、打車、旅游等APP提供的移動出行服務,電商、外賣平臺等APP內的送貨地址數據,以及銀行移動支付的IP、經緯度數據等都可以作為位置數據的有效補充。知識圖譜則可通過各類社交平臺、通信網絡、通話記錄、轉賬記錄等數據構建。

圖2:疫情傳播知識圖譜

資料來源:杜娟.新冠肺炎疫情防控中,大數據在發揮什么作用?[J].大數據時代,2020(02):6-11.

將手機用戶不同時間段的授權位置數據進行縱向串聯,能夠有效繪制出移動軌跡。這類個體數據,可以追蹤被感染者的疾病傳播路徑、定位感染源,配合知識圖譜可以鎖定被感染者曾經接觸過的人群,以便及時采取隔離、治療等防控措施,避免疫情更大范圍擴散。

將同一時點不同個體的位置數據進行橫向整合,就能形成群體數據。利用數據分析、數據挖掘等技術能夠準確刻畫跨地域漫入、漫出的不同類別人員的流動方向、動態及規模。

如果在百度遷徙地圖中輸入“武漢”這個城市,從1月10日春運大幕拉開,到1月22日春運第一階段高潮將要落下的時間點,從武漢(起始地)流向全國各地的城市客流量排名,與各地新型肺炎病例被發現的數量與時間早晚,有著一定的正相關關系。

圖3:1月15日從武漢流向全國各城市人員分布

資料來源:百度地圖慧眼

利用群體位置數據制作疫情期間的人口遷徙地圖,可據此觀察各城市的人口流入、流出狀況,尤其是重點疫區人口流出方向。這些數據有利于定位疫情輸出的主要區域、預測地區疫情發展態勢、預測地區潛在染病人群,為疾病防控部門及地區政府有針對性地出臺交通管制措施提供科學支持。

2. 大數據構建疫情發展模型

疫情期間,大眾密切關注疫情的傳播態勢。疫情還會傳播多久?感染者還會大幅增加嗎?哪里感染風險高?何時能夠進入安全期?要解決這些問題,需要找出關鍵影響因素、分析疫情傳播特征、搭建疫情發展模型,這其中大數據能夠發揮關鍵作用。

除了醫療數據外,疫情傳播往往還受到氣候、溫度、濕度、地質、交通、社會行為、城市衛生等多維度因素影響。大數據技術的發展使得這些影響因素均能以數據形態展示,同時使得多維度、大規模的數據處理成為可能。利用大數據實現上萬量級的影響因子建模,極大地豐富了疫情發展模型的分析維度。

SIR模型是傳染病模型中經典的模型,其中S表示易感者(Susceptible),I表示感染者(Infective),R表示移除者(Removal)。

傳播過程大致如下:最初所有的節點都處于易感染狀態,然后部分節點接觸到信息后,變成感染狀態,這些感染狀態的節點試著去感染其他易感染狀態的節點,或者進入移除狀態。移除狀態,即免疫,處于移除狀態的節點不再參與信息的傳播。

圖4:SIR模型傳播過程

假設易感染者,感染者,移出者之和是個恒量即 。病人康復后具有免疫力,人與人之間有相同的接觸率:

其中α,β都是以時間為變量的參數,α(t)為日感染率,β(t)為日移出率。參考多方資料后,假設α=0.0000003,β=0.0077266,I(0)=1,S(0)=1000000(其中感染率a和移出率β都是根據官方所提供的數據估算出,武漢市人口共有一千萬,假設十分之一受到此次疫情的影響)。

圖5:湖北省疫情情況統計表

資料來源:湖北省衛健委

仿真結果可以看到,21天到25天的數據,也就是截止到1月26日24時,預測的數據都是符合實際情況的。但是隨著疫情的擴張,感染率勢必降低,移出率勢必提高。因此,感染率α和移出率β不會是一個常數。另外該模型過于精簡,將真實情況過度理想化,還有很多需要改進的地方。

圖6:湖北省疫情仿真預測情況

如果利用采集到的出行軌跡流動信息、社交信息、消費數據、暴露接觸史等海量數據,借助傳播動力學模型、動態感染模型、回歸模型等大數據分析技術,就可以更為準確的預測疫情的發展情況,并對疫情的峰值拐點等大態勢進行判斷。另外還可以根據病患確診順序和密切接觸人員等信息定位時空碰撞點,進而推算出疾病傳播路徑,為傳染病溯源分析提供理論依據。

3. 大數據挖掘疫情輿論

疫情面前,疏解民眾的焦慮心理至關重要。由于信息獲取方式、生活方式的改變,搜索大數據已成為疫情之下了解民意的重要載體,每一條信息背后的點擊、每一次搜索,都精準揭示了民眾的需求與問題。

疫情爆發的初始階段,“口罩”、“酒精”等搜索增多,而疫區“心理疏導”、“咽喉痛”搜索量激增74倍。隨著武漢封城,生鮮果蔬、防護物資、食品糧油、藥品等方面成為武漢及湖北人民搜索的熱點,這也提醒當地政府需要保證相關物資的供應。

圖7:“心理疏導”成為百度搜索熱點

數據來源:百度、CCTV

圖8:2月11日-2月26日武漢市民部分搜索關鍵詞

隨著疫情防控形勢好轉,”櫻花”相關內容搜索熱度超過”口罩”,反映出人們心理需求的變化:已經迫不及待地期盼走出家門擁抱春天。

圖9:“櫻花”成為百度搜索熱點

數據來源:百度、CCTV

當下,復工復產的步伐正在加速。如何利用大數據,為各行各業和政府部門的決策提供參考,也至關重要。搜索大數據反映了國內企業恢復生產的整體情況,給各行業有序籌備復工提供了可供參考的數據樣本。

圖10:復工復產新焦點

數據來源:百度、CCTV

在龐雜紛繁的信息環境中,越是全社會聚焦的重大突發事件,主動搜索的模式對于民眾獲取知識與信息也就顯得越發重要。這一點在此次疫情中表現得也十分明顯。搜索大數據樣本體量不僅足夠大,還更加多元。海量用戶產生的真實搜索請求,潛藏著極具挖掘價值的數據金礦。因此,無論是疫情走勢判斷、居民的日常生活以及企業的復工情況,某種程度上都離不開搜索的支撐。

眾多互聯網平臺都在關注疫情,為何只有搜索能探測民意與輿論走向?當然,這其中最主要的原因還在于搜索大數據能收集到海量的、具備分析價值的真實用戶的意愿與行為。

關于真實用戶需求,有句話是“客戶不是要買電鉆,而是要買墻上的那個洞?!蔽覀儚钠【婆c尿布的搭配銷售故事到口紅效應(因經濟蕭條而導致口紅大賣),都能看到大數據的威力。

2009年甲型H1N1流感在美國爆發的時候,谷歌通過觀察人們在網上的搜索記錄完成了冬季流感預測,它所測算出數據也成為美國公共衛生機構所能獲取到的非常有價值的信息,并且成為流感防控的一個更有效、更及時的指示標。

谷歌的行為本質上是平臺通過用戶行為精準挖掘探測到了其真實需求。對應到疫情下的新聞資訊平臺,短視頻平臺以及社交媒體,網民“眾聲喧嘩”的背后,泥沙俱下,大量無用的社交信息充斥,聒噪中夾雜著水軍與機器的操縱,信息過載成為常態,它并不能真實的反應用戶需求與獲得真實民意反饋。而相對社交媒體等平臺的聒噪,搜索的背后是大量的用戶主動求證行為,用戶此時在搜什么,反應了用戶在想什么,這些數據反映了人們的關切點,能更準確、及時地反應用戶真實意愿。

搜索像一面鏡子,能映照出民眾最迫切的需求,利用大數據處理和分析手段將有價值的信息從不斷增長的海量數據中提取出來。通過對民意的洞察,可以提供一定的數據決策價值,輸出給地方政府與機構、民眾所用,做到“取之于民,用之于民”。

三、啟示

1.?大數據可用于業務場景分析與決策

疫情期間大數據在建立知識圖譜、疫情地圖、預測模型等方面起到了關鍵作用。大數據同樣可以運用到銀行業務中,從而更好的表達、分析金融業務場景的交易全貌,幫助銀行進行分析與決策。

  • 信貸領域的重點是獲客、身份驗證、以及授信環節。獲客需要建立用戶畫像,追蹤用戶的完整生命周期;身份驗證即通過活體識別、OCR等技術進行申請人的驗證的問題,任務關聯分析需要圖關聯技術,找出任務知識圖譜;授信環節更要匯聚多方數據源,通過多維度歷史數據進行建模并取得風險定價,輸出信用分給金融機構。
  • 理財領域的重點是營銷獲客和智能投顧。營銷與信貸類似,需要建立全面完整的用戶畫像,覆蓋完整的用戶生命周期,才能做到真正的智能營銷、獲客;智能投顧需要KYC和投借匹配,重點分析用戶風險等級及偏好,并進行KYC與KYP結合,進行智能匹配。
  • 支付領域的核心是交易反欺詐,需要通過各種技術建立交易反欺詐引擎,并根據交易數據進行反欺詐引擎模型優化。

2. 大數據可用于服務優化

  • 輿情分析:銀行可以通過爬蟲技術,抓取社區、論壇等外部媒體上關于銀行以及銀行產品和服務的相關信息,并對信息進行正負面判斷,尤其是掌握銀行以及銀行產品和服務的負面信息,及時發現和處理問題;對于正面信息,可以加以總結并繼續強化。同時,銀行也可以抓取同行業的銀行正負面信息,及時了解同行做的好的方面,以作為自身業務優化的借鑒。
  • 市場和渠道分析優化。通過大數據,銀行可以監控不同市場推廣渠道尤其是網絡渠道推廣的質量,從而進行合作渠道的調整和優化。同時,也可以分析哪些渠道更適合推廣哪類銀行產品或者服務,從而進行渠道推廣策略的優化。
  • 產品和服務優化:銀行可以將客戶行為轉化為信息流,并從中分析客戶的個性特征和風險偏好,更深層次地理解客戶的習慣,智能化分析和預測客戶需求,從而進行產品創新和服務優化。比如通過對還款數據挖掘比較區分優質客戶,根據客戶還款數額的差別,提供差異化的金融產品和服務方式。

3.?數據能力是運用大數據的基礎

良好和豐富的數據是開展疫情防控應用的基礎。傳統衛生數據的采集起點通常是基層的社區衛生中心,通過社區人員手工填報,經歷區衛健委、市衛健委,最終匯集至省衛健委和國家衛健委。這種采集方式在大數據量面前暴露出了一些弊端。一方面增加了基層數據采集工作人員的負擔,降低了數據匯集的效率,另一方面難以在數據源頭快速核驗數據的正確性,增加了后期數據質量管理的成本。

在疫情防控中也存在數據分散割裂、流通不足的問題。例如運營商各省級公司之間相對獨立,數據各自保管存儲,對數據的認知角度也截然不同,最終導致數據之間難以互通,形成孤島。這樣造成的后果就是每一個城市都有自己的健康碼,如果去其他城市就要面臨無法健康碼互認的問題。不打通這些數據,大數據的價值將非常難挖掘,只有不同數據的關聯和整合才能更好的發揮大數據的優勢。

 

本文由 @汪仔6497 原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

給作者打賞,鼓勵TA抓緊創作!
4人打賞
更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 希望看到一些深度技術分析的文章

    回復