“互聯(lián)網(wǎng)+醫(yī)療”大數(shù)據(jù)可以為防疫提供參考嗎?近日,隨著疫情防控措施持續(xù)優(yōu)化,關于各地疫情峰值的大V模型、小程序預測等也引發(fā)了網(wǎng)友的討論。如在微信小程序中,可查看各大城市疫情高峰時間進度條,直接具體到高峰期的開始和結束日。
專家分析認為這種從統(tǒng)計學角度做流行病的預測和觀察所得出的宏觀趨勢,有一定的參考價值,但精準到某天開始、某天結束的數(shù)據(jù)準確性有待商榷且價值不大。同時,這兩種模型都將百度這一搜索引擎的搜索數(shù)據(jù)用作數(shù)據(jù)源,存在一定缺陷。
預測精準到“天數(shù)”
(相關資料圖)
北京商報記者檢索發(fā)現(xiàn),互聯(lián)網(wǎng)上的疫情峰值預測來源主要有2個:其一是一位大V建模,其二是微信小程序數(shù)據(jù)團+。
大V建模方面,經(jīng)濟學家、某平臺百萬粉絲大V陳沁用公開的百度指數(shù)和一套成熟的數(shù)學模型做了疫情峰值預測。他預測北京本輪疫情感染已經(jīng)到達峰值,一直到1月上旬,會不斷趨好。
公開資料顯示,陳沁畢業(yè)于復旦大學經(jīng)濟系,曾任教于復旦大學經(jīng)濟學院,現(xiàn)任BBD Index首席經(jīng)濟學家。曾在China Economic Review、《經(jīng)濟研究》《經(jīng)濟學季刊》《金融研究》等權威期刊發(fā)表過諸多論文。
微信小程序數(shù)據(jù)團+,則由一家致力于大數(shù)據(jù)和人工智能領域的科技公司——上海脈策數(shù)據(jù)科技有限公司提供技術支持,在小程序上選擇想要查詢的城市,便可以顯示所預測的該城市“疫達峰”可視化進度圖表,如小程序顯示北京第一波高峰到達日為12月16日,第一波高峰結束日為1月13日。
這兩種疫情峰值測算都有其背后的原理。
根據(jù)陳沁公開的信息,他是借鑒了已經(jīng)比較成熟的數(shù)學模型,用百度指數(shù)去測算疫情情況,“總體來說就是看超額搜索指數(shù)的覆蓋面積,當覆蓋面積達到一定閾值后就代表人口感染達到一定閾值,感染自然達峰、結束”。
微信小程序數(shù)據(jù)團+的原理類似,使用的是百度搜索指數(shù)和巨量算數(shù)數(shù)據(jù)進行計算。
北京商報記者注意到,這兩種預測模式都將百度搜索指數(shù)納入了數(shù)據(jù)源之中,但這種依賴搜索引擎數(shù)據(jù)的模型科學嗎?
數(shù)據(jù)源存問題
北京商報記者將各地官方已經(jīng)公布的疫情高峰預估時間和微信小程序預測的時間進行了對比。
如江西省政府新聞辦在12月15日召開的江西省新冠肺炎疫情防控工作新聞發(fā)布會指出,據(jù)專家分析研判,江西省下一波疫情高峰將在今年12月底、明年1月初到來,2023年春節(jié)前后達到峰值。僅可選擇城市的小程序中查詢的結果則顯示,南昌市第一波高峰峰值在12月21日,在2023年1月8日結束高峰期。
對此,一位統(tǒng)計學領域的專業(yè)人士周鴻(化名)向北京商報記者分析表示,一方面,從統(tǒng)計學角度做流行病的預測和觀察,所得出的宏觀趨勢有一定的參考價值,但精準到某天開始、某天結束的數(shù)據(jù)準確性有待商榷且價值不大;另一方面,這兩種模型都將百度這一搜索引擎的搜索數(shù)據(jù)用作數(shù)據(jù)源,在數(shù)據(jù)源上便存在一定問題。
“百度引擎的搜索頻次總體上有一定價值,但跟實際結合后可能存在一些差異?!敝茗櫧忉尩溃紫仍谝苿踊ヂ?lián)網(wǎng)時代,大眾的搜索渠道眾多,百度搜索只是其中之一,甚至還有很大數(shù)量的人群并不會使用智能手機進行檢索;其次,公共衛(wèi)生事件所受到的影響因素非常多,比如某個地區(qū)突然出臺了防疫相關的政策變動,會導致短期內該地區(qū)對相關話題的搜索量大幅上升。綜合來看,將百度引擎作為數(shù)據(jù)源之一,并不能完全反映現(xiàn)實情況。
如何才能使模型更科學?周鴻建議,將國家衛(wèi)健委公布的每日陽性人數(shù)和進行一定規(guī)模問卷調查得出的感染情況作為數(shù)據(jù)源之一,反而更能準確地反映出某個城市疫情發(fā)展趨勢的變化。
回歸到本次模型預測的價值本身,北京社科院研究員、中國人民大學智能社會治理研究中心研究員王鵬認為,就模型所測的月份上的峰值,在宏觀角度上可以為線下防疫提供參考?!耙环矫娓鞯赝ㄟ^感染情況,提前做好醫(yī)療資源、物資儲備、人員調度等,也為市民日常生活防護進行一定的提醒;另一方面,這種模型對全國各地‘疫情峰值’進度都有一定預測,為全國一盤棋、疫情發(fā)展階段不同的地區(qū)合作調配資源等提供了參考?!?/p>
“醫(yī)療大數(shù)據(jù)”尚有局限性
事實上,運用統(tǒng)計學的專業(yè)知識進行大數(shù)據(jù)分析、預測的案例并不少見。國家統(tǒng)計局每個月發(fā)布的宏觀經(jīng)濟數(shù)據(jù)如全國CPI(居民消費價格指數(shù))和PPI(工業(yè)生產(chǎn)者出廠價格指數(shù))等,便是在對相關主體進行抽樣調查的基礎上進行的。另外,相關機構通過對人口基數(shù)和增速進行統(tǒng)計后,對人口規(guī)模的預測也屬于統(tǒng)計學的應用。
而此次“疫達峰”所屬的醫(yī)療衛(wèi)生領域,則是統(tǒng)計學大數(shù)據(jù)適用的一個相對特殊的領域。
周鴻介紹了國外“醫(yī)療大數(shù)據(jù)”的一個典型案例——谷歌流感趨勢(GFT)。谷歌公司發(fā)現(xiàn),每年大約有9000萬美國居民使用互聯(lián)網(wǎng)來查詢與自身相關的疾病、藥物或者醫(yī)院信息,而關于流行性感冒的搜索量可以及時地反映當時流感的現(xiàn)狀;因此,他們使用互聯(lián)網(wǎng)搜索記錄來即時預測美國疾控中心延遲發(fā)布的疑似流感病例占比。該研究利用2003-2007年這五年的流感數(shù)據(jù)做模型,其推論在2008年的測試數(shù)據(jù)中得到很好驗證,之后很長一段時間的流感預測結果也與實際情況非常一致。
但四年以后,《自然雜志消息》報道,在最近的一次流行感冒爆發(fā)中谷歌利用大數(shù)據(jù)流感趨勢預測失效了,這一次谷歌的大數(shù)據(jù)預測模型顯示流感爆發(fā)非常嚴重,然而疾控中心在慢慢匯總各地統(tǒng)計的流感數(shù)據(jù)以后,發(fā)現(xiàn)谷歌的預測結果遠遠超過了實際情況。
對于這種統(tǒng)計學大數(shù)據(jù)在醫(yī)療領域的適用性,中南大學碩士研究生劉琛發(fā)表在《臨床醫(yī)學研究與實踐》期刊上的《從谷歌流感趨勢(GFT)案例分析“醫(yī)療大數(shù)據(jù)”的局限性》一文中得出結論指出,醫(yī)學本質是一門經(jīng)驗科學,大數(shù)據(jù)是人類邁向數(shù)據(jù)時代的工具,大數(shù)據(jù)分析為許多醫(yī)學難題的解決提供了新途徑,改變了一些疾病診斷方式,另一方面也為科研教學提供了有力的數(shù)據(jù)支撐。
“但就現(xiàn)狀而言,大部分大數(shù)據(jù)分析技術(如nosql)還難以在醫(yī)療領域被重用,只有通過大數(shù)據(jù)方面的技術研究,不斷地改進大數(shù)據(jù)在臨床醫(yī)學應用中的缺陷,才能更好、更準確地為患者服務?!眲㈣≌f。
關鍵詞:
責任編輯:Rex_21