“互聯(lián)網+醫(yī)療”大數(shù)據可以為防疫提供參考嗎?近日,隨著疫情防控措施持續(xù)優(yōu)化,關于各地疫情峰值的大V模型、小程序預測等也引發(fā)了網友的討論。如在微信小程序中,可查看各大城市疫情高峰時間進度條,直接具體到高峰期的開始和結束日。
專家分析認為這種從統(tǒng)計學角度做流行病的預測和觀察所得出的宏觀趨勢,有一定的參考價值,但精準到某天開始、某天結束的數(shù)據準確性有待商榷且價值不大。同時,這兩種模型都將百度這一搜索引擎的搜索數(shù)據用作數(shù)據源,存在一定缺陷。
預測精準到“天數(shù)”
(相關資料圖)
北京商報記者檢索發(fā)現(xiàn),互聯(lián)網上的疫情峰值預測來源主要有2個:其一是一位大V建模,其二是微信小程序數(shù)據團+。
大V建模方面,經濟學家、某平臺百萬粉絲大V陳沁用公開的百度指數(shù)和一套成熟的數(shù)學模型做了疫情峰值預測。他預測北京本輪疫情感染已經到達峰值,一直到1月上旬,會不斷趨好。
公開資料顯示,陳沁畢業(yè)于復旦大學經濟系,曾任教于復旦大學經濟學院,現(xiàn)任BBD Index首席經濟學家。曾在China Economic Review、《經濟研究》《經濟學季刊》《金融研究》等權威期刊發(fā)表過諸多論文。
微信小程序數(shù)據團+,則由一家致力于大數(shù)據和人工智能領域的科技公司——上海脈策數(shù)據科技有限公司提供技術支持,在小程序上選擇想要查詢的城市,便可以顯示所預測的該城市“疫達峰”可視化進度圖表,如小程序顯示北京第一波高峰到達日為12月16日,第一波高峰結束日為1月13日。
這兩種疫情峰值測算都有其背后的原理。
根據陳沁公開的信息,他是借鑒了已經比較成熟的數(shù)學模型,用百度指數(shù)去測算疫情情況,“總體來說就是看超額搜索指數(shù)的覆蓋面積,當覆蓋面積達到一定閾值后就代表人口感染達到一定閾值,感染自然達峰、結束”。
微信小程序數(shù)據團+的原理類似,使用的是百度搜索指數(shù)和巨量算數(shù)數(shù)據進行計算。
北京商報記者注意到,這兩種預測模式都將百度搜索指數(shù)納入了數(shù)據源之中,但這種依賴搜索引擎數(shù)據的模型科學嗎?
數(shù)據源存問題
北京商報記者將各地官方已經公布的疫情高峰預估時間和微信小程序預測的時間進行了對比。
如江西省政府新聞辦在12月15日召開的江西省新冠肺炎疫情防控工作新聞發(fā)布會指出,據專家分析研判,江西省下一波疫情高峰將在今年12月底、明年1月初到來,2023年春節(jié)前后達到峰值。僅可選擇城市的小程序中查詢的結果則顯示,南昌市第一波高峰峰值在12月21日,在2023年1月8日結束高峰期。
對此,一位統(tǒng)計學領域的專業(yè)人士周鴻(化名)向北京商報記者分析表示,一方面,從統(tǒng)計學角度做流行病的預測和觀察,所得出的宏觀趨勢有一定的參考價值,但精準到某天開始、某天結束的數(shù)據準確性有待商榷且價值不大;另一方面,這兩種模型都將百度這一搜索引擎的搜索數(shù)據用作數(shù)據源,在數(shù)據源上便存在一定問題。
“百度引擎的搜索頻次總體上有一定價值,但跟實際結合后可能存在一些差異?!敝茗櫧忉尩溃紫仍谝苿踊ヂ?lián)網時代,大眾的搜索渠道眾多,百度搜索只是其中之一,甚至還有很大數(shù)量的人群并不會使用智能手機進行檢索;其次,公共衛(wèi)生事件所受到的影響因素非常多,比如某個地區(qū)突然出臺了防疫相關的政策變動,會導致短期內該地區(qū)對相關話題的搜索量大幅上升。綜合來看,將百度引擎作為數(shù)據源之一,并不能完全反映現(xiàn)實情況。
如何才能使模型更科學?周鴻建議,將國家衛(wèi)健委公布的每日陽性人數(shù)和進行一定規(guī)模問卷調查得出的感染情況作為數(shù)據源之一,反而更能準確地反映出某個城市疫情發(fā)展趨勢的變化。
回歸到本次模型預測的價值本身,北京社科院研究員、中國人民大學智能社會治理研究中心研究員王鵬認為,就模型所測的月份上的峰值,在宏觀角度上可以為線下防疫提供參考?!耙环矫娓鞯赝ㄟ^感染情況,提前做好醫(yī)療資源、物資儲備、人員調度等,也為市民日常生活防護進行一定的提醒;另一方面,這種模型對全國各地‘疫情峰值’進度都有一定預測,為全國一盤棋、疫情發(fā)展階段不同的地區(qū)合作調配資源等提供了參考?!?/p>
“醫(yī)療大數(shù)據”尚有局限性
事實上,運用統(tǒng)計學的專業(yè)知識進行大數(shù)據分析、預測的案例并不少見。國家統(tǒng)計局每個月發(fā)布的宏觀經濟數(shù)據如全國CPI(居民消費價格指數(shù))和PPI(工業(yè)生產者出廠價格指數(shù))等,便是在對相關主體進行抽樣調查的基礎上進行的。另外,相關機構通過對人口基數(shù)和增速進行統(tǒng)計后,對人口規(guī)模的預測也屬于統(tǒng)計學的應用。
而此次“疫達峰”所屬的醫(yī)療衛(wèi)生領域,則是統(tǒng)計學大數(shù)據適用的一個相對特殊的領域。
周鴻介紹了國外“醫(yī)療大數(shù)據”的一個典型案例——谷歌流感趨勢(GFT)。谷歌公司發(fā)現(xiàn),每年大約有9000萬美國居民使用互聯(lián)網來查詢與自身相關的疾病、藥物或者醫(yī)院信息,而關于流行性感冒的搜索量可以及時地反映當時流感的現(xiàn)狀;因此,他們使用互聯(lián)網搜索記錄來即時預測美國疾控中心延遲發(fā)布的疑似流感病例占比。該研究利用2003-2007年這五年的流感數(shù)據做模型,其推論在2008年的測試數(shù)據中得到很好驗證,之后很長一段時間的流感預測結果也與實際情況非常一致。
但四年以后,《自然雜志消息》報道,在最近的一次流行感冒爆發(fā)中谷歌利用大數(shù)據流感趨勢預測失效了,這一次谷歌的大數(shù)據預測模型顯示流感爆發(fā)非常嚴重,然而疾控中心在慢慢匯總各地統(tǒng)計的流感數(shù)據以后,發(fā)現(xiàn)谷歌的預測結果遠遠超過了實際情況。
對于這種統(tǒng)計學大數(shù)據在醫(yī)療領域的適用性,中南大學碩士研究生劉琛發(fā)表在《臨床醫(yī)學研究與實踐》期刊上的《從谷歌流感趨勢(GFT)案例分析“醫(yī)療大數(shù)據”的局限性》一文中得出結論指出,醫(yī)學本質是一門經驗科學,大數(shù)據是人類邁向數(shù)據時代的工具,大數(shù)據分析為許多醫(yī)學難題的解決提供了新途徑,改變了一些疾病診斷方式,另一方面也為科研教學提供了有力的數(shù)據支撐。
“但就現(xiàn)狀而言,大部分大數(shù)據分析技術(如nosql)還難以在醫(yī)療領域被重用,只有通過大數(shù)據方面的技術研究,不斷地改進大數(shù)據在臨床醫(yī)學應用中的缺陷,才能更好、更準確地為患者服務?!眲㈣≌f。
關鍵詞:
責任編輯:Rex_21