
專題:《科學(xué)大家》聚焦新型冠狀病毒
實(shí)時(shí)疫情入口
出品:科技《科學(xué)大家》、高山大學(xué)
撰文:郭毅可,英國皇家工程院院士、歐洲科學(xué)院院士、英國帝國理工大學(xué)教授、香港浸會(huì)大學(xué)副校長
編者按:截止3月3日,新冠疫情已導(dǎo)致80303人感染。疫情肆虐,如何能更好地研究病毒的傳播途徑?數(shù)據(jù)科學(xué)在這里面又起到了哪些作用?
實(shí)際上,流行病學(xué)本身是數(shù)據(jù)科學(xué)最重要的分支之一。在流行病疫情防控上,數(shù)據(jù)科學(xué)不止是統(tǒng)計(jì)每天的疫情數(shù)據(jù),另外它還是理解流行病的傳染特性、傳染規(guī)律和控制策略的有效性的重要手段。
想要了解數(shù)據(jù)科學(xué)的作用,就需要從流行病的定義談起。傳染病是指由特定的傳染物(比如病毒、細(xì)菌),通過從受感體(人、動(dòng)物、植物)直接或間接地傳播給易感體,使易感體被傳染的疾病。
英國霍亂大暴發(fā),多虧了數(shù)據(jù)科學(xué)
19世紀(jì)中期,英國本土暴發(fā)了霍亂。當(dāng)時(shí)科學(xué)家、醫(yī)生和政府官員對(duì)霍亂不了解,一籌莫展,眼睜睜看著疫情蔓延。這時(shí),一些醫(yī)生觀察到,病人的分布常常是窮人區(qū)域里的比較多,且散發(fā)惡臭的地方比較容易得病,于是便提議用除臭劑來阻止霍亂流行,更有官員提出要把惡臭的地方徹底清掉。
但清洗倫敦后,霍亂開始了第二次暴發(fā),死亡人數(shù)比第一次多了3倍之多。問題出在哪里呢?當(dāng)時(shí)人們做了很多觀察,但都沒有做統(tǒng)計(jì)意義上的分析。此時(shí)一位醫(yī)生約翰·斯諾,他走訪了死亡患者的家庭,了解有患者家庭和無患者家庭間的區(qū)別,對(duì)比他們的生活條件、周邊環(huán)境、生活方式有什么根本不同,收集了很多數(shù)據(jù)。
利用這些數(shù)據(jù),約翰·斯諾最終確定霍亂暴發(fā)和水源有關(guān)。隨后,通過拒絕飲用倫敦蘇荷區(qū)寬街與蘇克萊星街交匯處的一處水井,倫敦霍亂患病率開始降低。

紀(jì)念斯諾而保留的水泵和他當(dāng)年調(diào)查繪制的地圖,圖自網(wǎng)絡(luò)
30年后,德國的微生物學(xué)家羅伯特·科赫發(fā)現(xiàn)霍亂的病原體“霍亂弧菌”,它能夠存活于水中,從而用科學(xué)證明了約翰·斯諾的假設(shè)。
斯諾通過比較兩個(gè)人群組在統(tǒng)計(jì)意義上的不同,找出區(qū)分它們的關(guān)鍵因素,從而找到致病的原因,這個(gè)方法在統(tǒng)計(jì)學(xué)里叫做“假設(shè)檢驗(yàn)”。斯諾以此為基礎(chǔ)創(chuàng)建了一門非常偉大的學(xué)科叫流行病學(xué)(Epidemiology),他也被稱為“流行病學(xué)之父”。為了紀(jì)念他,寬街的那口水井的水泵一直保留到現(xiàn)在,水井對(duì)面的酒吧被命名為“約翰·斯諾”。
研究流行病,就要找到病原、病的生成期、潛伏期、傳染性、嚴(yán)重性、確診性、病毒傳播的模式、風(fēng)險(xiǎn)分析、干預(yù)政策的設(shè)計(jì)和評(píng)估、疫情分析和預(yù)測(cè)。流行病學(xué)中的數(shù)據(jù)科學(xué)不一定很復(fù)雜。就目前暴發(fā)的新冠肺炎疫情,倫敦帝國理工學(xué)院的科學(xué)家做了一系列研究。
2020年1月18日,倫敦帝國理工學(xué)院發(fā)表了第一份對(duì)武漢的疫情分析,預(yù)測(cè)患者接近4000人,而當(dāng)時(shí)武漢確診的病例是41例。 科學(xué)家通過離開武漢到了國外確診的病例有7個(gè),同時(shí)從國際航空?qǐng)?bào)告里知道武漢每天有3300人出國。
科學(xué)家把每天出國的3300人作為一個(gè)在武漢抽樣的樣本,患病周期是10天,所以總體樣本空間有33000人,其中7人是確診病例,這樣就可以算出感染的概率(7/3300*10)。
根據(jù)這個(gè)概率,可以計(jì)算出武漢的感染人數(shù),雖然這是非常粗略的估計(jì),但它卻有統(tǒng)計(jì)學(xué)上的意義。
用動(dòng)態(tài)數(shù)據(jù)模型來指導(dǎo)疫情防控
疫情每天都在變,健康的人變成感染的人,患者治愈了或不幸去世了,每天都有在動(dòng)態(tài)變化。
要掌握疫情的發(fā)展,特別是要了解干預(yù)政策怎樣影響疫情的動(dòng)態(tài)變化,就要建立流行病的動(dòng)態(tài)模型(SIR模型),這又是數(shù)據(jù)科學(xué)非常重要的問題。
上個(gè)世紀(jì)二十年代,兩位既是傳染病學(xué)家也是物理學(xué)家的英國科學(xué)家科馬克(W.O.Kermack)和馬肯德萊克(A.G.Makenclrick),他們是把人群分為還未被感染的(易感人群,Susceptibles)、感染了的(傳染人群,Infectives)、不再被/會(huì)感染的(免疫/死亡人群,封閉了的)群體,這三個(gè)群體之間的動(dòng)態(tài)關(guān)系。就可稱為SIR模型。
現(xiàn)在很多預(yù)測(cè)模型,千變?nèi)f化,但共同點(diǎn)就是在刻畫三個(gè)人群之間的動(dòng)態(tài)變化的規(guī)律。研究這個(gè)規(guī)律,我們要看:
(1)從易感者(S)到感染者(I),這個(gè)叫感染的傳播過程。我們要研究讓易感者避免被感染,控制易感人群變成傳染人群的速度,這便和干預(yù)措施有很大關(guān)系。
(2)從感染者(I)到不傳染(R), 或叫被移除。不傳染有各種情況:一部分是治好了,一般來說病毒性的疾病治好了就有免疫力,不會(huì)再被傳染;一部分不幸死亡了,也不能再傳染;還有一部分我們能夠有很好的辦法隔離起來,比如方艙醫(yī)院,讓感染者不再傳染別人,也可以算是被移除的。
另外,還要看三個(gè)動(dòng)態(tài)變化人群之間的關(guān)系:
①在給定時(shí)間(t)里,易感人群還有多少;
②被傳染人群有多少(即已被感染并會(huì)傳染的人數(shù),我們每天報(bào)的疫情有確認(rèn)的受感者,但報(bào)的是發(fā)現(xiàn)就診的, 通常這只是真正受感染的很少的一部分);
③已經(jīng)治愈的和死亡的數(shù)據(jù)有多少。這個(gè)數(shù)目比較確定。
如何創(chuàng)建動(dòng)態(tài)系統(tǒng)數(shù)學(xué)模型?首先假設(shè)模型里每個(gè)人是在不斷游走的,沒有什么限制,接觸概率是相同的。我們來研究在這樣的環(huán)境里,傳染病是怎么傳播的。
然后開始有干預(yù)政策,不讓人群那么自由的流動(dòng),減少人與人的接觸,這樣的模型就要做些改變。在動(dòng)態(tài)模型里,我們要找到感染速度、恢復(fù)速度等一系列特征量。
感染速度:S→I rate = b*StIt
感染速度(S→I rate),是描述易感者被感染的轉(zhuǎn)換過程的特征。
這個(gè)感染速度與兩個(gè)因素成正比:①被感染人群的大?。虎谝赘腥巳捍笮?。
所以,感染速度等于易感人群(St)與感染人群(It)的乘積,還要再乘上感染速率參數(shù)(b)。
感染速率參數(shù)與兩個(gè)因素有關(guān):與傳染接觸的概率有關(guān)。人群接觸少的,參數(shù)就會(huì)小一點(diǎn)。艾滋病是靠性傳染,傳染接觸的概率一般不大, 而新冠病毒是靠飛沫傳染,傳染接觸的概率就大,要控制人與人的接觸就難一些;與疾病傳染性有關(guān),也就是說,一旦接觸后被感染的概率有多大,或者說病毒的傳染性有多強(qiáng)。
恢復(fù)速度:I→R rate = a*It
恢復(fù)速度(I→R rate),就是從感染者到不再感染者的過程有多長,也是我們常說的傳染期。
恢復(fù)速度取決于感染人群的數(shù)量(It),和它的大小成正比。a是恢復(fù)速率參數(shù),即如何讓感染者不再傳染?;謴?fù)速率參數(shù)與采取的措施有關(guān),比如發(fā)現(xiàn)感染者及早完全隔離,切斷傳染,也和醫(yī)治有關(guān)系,如找到有效的治療方案。
有了相應(yīng)的特征值后,我們就可以建立很好的流行病動(dòng)態(tài)模型,研究三種人群之間動(dòng)態(tài)的關(guān)系。實(shí)際上倫敦帝國理工學(xué)院的報(bào)告也是在這個(gè)基礎(chǔ)上做的。

流行病動(dòng)態(tài)模型基本是一條曲線:開始很多人是易感人群,慢慢這個(gè)人群減下來,因?yàn)槎急桓腥玖?;感染人群慢慢上去了,到一定的地方出現(xiàn)拐點(diǎn),因?yàn)闆]有那么多可以再感染的人群了;不被感染有很多因素,比如把人遷出去了,治愈的人變多了,建立方艙醫(yī)院隔離了感染者;還有一種是什么都不做,這樣拐點(diǎn)會(huì)被拖到很晚,很多人被感染,不過拐點(diǎn)總會(huì)出現(xiàn)的。
流行病動(dòng)態(tài)模型曲線的變化要看采取的防治措施、整個(gè)的醫(yī)療水平和干預(yù)的方法。

我們現(xiàn)在經(jīng)常會(huì)聽到R0,即基本繁殖率,指每一個(gè)感染個(gè)體引發(fā)的平均新發(fā)感染人數(shù)。
R0 1,一個(gè)人傳多人,感染傳播開始流行;
R0=1, 一個(gè)人傳一個(gè)人,感染保持恒定;
R0 1, 一個(gè)人傳少于一個(gè)人,感染開始消失。
計(jì)算R0需要有三個(gè)參數(shù):R0=βcD傳播概率(β):每次感染者與易感者之間每一次接觸并不等于一定會(huì)受到感染,這個(gè)參數(shù)決定病毒的強(qiáng)度。
接觸率(c):人與人接觸的概率,有些病比如艾滋病通過性接觸傳染,接觸率不會(huì)很大。像SARS、新冠肺炎等通過空氣傳染,對(duì)接觸的管理就很難了。我們要避免人與人之間的接觸,要戴口罩等等,都是降低接觸率的辦法。
感染持續(xù)時(shí)間(D):就是感染的治愈程度。除了治愈,不讓感染者繼續(xù)傳染也是縮短感染持續(xù)時(shí)間的辦法。
當(dāng)然還有減少易感人群(S),就是疫苗的作用,也能降低有效繁殖率(Rt)。Rt = St*R0
綜上,我們就可以建立一個(gè)完整的傳染病模型:

模型看起來很復(fù)雜,實(shí)際上是非常簡單的物理模型。有了這個(gè)模型,就可以把病毒離散化變成狀態(tài)方程,就可以解出來。
實(shí)際上,這個(gè)模型還是比較粗糙的,很多因素并沒有考慮在內(nèi):比如控制交通之后參數(shù)的改變,比如方艙醫(yī)院建立以后對(duì)感染持續(xù)時(shí)間(D)的改變。這些因素放進(jìn)去之后,方程會(huì)變復(fù)雜,但基本思想是一樣的。
建立了一個(gè)刻畫疾病傳染的動(dòng)態(tài)方程后,利用數(shù)據(jù)科學(xué)把這個(gè)方程與疾病的觀察數(shù)據(jù)做擬合。
SIR模型最大的難點(diǎn)是數(shù)據(jù)很難獲得。哪怕是新冠肺炎這么重大的疾病流行時(shí),要想把有關(guān)疾病的數(shù)據(jù)拿給科學(xué)家做分析也是很麻煩,另外這些數(shù)據(jù)分析都是“事后諸葛亮”。數(shù)據(jù)分析應(yīng)該是來指導(dǎo)政策的實(shí)施,而不僅僅是用來解釋政策。當(dāng)然,解釋政策也很重要,要對(duì)政策實(shí)施進(jìn)行評(píng)估。
那么能不能在傳染病暴發(fā)之前,通過獲得一些數(shù)據(jù),把傳染病的傳染模型真正的研究出來呢?
大數(shù)據(jù)模擬, 讓數(shù)據(jù)分析不再“事后諸葛亮”
2018年,西班牙大流感暴發(fā)100周年,BBC決定拍攝一部紀(jì)錄片來講講流行病如何防治。問題是流感發(fā)生在100年前,當(dāng)時(shí)的場景無法還原恢復(fù)。此時(shí),劍橋大學(xué)女教授朱莉·果戈(Julia Gog)設(shè)計(jì)一個(gè)APP來模擬大流感。
APP可以收集每個(gè)人的位置信息、也可以報(bào)告用戶之間的交互,有了這些數(shù)據(jù)就開始模擬流感。假定一個(gè)R0值,就可以看這個(gè)流感如何感染一個(gè)人;用什么辦法控制一個(gè)區(qū)域,看R0值會(huì)有什么變化,或者傳染率、傳染速度也都可以模擬。

BBC Pandemic,大流感模擬實(shí)驗(yàn)APP
這個(gè)APP叫BBC Pandemic,有80,000多人下載。BBC Pandemic采的數(shù)據(jù)是公開的,同時(shí)BBC有很好的保護(hù)數(shù)據(jù)私密性的辦法和措施。用戶可以匿名報(bào)告自己的信息,比如性別、年齡、健康狀況、職業(yè)(這很重要,關(guān)系到不同人的交往方式)。在用戶許可的前提下,機(jī)器會(huì)不斷上報(bào)用戶的位置信息。數(shù)據(jù)傳到后臺(tái)云上后,系統(tǒng)會(huì)根據(jù)傳染率通知用戶在接觸過程中是否被感染。
通過所有收集的數(shù)據(jù)最終可以做到,雖然沒有在現(xiàn)實(shí)中發(fā)生傳染病,但是已經(jīng)可以通過模擬,知道傳染病的傳染方式和發(fā)展情況。
模擬完之后就可以來做對(duì)策,比如接種疫苗、做隔離等等的,這些措施的效果如何,全部可以被模擬出來。
整個(gè)APP的操作非常簡單,而且參與者都很喜歡,像一個(gè)和感染作戰(zhàn)的游戲。最終,BBC實(shí)現(xiàn)了對(duì)1918年西班牙大流感的模擬,并且收集了很多的數(shù)據(jù),出了很多的研究文章,研究對(duì)這樣的傳染病暴發(fā)的各種各樣干預(yù)方案的效果。該實(shí)驗(yàn)的結(jié)果發(fā)表在2018年《Epidemics》雜志上。
現(xiàn)在國內(nèi)也有類似的系統(tǒng),如阿里巴巴大數(shù)據(jù)疫情監(jiān)控云屏、中國移動(dòng)疫情專項(xiàng)分析服務(wù)、科大訊飛地方政府大數(shù)據(jù)疫情防控解決方案、個(gè)體移動(dòng)軌跡追蹤等等。
但是,這些分析服務(wù)都是在疫情暴發(fā)以后,實(shí)際上根本不需要等待疫情暴發(fā),我們就完全可以建立這樣的系統(tǒng),這樣,對(duì)于流行病,完全可以做到未卜先知。
由此,我們可以看到數(shù)據(jù)科學(xué)的重要作用:完全可以在一個(gè)疾病沒有發(fā)生的時(shí)候,模擬疾病產(chǎn)生的可能,模擬各種防治方案的效果。這樣,我們就可以做到科學(xué)精準(zhǔn)的決策。不要等傳染病來了再來求助于大數(shù)據(jù),這樣太晚了,付出的代價(jià)也太大。
智慧城市要有免疫力和抗災(zāi)力
基于大數(shù)據(jù)的疾病防控系統(tǒng)應(yīng)該是我們建設(shè)智慧城市的一個(gè)根本出發(fā)點(diǎn)。大家都在做智慧城市,有智慧交通、智慧安防等等。但是一個(gè)城市真正想要有智慧,它就要有兩個(gè)重要的方面:要清楚有很多信息可以采集;必須能夠預(yù)見未來。
中國是大數(shù)據(jù)非常豐富的國家,運(yùn)營商、互聯(lián)網(wǎng)公司有大量的數(shù)據(jù),能不能夠用好它,真正把城市的免疫力、防災(zāi)性建立起來,這很重要。
疫情發(fā)生后,有了AI疫情應(yīng)急大數(shù)據(jù)一體化智能測(cè)溫預(yù)警解決方案,就能把數(shù)據(jù)都收集起來,但這個(gè)數(shù)據(jù)是“事后諸葛亮”?,F(xiàn)在監(jiān)控分析的是對(duì)有疫情城市的監(jiān)控。有了疫情應(yīng)急決策系統(tǒng),比如疫情應(yīng)急管理資源物資大數(shù)據(jù)、教育局疫情大數(shù)據(jù)決策系統(tǒng)。但這些系統(tǒng)的數(shù)據(jù),沒有在疫病之前,把預(yù)案做好,所以我們只能在今天的實(shí)踐中試錯(cuò),錯(cuò)了再改,付出的代價(jià)非常大。
所以,數(shù)據(jù)科學(xué)的可預(yù)見性非常重要。做大數(shù)據(jù)研究不是僅僅把生活中的數(shù)據(jù)拿來考慮怎么做好物流、怎么讓不買東西的人去買東西,這些不是數(shù)據(jù)科學(xué)的全部內(nèi)容。真正的數(shù)據(jù)科學(xué)是真真實(shí)實(shí)地知道現(xiàn)在,從而可以精確地預(yù)見未來,這是數(shù)據(jù)科學(xué)對(duì)社會(huì)、對(duì)人民最大的重要性。希望以后我們的城市能夠變得真正有免疫的能力,疫病來了以后我們有抗災(zāi)的能力,能夠保證人民生活的健康,保證他們的幸福生活。
推薦
《科學(xué)大家》欄目精彩文章匯總
《科學(xué)大家》專欄投稿郵箱:sciencetougao@sina.com 來稿請(qǐng)注明姓名、單位、職務(wù)

