亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

當前位置: 首頁 > 社會新聞 >

全球疫情數(shù)據(jù),為何由一所高校更新?

時間:2020-04-09 17:46來源:網(wǎng)絡(luò)整理 瀏覽:
(本系列均為南方周末、南方人物周刊原創(chuàng),限時免費閱讀中)1月21日,導(dǎo)師建議我做一個新冠的數(shù)據(jù)展示圖(dashboard),類似船員航行時需

(本系列均為南方周末、南方人物周刊原創(chuàng),限時免費閱讀中)

1月21日,導(dǎo)師建議我做一個新冠的數(shù)據(jù)展示圖(dashboard),類似船員航行時需要關(guān)注的儀表盤。我們所有的數(shù)據(jù)庫都是開源的,大家可以在Github查到所有的歷史數(shù)據(jù),相當于我們的數(shù)據(jù)在接受全世界的審核。

世衛(wèi)的數(shù)據(jù)是一天更新一次,不像我們實時更新,因此我們的總數(shù)會比它那天那個時刻公布的要大。我們做過一個世衛(wèi)和我們數(shù)字的對比,發(fā)現(xiàn)世衛(wèi)的數(shù)字總是在第二天才追上我們前一天發(fā)布的數(shù)字。

通過這次疫情,我感受到及時公布數(shù)據(jù)的重要性,盡管不斷攀升的數(shù)字看起來很恐怖,但是可能會起到讓你待在家里不要出門的作用,這對阻斷傳染病傳播是最有效的辦法。

全球疫情數(shù)據(jù),為何由一所高校更新?

這是4月4日在美國紐約中央公園拍攝的臨時醫(yī)院。 (新華社/路透/圖)

每一日,你的手機都會彈出全球新冠疫情的最新統(tǒng)計數(shù)據(jù),這其中一個信源是美國約翰·霍普金斯大學(xué)(Johns Hopkins University,簡稱JHU)。

JHU疫情數(shù)據(jù)已被多家媒體引用和報道,包括紐約時報、CNN、法新社、BBC以及新華社等。

疫情可視化數(shù)據(jù)圖由JHU土木與系統(tǒng)工程學(xué)院(CaSE)的Lauren Gardner教授和她的學(xué)生開發(fā),目前研究團隊核心成員有三人,24小時不間斷實時更新。

JHU是一座百年名校,主校區(qū)坐落于美國大西洋沿岸馬里蘭州巴爾的摩市,距離美國首都華盛頓六十多公里。JHU醫(yī)學(xué)院和公共衛(wèi)生學(xué)院均在全美名列前茅,而醫(yī)學(xué)院的教學(xué)研究單位約翰·霍普金斯醫(yī)院連續(xù)21年被評為全美最佳醫(yī)院。

JHU“新冠病毒研究中心”官網(wǎng)顯示,該疫情數(shù)據(jù)在1月22日上線,每日平均使用量(feature requests)從1月底的2億次,在3月初上升到每日12億次,高峰時每日近20億次。

全球疫情數(shù)據(jù),為何由一所高校更新?

約翰·霍普金斯大學(xué)疫情數(shù)據(jù)4月4日截圖

為何一個高校開發(fā)的數(shù)據(jù)圖受到全球關(guān)注和信賴?

北京時間2020年4月3日,JHU數(shù)據(jù)圖顯示,全球新冠肺炎感染人數(shù)突破100萬,南方周末記者當天專訪了JHU土木與系統(tǒng)工程學(xué)院的董恩盛和杜鴻儒,解讀上億閱讀量背后的故事。他們是Lauren Gardner教授指導(dǎo)的博士一年級學(xué)生,從早期開始就深度參與了JHU疫情地圖的數(shù)據(jù)收集與分析工作。

全球疫情數(shù)據(jù),為何由一所高校更新?

杜鴻儒(左)和董恩盛(右) (受訪者供圖/圖)

1月22日上線,手動錄入到自動更新

南方周末:世界衛(wèi)生組織和美國疾控中心每天也在更新全球和美國的新冠確診數(shù)據(jù),大家為什么會信賴并使用你們的數(shù)據(jù)?你們的數(shù)據(jù)來源是哪些?

董恩盛:我們是從各個國家的官方網(wǎng)站收集數(shù)據(jù),比如中國的數(shù)據(jù)主要來源于國家衛(wèi)健委和“丁香園”?!岸∠銏@”將每個省份的疫情情況都制成了表格,這樣便于科研工作者錄入和處理。

美國的數(shù)據(jù)不像中國是自下而上、層層上報和發(fā)布,我們會結(jié)合州郡縣市的官方網(wǎng)站、政府新聞發(fā)布會、權(quán)威部門或媒體發(fā)表在Twitter等渠道的疫情內(nèi)容進行數(shù)據(jù)挖掘。

世界衛(wèi)生組織和美國疾控中心的數(shù)據(jù),雖然也被我們列作數(shù)據(jù)來源,但它們對于我們來說主要是核查(validation)作用,因為它們的數(shù)據(jù)更新相對滯后,也沒有像我們一樣達到郡縣級的數(shù)據(jù)精度。

所以,我們通常是今天收集好數(shù)據(jù)并發(fā)布,等第二天世衛(wèi)和疾控的數(shù)據(jù)出來再比對,目前來看,我們發(fā)現(xiàn)我們報得很及時,也很準確。

另外,我們所有的數(shù)據(jù)庫都是開源的,大家可以在Github查到所有的歷史數(shù)據(jù),相當于我們的數(shù)據(jù)在接受全世界的審核。除此之外,我們還有公開的郵箱接受大家的建議和意見。

南方周末:我們發(fā)現(xiàn)你們公布的全球確診人數(shù)總是比世界衛(wèi)生組織多,這是為什么?比如說到4月3日,世衛(wèi)組織的全球確診人數(shù)還沒有超過百萬,但你們的數(shù)據(jù)顯示已經(jīng)超過百萬了。

杜鴻儒:世衛(wèi)的數(shù)據(jù)是一天更新一次,不像我們實時更新,因此我們的總數(shù)會比它那天那個時刻公布的要大。我們做過一個世衛(wèi)和我們數(shù)字的對比,發(fā)現(xiàn)世衛(wèi)的數(shù)字總是在第二天才追上我們前一天發(fā)布的數(shù)字。這也說明了我們數(shù)據(jù)很準確,而且比他們更新得更快。

董恩盛:此外,在我們的定義中,確診人數(shù)(confirmed cases)其實還包括了推定陽性病例(presumptive positive cases),原因是各地對推定陽性病例和疑似病例(suspected cases)等群體定義不同,很難統(tǒng)一。以美國為例,推定陽性病例意味著他們已被地方實驗室確認感染新冠病毒,但還未經(jīng)疾控中心核實納入統(tǒng)計,所以我們還是把推定陽性病例納入到確診數(shù)字中。

全球疫情數(shù)據(jù),為何由一所高校更新?

4月4日世界衛(wèi)生組織發(fā)布的疫情數(shù)據(jù),確診人數(shù)也超過百萬。 (世界衛(wèi)生組織官網(wǎng)截圖/圖)

南方周末:北京時間1月23日,武漢交通“封城”,當天你們的數(shù)據(jù)圖就上線了,當時為什么有這個想法?

董恩盛:1月20日是美國的馬丁·路德·金紀念日,放了三天的小長假。到了1月21日我們課題組開會的時候,導(dǎo)師Lauren Gardner教授問我知不知道現(xiàn)在中國新冠疫情已經(jīng)非常嚴重了,我說“是的,我非常擔心,也想做些相關(guān)的研究”。

當時導(dǎo)師建議我做一個新冠的數(shù)據(jù)展示圖(dashboard),類似船員航行時需要關(guān)注的儀表盤。這方面的技術(shù)我比較熟悉,因為2019年五六月份,我跟著導(dǎo)師已經(jīng)做過一個關(guān)于美國麻疹的數(shù)據(jù)展示圖。

1月21日開始準備,教授主外我主內(nèi)。教授負責聯(lián)絡(luò)和協(xié)調(diào)資源,并對我的工作進行宏觀性的指導(dǎo),我花了六七個小時把初代的數(shù)據(jù)圖做了出來,第二天1月22日(美東時間)上線,正好在武漢交通“封城”后發(fā)布,那個時候國家衛(wèi)健委也已經(jīng)通報了全國的新冠疫情情況。

南方周末:當時只有你一個人在做數(shù)據(jù)更新?忙得過來嗎?

董恩盛:到1月底基本上就是我一個人純手動更新數(shù)據(jù),很花時間。我那個時候基本是不睡覺的狀態(tài),每天要更新四五次,我還退了一門課來確保數(shù)據(jù)及時更新。

后來被感染國家數(shù)量越來越多,數(shù)據(jù)精細度要求越來越高,我一個人就漸漸吃不消了。一開始只是想做一個研究的輔助性的工具,沒想到現(xiàn)在會得到這么高的曝光量。

南方周末:地圖現(xiàn)在包括了181個國家和地區(qū)的數(shù)據(jù),涉及不同的語言,搜集數(shù)據(jù)的過程中遇到了什么困難?

杜鴻儒:我是在1月30日左右加入,和董恩盛一起做數(shù)據(jù)更新。我們?nèi)ジ鱾€國家的衛(wèi)生部門和權(quán)威媒體網(wǎng)站一個個找,小語種國家的網(wǎng)頁直接用Google Translate整個翻譯成英文,然后將確診病例的數(shù)據(jù)轉(zhuǎn)到Excel/csv里,最后再導(dǎo)在軟件里進行數(shù)據(jù)可視化。

對于我們來說,比較麻煩的是有的地區(qū)比如某個島隸屬于英國、法國或荷蘭等,個別數(shù)據(jù)源容易錯把它們當作單獨的國家來看待。

南方周末:數(shù)據(jù)庫已經(jīng)上線兩個多月了,這期間出過錯誤嗎?

杜鴻儒:早期手動錄入的時候,免不了會出現(xiàn)一點小錯誤,但我們的郵箱會立馬收到讀者的郵件,質(zhì)問我們“你為什么錯了”。

后來我們覺得手動錄入實在不是長久之計,組里的成員熬了一周,每天至少工作15個小時,完成自動化信息收集、數(shù)據(jù)清理、更新圖表的編程工作。所以,到了3月中旬,我們的更新頻率基本可以做到每15分鐘自動爬取一遍所有的數(shù)據(jù),每一個小時自動更新一次數(shù)據(jù)圖。

學(xué)校放假,數(shù)據(jù)不能“斷更”

南方周末:目前在做類似工作的還有哪些機構(gòu),為什么你們的關(guān)注度最廣?

杜鴻儒:其實我感覺我們做的數(shù)據(jù)圖也不能說很厲害,只是我們占了兩個優(yōu)勢:第一是我們做得比別人早;第二是借助JHU在公共衛(wèi)生和醫(yī)學(xué)領(lǐng)域排名靠前的優(yōu)勢。所以JHU發(fā)布的數(shù)據(jù),大家都會覺得很權(quán)威的,容易取得更多的關(guān)注。

世界上第三方獨立做疫情數(shù)據(jù)收集和分析的研究機構(gòu)不多,我關(guān)注到的有哈佛大學(xué)。

全球疫情數(shù)據(jù),為何由一所高校更新?

哈佛大學(xué)的新冠疫情動態(tài)數(shù)據(jù) 4月4日截圖

每個研究機構(gòu)都各有所長,比如說哈佛大學(xué)的數(shù)據(jù)圖是和清華大學(xué)等機構(gòu)合作,我覺得他們的優(yōu)點在于,將確診數(shù)量做成不同深淺的顏色來表示嚴重程度,而且他們掌握了許多細節(jié)的數(shù)據(jù)去分析患者的年齡、入境時間等。不足是他們上線較晚、更新速度較慢。

南方周末:上線兩個多月來,你們的數(shù)據(jù)展示圖和最開始相比,有哪些變化?

董恩盛:有很大差別。以最直觀的疫情地圖為例,大家一開始最關(guān)心中國疫情,所以初代數(shù)據(jù)展示圖是以中國為中心。你想看世界其他地方,需要手動點擊?,F(xiàn)在打開頁面,可以直接看到整個世界的情況,不需要放大或者縮小地圖。

從整個頁面布局來說,初代數(shù)據(jù)圖只是列出了確診病例的累計總數(shù),然后把每個國家或省份的數(shù)據(jù)單列出來。我們現(xiàn)在又增加了很多圖表,比如說你點擊一個國家,可以看到這個國家確診數(shù)字的每日變化。

從數(shù)據(jù)精細度來說,初代只對中美加澳四國是到省(州)級的,其他都是以國家或地區(qū)為單位。后來,對美國的確診、檢測數(shù)據(jù)我們做到了郡縣級(county level),當時很多人給我們寫郵件,感謝我們讓他們看到了自己生活區(qū)域的疫情。當然,這里面也有專家給我們提了一些寶貴的建議,使我們的數(shù)據(jù)展示更加便捷準確。

南方周末:除了感謝信,你們還收到了什么樣的反饋?

杜鴻儒:我們的公共郵箱大概每天能收到一兩千封關(guān)于數(shù)據(jù)圖的郵件,我的個人郵箱也會收到二三十封相關(guān)郵件。我們沒有精力逐一回復(fù),現(xiàn)在中心已經(jīng)請了專門的人來回復(fù)這些郵件。

據(jù)我所知,美國很多州的疾控中心直接采用了我們的數(shù)據(jù),包括馬里蘭州、佛羅里達州、俄勒岡州等,各級政要包括美國副總統(tǒng)邁克·彭斯談到新冠疫情的時候也引用了我們的數(shù)據(jù)圖。

南方周末:你們學(xué)校是不是也放假了,數(shù)據(jù)會停更嗎?會不會覺得壓力很大?

董恩盛:現(xiàn)在美國的學(xué)?;径季W(wǎng)上授課,我們的校園里面也只見花不見人了。但是我們這個項目很特殊,數(shù)據(jù)不能“斷更”,一旦更新出現(xiàn)問題,會影響到全世界。

所以學(xué)校也很重視,同時也有第三方獨立的GIS地圖軟件公司給予我們數(shù)據(jù)可視化的技術(shù)指導(dǎo)。

同時,學(xué)校還專門建立了新冠研究中心(Coronavirus Resource Center)網(wǎng)站,把學(xué)校所有和新冠相關(guān)的內(nèi)容,包括我們的數(shù)據(jù)圖、疫苗、預(yù)防等內(nèi)容都集結(jié)在里面,供公眾瀏覽。

“感受到及時公布數(shù)據(jù)的重要性”

南方周末:除了數(shù)據(jù)收集、更新、可視化展示,你們是否會對這些數(shù)據(jù)加以分析,并對全球疫情的趨勢作出判斷?

董恩盛:其實這項工作之初,我們就是打算在收集數(shù)據(jù)的基礎(chǔ)上,建立流行病學(xué)模型去分析新冠疫情的未來發(fā)展趨勢。

比如說,我們一開始采用SEIR模型(記者注:構(gòu)建帶有潛伏期的傳染病模型)去分析,但是我們遇到了兩個現(xiàn)實問題:一是這個數(shù)據(jù)采集量太大了,以至于我們的工作重心不得不從建模分析轉(zhuǎn)向了數(shù)據(jù)收集;二是,對于模型來講,人口流動(mobility)的數(shù)據(jù)非常重要,因為疾病的傳播和人口的流動密不可分,然而許多國家出于保護隱私等原因,這方面的數(shù)據(jù)是難以獲取的。

舉例來說,如果我們想要證明中國采用“封城”的辦法有效延緩了新冠病毒傳播,我們起碼需要高鐵、航空等方面的一些人員流動數(shù)據(jù)。

因此,我們當時的工作更加側(cè)重于分析,如果中國是個疫情中心,將對世界上其他國家造成什么樣的影響。比如說,預(yù)估哪些國家有可能更加早出現(xiàn)輸入型的病例,美國某些州或者機場需要采用一些檢測和隔離的手段。

但是,當時初步形成的一些研究結(jié)果發(fā)表在我們的網(wǎng)站上,并沒有一對一地對受影響的地區(qū)提出建議。后期很多地方衛(wèi)生部門主動聯(lián)系我們,才慢慢建立起直接的溝通合作。

南方周末:你們的數(shù)據(jù)對流行病學(xué)家的研究有什么幫助?

董恩盛:我們提供的這些原始數(shù)據(jù)非常寶貴,許多政府和媒體機構(gòu)都在關(guān)注。這些數(shù)據(jù)也是開放的,科學(xué)家在這些數(shù)據(jù)的基礎(chǔ)上做相應(yīng)的分析,我們后續(xù)也會跟進的。

杜鴻儒:流行病學(xué)分成很多個板塊,有的科學(xué)家關(guān)心病毒基因構(gòu)成,追溯其來源,這些我不太了解,我們現(xiàn)在做的建模工作偏向統(tǒng)計分析,關(guān)心確診數(shù)量、檢測數(shù)量、死亡率、擴散速度等等。

我也看到中國國內(nèi)很多科學(xué)家在做類似的分析工作,發(fā)了很多期刊文章,我覺得這些分析越早發(fā)出來越好,它可以幫助決策者更清晰地看到疫情的嚴重程度,提供一些可行的方案建議。

通過這次疫情,我感受到及時公布數(shù)據(jù)的重要性,盡管不斷攀升的數(shù)字看起來很恐怖,但是可能會起到讓你待在家里不要出門的作用,這對阻斷傳染病傳播是最有效的辦法。

除此之外,確保這些數(shù)據(jù)的準確、盡快對疫情走勢作出判斷也非常重要?,F(xiàn)在美國的疫情已經(jīng)很嚴重了(記者注:截至發(fā)稿時間,JHU數(shù)據(jù)圖顯示美國確診數(shù)量已是全球第一,超過27萬),我們會根據(jù)我們的數(shù)據(jù)和模型來判斷,美國政府實行的這些social distancing等隔離政策是否有效,疫情拐點會在哪個時刻到來。

訂閱南方周末會員,支持原創(chuàng)優(yōu)質(zhì)內(nèi)容。成為南周會員,尊享七大權(quán)益,在一起,讀懂中國。

南方周末記者 黃思卓

推薦內(nèi)容