亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

當(dāng)前位置: 首頁 > 科技新聞 >

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)

時間:2020-04-11 16:12來源:網(wǎng)絡(luò)整理 瀏覽:
許多人對病毒沒有多想的是,就像地球上為生存而掙扎的其他生物一樣,它們會進(jìn)化或變異。只要看一看人類病毒來源的蝙蝠病毒RNA核苷酸序列片段即可:

許多人對病毒沒有多想的是,就像地球上為生存而掙扎的其他生物一樣,它們會進(jìn)化或變異。

只要看一看人類病毒來源的蝙蝠病毒RNA核苷酸序列片段即可:

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT

以及人類COVID-19的RNA核苷酸序列的一小段:

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT

顯然,冠狀病毒已改變其內(nèi)部結(jié)構(gòu)以適應(yīng)其宿主的新物種(更精確地說,冠狀病毒內(nèi)部結(jié)構(gòu)的約20%發(fā)生了突變),但仍保持了足夠的能力,以至于它仍然正確起源物種。

實際上,研究表明COVID-19已經(jīng)以提高其存活率的方式反復(fù)變異。在抗擊冠狀病毒的斗爭中,我們不僅需要找到如何消滅病毒的方法,還需要找到病毒如何突變以及如何解決這些突變的方法。

在本文中,我將:

提供什么是RNA核苷酸序列的表面解釋;使用K-Means創(chuàng)建基因組信息集群;使用PCA可視化集群。

并從我們執(zhí)行的每個分析程序中獲取見解。

什么是基因組序列?

如果你對RNA核苷酸序列有基本的了解,請?zhí)^此部分。

通常與“解碼”相比,基因組測序是分析從樣品中提取的脫氧核糖核酸(DNA)的過程。在每個正常細(xì)胞內(nèi)有23對染色體,這些染色體容納著DNA。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

DNA的卷曲雙螺旋結(jié)構(gòu)使其可以展開為梯形。該梯子由成對的化學(xué)字母(稱為堿基)制成。DNA中只有四種:腺嘌呤,胸腺嘧啶,鳥嘌呤和胞嘧啶。腺嘌呤僅與胸腺嘧啶結(jié)合,而鳥嘌呤僅與胞嘧啶結(jié)合。這些基數(shù)分別用A,T,G和C表示。

這些基礎(chǔ)構(gòu)成了指示生物體如何構(gòu)建蛋白質(zhì)的各種代碼-實際上是DNA控制病毒行為的DNA。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

DNA從RNA轉(zhuǎn)化為蛋白質(zhì)的過程

使用包括測序儀器和專用標(biāo)簽的專用設(shè)備,可以揭示特定片段的DNA序列。從中獲得的信息將進(jìn)行進(jìn)一步的分析和比較,以使研究人員能夠識別基因的變化,與疾病和表型的關(guān)聯(lián)以及識別潛在的藥物靶標(biāo)。

基因組序列是一串長長的“ A”,“ T”,“ G”和“ C”,代表生物體對其環(huán)境的反應(yīng)。通過改變DNA可以產(chǎn)生對生物的突變。查看基因組序列是分析冠狀病毒突變的有力方法。

了解數(shù)據(jù)

這些數(shù)據(jù),可以在Kaggle找到這里,看起來是這樣的:

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

每行代表蝙蝠病毒的一種突變。首先,只需花一分鐘就可以欣賞大自然的不可思議性-在數(shù)周之內(nèi),冠狀病毒已經(jīng)產(chǎn)生了262種自身突變,以提高存活率。

一些重要的列:

query acc.ver 代表原始病毒標(biāo)識符。subject acc.ver 是病毒突變的標(biāo)識符。% identity 代表序列與原始病毒相同的百分比。alignment length 表示序列中多少個相同或?qū)R。mismatches 代表突變和原始變異的項目數(shù)。bit score表示衡量對齊程度的度量;分?jǐn)?shù)越高,對齊越好。

每個列的一些統(tǒng)計度量(可以使用方便地在Python中調(diào)用data.describe()):

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

查看% identity專欄,有趣的是,突變與原始病毒的最小比對百分比-大約為77.6%。的7%的較大標(biāo)準(zhǔn)偏差% identity表示存在廣泛的突變。這有一個巨大的標(biāo)準(zhǔn)偏差支持bit score-標(biāo)準(zhǔn)偏差大于平均值!

可視化數(shù)據(jù)的一種好方法是通過關(guān)聯(lián)熱圖。每個單元代表一個特征與另一個特征之間的關(guān)聯(lián)程度。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

許多數(shù)據(jù)彼此高度相關(guān)。這是有道理的,因為大多數(shù)措施都是彼此不同的。要注意if alignment length與高度相關(guān)的一件事bit score。

使用K均值創(chuàng)建突變聚類

K-Means是用于聚類的算法,這是機器學(xué)習(xí)中在特征空間中查找數(shù)據(jù)點組的一種方法。我們的K均值的目標(biāo)是找到突變簇,因此我們可以得出有關(guān)突變性質(zhì)以及如何解決突變的見解。

但是,我們?nèi)匀恍枰x擇簇數(shù)k。盡管這就像在二維中繪制點一樣簡單,但在更高的維度中則無法實現(xiàn)(如果我們想保留最多的信息)。像肘法這樣選擇k的方法是主觀且不準(zhǔn)確的,因此,我們將使用輪廓法。

輪廓法是對k個聚類給出的聚類對數(shù)據(jù)適應(yīng)程度的評分。sklearnPython中的庫使實現(xiàn)K-Means和silouhette方法非常簡單。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

似乎5個集群對數(shù)據(jù)來說是最好的?,F(xiàn)在,我們可以確定簇中心。這些是每個簇圍繞的點,代表了(在本例中)5種主要突變類型的數(shù)值評估。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

注意:已對功能進(jìn)行了標(biāo)準(zhǔn)化,以使它們?nèi)烤哂邢嗤谋壤?。否則,列將不可比較

此熱圖按列表示每個群集的屬性。因為這些點是按比例縮放的,所以實際的注釋值在數(shù)量上并不意味著什么。但是,可以比較每列中的縮放值。你可以從視覺上感覺到每一個變異簇的相對屬性是。如果科學(xué)家要開發(fā)一種疫苗,它應(yīng)該解決這些主要的病毒群。

接下來,我們將使用PCA可視化集群。

用于集群可視化的PCA

PCA是一種降維方法。它選擇多維空間中的正交向量來表示軸,這樣就保留了大部分信息(方差)。

使用流行的Python庫sklearn,可以用兩行代碼實現(xiàn)PCA。首先,我們可以檢查解釋的方差比。這是從原始數(shù)據(jù)集中保留的統(tǒng)計信息的百分比。在這種情況下,解釋的方差比是0.9838548580740327,這是天文高度!我們可以確信,我們從主成分分析中得到的任何分析都將是真實的數(shù)據(jù)。

每個新特征(主成分)都是幾個其他列的線性組合。我們可以用熱圖直觀地看到一個列對兩個主要組件之一有多重要。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

重要的是要理解在第一個組件中具有高值意味著什么——在這種情況下,其特征是具有更高的對齊長度(更接近原始病毒),而組件2的特征主要是具有更短的對齊長度(更遠(yuǎn)離原始值突變)。這也反映在比特分?jǐn)?shù)的較大差異上。

新冠病毒下一步將如何突變?機器學(xué)習(xí)從生物學(xué)的角度計算出了結(jié)果

很明顯病毒突變有5條主線,我們可以了解到更多。

四個病毒突變在第一主成分的左側(cè),一個在右側(cè)。第一主分量的簽名是高對齊長度,這意味著第一主成分的較高值意味著較高的對齊長度(更接近原始病毒)。因此,組分1的較低值與原始病毒的遺傳距離較遠(yuǎn),大多數(shù)病毒簇與原始病毒有很大不同。因此,試圖制造疫苗的科學(xué)家應(yīng)該意識到這種病毒變異很大。

結(jié)論

利用K-Means和PCA,能夠識別冠狀病毒的五個主要突變簇。研制冠狀病毒疫苗的科學(xué)家可以利用這些簇中心來獲得關(guān)于每個簇特征的知識。通過主成分分析,我們可以在兩個維度上看到這些簇,并且發(fā)現(xiàn)冠狀病毒具有非常高的突變率,這可能是它如此致命的原因。

--END--

翻譯:未艾信息(www.weainfo.net)

查看更多最新資訊,歡迎大家點擊閱讀原文登錄我們的AI社區(qū)。

以及關(guān)注我們的公眾號:為AI吶喊(weainahan)

推薦內(nèi)容