Bionumerics的Sars-CoV-2(COVID-19)插件
8.2 導出accession 號至BLAST Entrez
1. 引言
手冊中主要介紹了對SARS-CoV-2基因組序列的處理和分析,序列可以是從公共數據庫下載或者是本地生成的數據。每個單獨基因組序列被分成一系列子序列(從序列中提取多個部分序列),每一個序列會根據參考基因組進行SNP的分析。所有的SNP以開放的(動態)字符集存儲,這些字符集能夠在現有的最高分辨率下進行簡單的對比和菌株分型。
SarsCoV2插件是免費提供的。如果要安裝該插件,Bionumerics軟件的最低配置為“特征數據模塊”、“序列數據模塊”、“樹狀網絡分析模塊”和“基因組分析工具模塊”。
確保Bionumerics軟件已是最新版本(https://www.applied-maths.com/download/software),安裝手冊可從https://www.applied-maths.com/download/manuals下載。
雙擊電腦上Bionumerics軟件的程序圖標進入到軟件的啟動窗口(圖2.1)。
圖2.1 Bionumerics軟件啟動窗口
通過點擊按鈕創建新的數據庫,點擊
按鈕或者雙擊數據庫列表中的名稱可以打開已創建的數據庫。
2.1點擊Bionumerics軟件啟動窗口中的圖標進入新數據庫的向導。
2.2為數據庫命名(例如My database),然后點擊<Next>。
彈出的新對話框會提示數據庫類型。
2.3保持默認選項“Create new”然后點擊<Next>。
彈出的新對話框會提示數據庫引擎。
2.4保持默認選項(圖2.2)然后點擊<Finish>完成新數據庫的設置。
圖2.2 選擇數據庫引擎
彈出插件對話框,允許您安裝其他功能。
2.5點擊<Proceed>進入數據庫主界面。
在安裝SarsCoV2插件(圖2.4)前,請確定您已安裝Sequence extraction插件:
3.1點擊數據庫主界面左上角 File > Install / remove plugins.. 調用插件對話框。
3.2在插件對話框中點擊 Utilities 子菜單,從列表中選擇Sequence extraction并點擊<Activate>按鈕。
3.3確認安裝插件(圖2.3)。
插件成功安裝后,對話框中會標記為綠色對勾(圖2.4)。
3.4關閉插件對話框。
圖2.3 確認安裝插件
圖2.4 安裝插件
4.1點擊數據庫主界面左上角 File > Install / remove plugins... 調用插件對話框。
4.2在插件對話框中點擊 Database Functionality 子菜單,然后點擊<Add / Update...>按鈕。
4.3點擊<Browse>按鈕,選擇提供的SarsCoV2Client.BPL文件(圖2.5)。
4.4點擊<OK>安裝插件。
4.5確認安裝插件(圖2.6)
彈出Create database components對話框顯示了所有插件需要的數據庫組件:entry fields,character type實驗,sequence type實驗(圖2.7)。如果有需要的話,這些名稱都可以更改。
4.6點擊<OK>確認創建數據庫組件。
彈出的信息顯示插件已安裝成功(圖2.8)。
4.7點擊<OK>。
插件對話框中SarsCoV2插件被綠色對勾標記(圖2.9)。
圖2.5 瀏覽選擇bpl文件
圖2.6 確認安裝插件
圖2.7 新的數據庫組件
圖2.8 插件安裝完成
4.8關閉插件對話框
4.9關閉數據庫并重新打開來激活SarsCoV2插件的功能
圖2.9 插件安裝完成
數據庫主界面如圖2.10所示。
圖2.10 安裝完SarsCoV2插件后的數據庫主界面
安裝SarsCoV2插件后數據庫會增加SARSCoV2菜單項(圖2.11)和以下組件:
l 名為genome的序列類型實驗,存儲拼接后的全基因組。
l 26個序列類型,存儲所提取的子序列。
l 名為SNP的特征類型實驗,存儲SNP信息。
l 33個信息字段,由標準GenBank元數據字段和NCBI的SARS-CoV-2數據中心列組成。
圖2.11 菜單項
數據庫有一條key為Wuhan-Hu-1的條目。NCBI上SARS-CoV-2的參考序列NC_045512被存儲在這一條目的genome序列類型實驗中。
4.10點擊數據庫主界面實驗展示面板中對應genome序列類型實驗的綠點(默認配置下2號實驗),打開序列編輯窗口。
窗口上部分是序列,下部分是序列的圖形化展示(圖2.12)。Annotation面板顯示了NCBI的特征區域,Header面板顯示了header信息。
圖2.12 序列編輯窗口
4.11關閉序列編輯窗口
SARS-CoV參考序列NC_045512的子序列分別存儲在對應的序列類型實驗中。序列實驗名稱為ORF(Open Reading Frame開放閱讀框架)后接數字以及可選的nsp(Nuclear Shuttle Protein核穿梭蛋白)組成。例如ORF01_nsp01。這些子序列作為樣品序列篩選時BLAST的參考序列(圖4.1)。
0.1選擇File > Import... 調用數據導入對話框。
Bionumerics軟件中所有導入(拼接后)基因組序列的途徑都是從Sequence data菜單中。
0.2通過點擊Sequence type data旁的“+”標志顯示所有序列導入途徑(圖3.1)。
圖3.1 數據導入選項
例如,我們會從EMBL/NCBI抓取序列。更多關于其他序列導入方法的詳細信息可見網站中的序列手冊。
0.3數據導入對話框選擇<Manage import templates>。
0.4選擇<Import from file>,瀏覽找到SarsCoV2 template.xml文件,和插件文件放在一起,然后點擊<OK>(圖3.2)。
圖3.2 XML模板
導入模板將EMBL/NCBI標簽和SarsCoV2插件創建的條目字段關聯。
0.5點擊<OK>將導入模板添加到數據庫中。
圖3.3 導入xml模板
0.6在數據導入對話框中,選擇Sequence type data下的 Download sequences from internet并點擊<Import>。
0.7在Accession codes輸入字段中輸入accession號(例如MT385458,MT385436,MT385431),這些號由“,”分隔。
0.8指定“,”作為Separation character,并選擇可用的下載站點比如EBI。
0.9勾選 Preview sequences并點擊<Next>。
該導入方法會抓取所選數據庫的序列并在下一步驟中顯示詳細信息(圖3.4)。
0.10點擊<Next>。
導入向導的下一步列出了數據庫中導入序列信息的模板。前面步驟導入的預先設置的模板則被列出(圖3.6)。
0.11確保選擇了My EMBL/NCBI template,并點擊<Preview>按鈕來檢查映射(圖3.5)。
0.12關閉預覽窗口。
0.13確保選擇了My EMBL/NCBI template和genome實驗,然后點擊<Next>。
0.14點擊<Finish>。
條目則被創建并自動是選擇狀態。條目字段被更新并且序列存儲在genome實驗中(圖3.7)。
圖3.4 抓取的信息
圖3.5 預覽
圖3.6 導入模板
圖3.7 導入基因組序列后的數據庫主界面
導入并存儲在genome實驗中的序列現在可以通過SarsCoV2插件進行分析:
0.1數據庫的Database entries面板中所選的條目,可以通過Ctrl鍵選擇。同樣可以勾選條目旁邊的復選框進行選擇。
0.2選擇菜單欄中SARSCoV2 > Process Entries或者圖標開始處理。
包括以下過程:
1. 從genome實驗中存儲的基因組序列提取26個子序列,并將子序列存儲到對應的實驗類型中(圖4.1)。
2. 通過將一些常見的錯義SNP翻譯為氨基酸來確定Haplotype(圖4.2)。
3. 從帶注釋的源序列中提取Locality。
SarsCoV2插件通過BLAST方法從genome實驗中的序列提取子序列。Wuhan-Hu-1條目的子序列作為BLAST搜索的參考序列。
所選條目的基因組序列找到的子序列被存儲在對應的序列類型中。序列實驗名稱為ORF(Open Reading Frame開放閱讀框架)后接數字以及可選的nsp(Nuclear Shuttle Protein核穿梭蛋白)組成。例如ORF01_nsp01。
經過BLAST篩選后,彈出的信息框會詢問是否顯示BLAST結果的報告(圖4.1)。
1.1點擊<Yes>打開報告窗口。
報告窗口包含了每個條目的報告(圖4.2)。Entries面板中是所有條目的分組。
1.2選擇Entries面板中其中一個條目。
所選條目的結果展示在Report面板中,包括處理數據的日期和條目的名稱。
圖4.1 確認對話框
圖4.2 報告窗口
對于每個序列類型(Locus列),都表明了是否找到了BLAST hit、所篩選基因序列的起始位置、序列準確度(Identity (%))、序列重疊(Length (%))。
此外,報告了檢索到的子序列的長度(Ref length)、參考序列錯配的數目(Mismatches)、gaps的數目(Open gaps)和長度修正(如果應用的話)。
1.3關閉報告窗口。
1.4點擊其中一個條目的ORF序列實驗對應的綠點。
這樣會在序列編輯窗口中顯示所提取的序列(圖4.3為例)。
1.5關閉序列編輯窗口。
圖4.3 ORF01 nsp01序列
在第二步的處理過程,通過將一些常見的錯義SNP翻譯為氨基酸來確定Haplotype。氨基酸按時間順序分類,最早的在左邊,最近的在右邊。Haplotype條目字段顯示了Haplotype的結果(圖4.4)。
圖4.4 確定Haplotype
通過菜單欄的SARSCoV2 > Get haplotypes也能夠確定Haplotypes。
最后一步處理過程,元數據通過序列注釋被解析(如果有的話),并存儲在Isolate和Locality條目字段中。通過菜單欄中SARSCoV2 > Get qualifiers也能獲取同樣的信息。
通過Bionumerics中的calculated field選項,Locality條目字段(China:Wuhan 或者 USA:CA)可以解析成僅包含國家信息(如China和USA)。相關操作可以在參考手冊中找到。
圖4.5 從序列注釋中提取元數據
5. 計算SNP
提取完子序列后,這些子序列可以進行SNP篩選:
0.1選擇數據庫主界面中Database entries面板中的條目
0.2選擇SARSCoV2 > Update SNPs或者點擊按鈕
子序列則會通過ionumerics內置的SNP分析工具進行SNP篩選(也可以通過菜單欄中的Analysis > Sequence types > Start SNP analysis)。
SNP的結果會基于Relaxed SNP filtering模板進行過濾,過濾后的SNP會存儲在SNP特征類型實驗中。
Relaxed SNP filtering模板下,非ACGT的堿基也會包含在分析中。然而,非ACGT的堿基實際上不會存儲在SNP特征類型實驗中,而是用缺失值代替。
經過SNP篩選后,彈出的信息對話框會顯示檢測的SNP的數目(圖5.1)。如果檢測到新的SNP位置,同樣會顯示出并且這些新的SNP位置會自動添加到SNP字符集中。
圖5.1 SNP信息
0.3點擊<OK>關閉確認窗口。
0.4點擊其中一個條目在實驗數據展示面板中對應SNP特征實驗的綠點,打開特征實驗卡。
特征實驗卡列出來樣品中所有檢測到的SNP。Mapping列顯示了堿基(圖5.2)。
0.5點擊實驗卡左上角關閉實驗卡。
圖5.2 SNP特征信息卡
6. SNP數據的聚類
0.1在數據庫主界面的Database entries面板中選擇想要聚類的條目。
0.2選擇SARSCoV2 > Cluster SNPs或者點擊主界面按鈕對選擇條目進行聚類。
在第一步中,所選的條目都要經過數據處理步驟的提取序列才能進行篩選。
對于子序列有缺失、SNP特征信息中不完整的條目會從聚類比較中排除。警告信息的對話框會提示用戶(圖6.1)。
圖6.1 從分析中排除的條目
比較窗口出現,如圖6.2:
l 基于SNP實驗類型計算相似矩陣,使用Categorical (differences)相似系數,顯示在Similarities面板中。
l 基于Complete linkage算法得到樹狀圖,顯示在Dendrogram面板中。
l 在Experiment data面板中,只顯示SNP字符集中的多態SNP。
0.3計算樹狀圖的參數設置可以通過Clustering > Show information調用。
0.4想要顯示節點上SNP差異的數目,可以選擇Clustering > Dendrogram display settings...,并勾選Show node information。
在比較窗口中,可以根據數據庫字段進行分組(比如基于地理位置或者haplotype),或者其他字段。
0.5想要基于數據庫字段創建分組,只需右鍵點擊Information fields面板中的字段名稱,并選擇Create groups from database field。想要基于選擇的條目自定義分組,只需使用比較窗口中Groups菜單欄中的命令。
圖6.2 比較窗口
在Advanced cluster analysis窗口中可以計算最小生成樹??梢栽诒容^窗口中以下操作實現:
0.6確保在比較窗口中的Experiments面板選擇了SNP的實驗。
0.7 選擇Clustering > Calculate > Advanced cluster analysis...或點擊圖標 , 并選擇Advanced cluster analysis執行創建網絡向導。
0.8選擇MST for categorical data,然后點擊<Next>。
最小生成樹則被計算并顯示在Advanced cluster analysis窗口中(圖6.3)。
0.9關閉Advanced cluster analysis窗口。
0.10通過File > Save as...保存該次對比,并通過File > Exit關閉對比。
圖6.3 定義分組后的最小生成樹
7. 翻譯SNPs
通過數據庫主界面的SARSCoV2 > Translate SNPs,存儲在SNP實驗的SNP將進行翻譯。
0.1選擇SNP實驗有數據的條目。
0.2選擇SARSCoV2 > Translate SNPs或者點擊按鈕。
第一次進行上述操作時,SNP TRANSL實驗將被創建并添加到Experiment types面板中。
所選條目的SNP實驗中的SNP進行翻譯,并且氨基酸信息存儲到SNP TRANSL實驗中。
0.3點擊對應SNP TRANSL實驗數據的綠點打開特征實驗卡。
氨基酸信息在Mapping列中顯示(圖7.1)。
圖7.1 特征信息卡
0.4 點擊特征信息卡左上角關閉。
該翻譯工具假設每個序列的框架都從位置1開始。
通過SarsCoV2插件,PCR產物能夠基于WHO標準的引物序列提?。?/span>https://www.who.int/emergencies/diseases/novel-coronavirus-2019/technical-guidance/laboratory-guidance)。
1.1在數據庫主界面選擇想要出PCR產物的條目。
1.2選擇SARSCoV2 > Exctract PCR products。
第一次上述操作會創建新的實驗類型。
提取的PCR產物存儲在對應的PCR序列實驗中(圖8.1)。
圖8.1 存儲PCR產物的序列類型
在比較窗口中,可以進一步對指定PCR產物進行分析:
1.3選擇想要分析的條目。
1.4使主界面右下方的Comparisons面板處于高亮狀態,然后選擇主界面菜單欄的Edit > Create new object...對所選條目創建對比。
1.5點擊Experiments面板中序列類型實驗旁邊的圖標(圖8.2)。
可以使用Bionumerics中的序列分析工具進一步分析序列。
圖8.2 PCR產物
8.2 導出accession 號至BLAST Entrez
Bionumerics軟件中的數據導入對話框已有標準的導入工具,從NCBI下載GenBank序列,但是不適用于新序列的導入。
要批量檢索GenBank格式的序列,請按照以下步驟操作:
2.1選擇要導出accession號的條目。
2.2選擇SARSCoV2 > Export accessions to Batch Entrez。
2.3瀏覽選擇一個已有的文件夾然后點擊<OK>(圖8.3)。
圖8.3 瀏覽選擇文件夾
該命令將accession號(存儲在AC – ACCESSION字段)導出至所選文件夾中以空格分隔的文本文件,然后瀏覽器打開NCBI BLAST Entrez網站(圖8.4),從網站中可以選擇accessions的文件(通過<Browse>按鈕)來檢索GenBank格式的序列。
圖8.4 Batch Entrez
3.1數據主界面選擇想要包含在SNP篩選中的條目。
3.2選擇SARSCoV2 > Define common SNPs。
3.3對話框中指定最小頻率(圖8.5)并點擊<OK>。
圖8.5 指定閾值
基于提供的頻率閾值,被鑒定的相同SNP顯示出來(圖8.6)。
3.4點擊<OK>關閉對話框。
相同SNP保存至SNP實驗中的Common視圖中:
3.5雙擊主界面Experiment types面板中SNP實驗打開特征類型窗口(圖8.7)。
3.6點擊工具欄中的下拉框,從列表中選擇Common特征視圖
圖8.6 結果
根據命令SARSCoV2 > Define common SNPs,相同SNP被鑒定并顯示出來。
3.7關閉特征類型窗口。
圖8.7 特征視圖