天天看點

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

本系列課程學習的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034

很容易在文章裡面找到資料位址GSE81916 這樣就可以下載下傳sra檔案

資料下載下傳部分

第一步:在PubMeb上查找文獻

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

image.png

第二步: 根據文獻的method部分找到RNA-Seq是如何存放的

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

第三步: 在GEO上查找GSE81916

GEO站點:

https://www.ncbi.nlm.nih.gov/geo/
轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

找到了NCBI的SRA工具下載下傳所需要的SRR編号。

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料
轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

GEO網址:

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916

分為兩個部分:

FTP網址

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747

可以分為以下幾個部分

  • 所有SRA資料的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
  • reads表示存放reads資料,在FTP可以看到另一個選項是analysis,表示分析結果
  • ByStudy表示根據Study進行分類,其他還可以根據實驗

    ByExp

    ,根據Run,

    ByRun

    .
  • sra/SRP/SRP075/SRP075747: 後面部分都是為了便于檢索。

第四步:通過循環,分别用prefetch下載下傳資料

for i in `seq 48 62`;
do
    prefetch SRR35899${i}
done
           

知識點:如何用循環批量下載下傳資料

注: 資料很大,需要下載下傳很久,這段時間去看文章所用的分析方法。

文章所用方法:

内容主要在Bioinformatic analyses部分

比對:

  • 比對軟體:TopHat (v2.0.13)
  • 參考基因組:human reference genome (GRCh37/hg19)
  • GTF檔案: GTF version GRCh37.70
  • 隻保留MQ >30的map結果
  • Picard-tools (v1.126): 計算平均插入大小(mean insert sizes)和标準差

read count: 軟體:HTSeq v0.6.0

差異表達分析: DESeq (v3.0)

差異外顯子使用分析: DEXSeq (v3.1)

GO富集分析:DAVID (

http://david.ncifcrf.gov/

).

實驗設計:

樣本9-15為mRNA-Seq測序結果,用于分析人類293個細胞(9-11)和小鼠ES細胞(12-15)d的AKAP95敲出影響。

文章到底用RNA-Seq做了那些事情

為了評估AKAP95對AS的全局影響,他們删除了人類293 cell和小鼠ES細胞,通過RNA-Seq和DEXseq 分析找到細胞mRNA的不同外顯子使用。由于DEXseq考慮到了生物學變異,是以對假陽性(False discovery)有可信的控制。在 293 cell 和 ES cell中,AKAPP95 KD都導緻更多地外顯子使用減少,意味着APAP95通過促進外顯子融合調節全局地可變剪切(AS). 他們用PCR-based assay驗證了結果。

文章用了火山圖展示被影響地外顯子,用餅圖可視化多少個外顯子被下調了。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

為了證明外顯子使用(exon usage)降低不是因為基因表達量降低導緻的技術偏差,作者從三個角度進行論證

  1. 工具角度,DEXseq根據基因的總外顯子信号水準标準化每個外顯子信号
  2. 資料分析,AKAP95 KD的細胞中那些外顯子使用被影響的大部分基因,表達量沒有降低,是以和表達量無關,還用圖證明。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料
  1. PCR資料證明
  2. 小鼠的也是如此

确定可變外顯子使用是AKAP95的直接影響, 他們比較了AKAP95實體靶點(基于AKAP95 RIP-Seq)和功能位點(基于mRNA-Seq)。 那些AKAP95結合到内含子的基因和外顯子使用顯著性變化(AKAP95 KD)的基因顯著性重疊。

邏輯就是: 如果A和B有關,那麼有A就有B, 沒有A就沒有B,且這種關系不是偶然的。

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

确定AKAP95靶點參與的生物學通路,他們用了基因本體論(GO)分析了AKAP95的功能位點和實體位點。結果揭示那些AKAP95 KD 的293細胞中那些差異外顯子使用的基因,顯著性的富集在chromatin/transcription regulators and RNA processing factors。那些RIP-Seq找到基因也是如此。

轉錄組入門(2):讀文章拿到測序資料資料下載下傳部分文章所用方法:文章到底用RNA-Seq做了那些事情拓展提高: 寫一個Python腳本下載下傳GEO資料

綜上, AKAP95可能通過直接和間接調節染色質,轉錄和RNA加工調節全局基因表達。

拓展提高: 寫一個Python腳本下載下傳GEO資料

下載下傳資料的過程無非是根據GEO找到FTP的位址,然後用wget或者prefetch下載下傳而已。在我們今後的生涯裡必然會遇到很多次類似的情況,是以寫個腳本吧。

腳本邏輯很簡單:

  1. 根據GEO accession找到FTP位址
  2. 用wget循環下載下傳FTP位址下的資料

考慮到GEO會變,每個人的Python版本也不一樣,我臨時寫的代碼的穩健性不好,是以這裡就不貼代碼了。