天天看點

braker踩坑記錄

1、startAlign.pl的時間與genome.fasta的contig的數量相關,genome.fasta大小為1G,24個cpu的情況下,如果是2000個contigs大約3個小時,後面gmes_petap.pl的時間大約也是3小時。

相同的基因組大小,如果contigs為10000個,時間大約是40個小時。

如果可能,建議過濾掉太短的contig。seq_tool.py len-filter -i genomic.fna -l 1000 -o genome.over1k.fasta

2、RepeatModeler,如果參考同源蛋白隻有序列名,序列内容為空,會在執行過程中停止,并且不會報錯,是以一定要檢查輸入的pep.fasta;

3、genome.fasta中序列名稱最好不要有空格,長度不大于50。

否則會在filterGenesIn_mRNAname.pl這一步出錯。

less genome.over1k.fasta |perl -e 'while(<>){chomp;if(/\>/){@inf=split /\s+/;print "$inf[0]\n"}else{print $_,"\n";}}' >src_genome.fasta

4、 沒有rna資料:

如果隻有genome.fasta和homolog.fasta,那麼可以用

braker.pl --species=test --genome=genome.fasta --prot_seq=homolog.fasta --prg=gth --trainFromGth

不提供rna資料來做,1個G的基因組,10M的homolog.fasta,對基因組采用6%随機采樣,跑了一下測試;

optimizing AUGUSTUS parameters這一步會花費4個小時,optimize_augustus.pl

Running AUGUSTUS with hints這一步會花費3個小時,augustus

按照這樣的時間估算,沒有rna資料,1個G的基因組,10M的蛋白質,不考慮contigs組裝的品質,大約需要116個小時跑完braker。

# Mon Mar 30 07:12:49 2020: optimizing AUGUSTUS parameters
perl /path/.conda/envs/lq/bin/optimize_augustus.pl --rounds=5 --species=pacri --kfold=8 --AUGUSTUS_CONFIG_PATH=/path/.conda/envs/lq/config/ --onlytrain=/path/pre/pacri/braker/pacri/train.gb.train.train /path/pre/pacri/braker/pacri/train.gb.train.test 1>/path/pre/pacri/braker/pacri/optimize_augustus.stdout 2>/path/pre/pacri/braker/pacri/errors/optimize_augustus.stderr

# Sun Apr  5 01:23:01 2020:  parameter optimization finished.
           

實際的情況是,optimizing AUGUSTUS parameters這一步就花了138個小時,中間都有些想放棄了。

時間這麼長可能的原因是基因組品質不太好,大于1000的contigs有3萬多個,沒過濾之前contigs有17萬條。

拭目以待下一步要多久。

# Sun Apr  5 01:37:11 2020: Running AUGUSTUS with hints for file /path/pre/pacri/braker/pacri/genome.fa
/path/bin/augustus --species=pacri --AUGUSTUS_CONFIG_PATH=/path/config/ --extrinsicCfgFile=/opt/biosoft/BRAKER-2.1.2/scripts/cfg/gth.cfg --alternatives-from-evidence=true --hintsfile=/path/pre/pacri/braker/pacri/hintsfile.gff --UTR=off --exonnames=on --codingseq=on --allow_hinted_splicesites=gcag,atac /path/pre/pacri/braker/pacri/genome.fa 1>/path/pre/pacri/braker/pacri/augustus.hints.gff 2>/path/pre/pacri/braker/pacri/errors/augustus.hints.stderr

# Tue Apr  7 10:20:58 2020: Making a gtf file from /path/pre/pacri/braker/pacri/augustus.hints.gff
cat /path/pre/pacri/braker/pacri/augustus.hints.gff | perl -ne 'if(m/\tAUGUSTUS\t/) {print $_;}' | perl /path/bin/gtf2gff.pl --printExon --out=/path/pre/pacri/braker/pacri/augustus.hints.tmp.gtf 2>/path/pre/pacri/braker/pacri/errors/gtf2gff.augustus.hints.gtf.stderr

# Tue Apr  7 10:21:10 2020: AUGUSTUS prediction complete
           

需要56個小時。

# Tue Apr  7 10:21:10 2020: Making a fasta file with protein sequences of /path/pre/pacri/braker/pacri/augustus.hints.gtf
           

到生成augustus.hints.gtf就算完成了。

平行還有個contigs是3906條的在跑,看看時間的對比。