1、startAlign.pl的時間與genome.fasta的contig的數量相關,genome.fasta大小為1G,24個cpu的情況下,如果是2000個contigs大約3個小時,後面gmes_petap.pl的時間大約也是3小時。
相同的基因組大小,如果contigs為10000個,時間大約是40個小時。
如果可能,建議過濾掉太短的contig。seq_tool.py len-filter -i genomic.fna -l 1000 -o genome.over1k.fasta
2、RepeatModeler,如果參考同源蛋白隻有序列名,序列内容為空,會在執行過程中停止,并且不會報錯,是以一定要檢查輸入的pep.fasta;
3、genome.fasta中序列名稱最好不要有空格,長度不大于50。
否則會在filterGenesIn_mRNAname.pl這一步出錯。
less genome.over1k.fasta |perl -e 'while(<>){chomp;if(/\>/){@inf=split /\s+/;print "$inf[0]\n"}else{print $_,"\n";}}' >src_genome.fasta
4、 沒有rna資料:
如果隻有genome.fasta和homolog.fasta,那麼可以用
braker.pl --species=test --genome=genome.fasta --prot_seq=homolog.fasta --prg=gth --trainFromGth
不提供rna資料來做,1個G的基因組,10M的homolog.fasta,對基因組采用6%随機采樣,跑了一下測試;
optimizing AUGUSTUS parameters這一步會花費4個小時,optimize_augustus.pl
Running AUGUSTUS with hints這一步會花費3個小時,augustus
按照這樣的時間估算,沒有rna資料,1個G的基因組,10M的蛋白質,不考慮contigs組裝的品質,大約需要116個小時跑完braker。
# Mon Mar 30 07:12:49 2020: optimizing AUGUSTUS parameters
perl /path/.conda/envs/lq/bin/optimize_augustus.pl --rounds=5 --species=pacri --kfold=8 --AUGUSTUS_CONFIG_PATH=/path/.conda/envs/lq/config/ --onlytrain=/path/pre/pacri/braker/pacri/train.gb.train.train /path/pre/pacri/braker/pacri/train.gb.train.test 1>/path/pre/pacri/braker/pacri/optimize_augustus.stdout 2>/path/pre/pacri/braker/pacri/errors/optimize_augustus.stderr
# Sun Apr 5 01:23:01 2020: parameter optimization finished.
實際的情況是,optimizing AUGUSTUS parameters這一步就花了138個小時,中間都有些想放棄了。
時間這麼長可能的原因是基因組品質不太好,大于1000的contigs有3萬多個,沒過濾之前contigs有17萬條。
拭目以待下一步要多久。
# Sun Apr 5 01:37:11 2020: Running AUGUSTUS with hints for file /path/pre/pacri/braker/pacri/genome.fa
/path/bin/augustus --species=pacri --AUGUSTUS_CONFIG_PATH=/path/config/ --extrinsicCfgFile=/opt/biosoft/BRAKER-2.1.2/scripts/cfg/gth.cfg --alternatives-from-evidence=true --hintsfile=/path/pre/pacri/braker/pacri/hintsfile.gff --UTR=off --exonnames=on --codingseq=on --allow_hinted_splicesites=gcag,atac /path/pre/pacri/braker/pacri/genome.fa 1>/path/pre/pacri/braker/pacri/augustus.hints.gff 2>/path/pre/pacri/braker/pacri/errors/augustus.hints.stderr
# Tue Apr 7 10:20:58 2020: Making a gtf file from /path/pre/pacri/braker/pacri/augustus.hints.gff
cat /path/pre/pacri/braker/pacri/augustus.hints.gff | perl -ne 'if(m/\tAUGUSTUS\t/) {print $_;}' | perl /path/bin/gtf2gff.pl --printExon --out=/path/pre/pacri/braker/pacri/augustus.hints.tmp.gtf 2>/path/pre/pacri/braker/pacri/errors/gtf2gff.augustus.hints.gtf.stderr
# Tue Apr 7 10:21:10 2020: AUGUSTUS prediction complete
需要56個小時。
# Tue Apr 7 10:21:10 2020: Making a fasta file with protein sequences of /path/pre/pacri/braker/pacri/augustus.hints.gtf
到生成augustus.hints.gtf就算完成了。
平行還有個contigs是3906條的在跑,看看時間的對比。