הפעל gffread במצב רב תבריג

aechchiki

2018-03-14 19:21:09 UTC

view on stackexchange narkive permalink

האם יש אפשרות להריץ gffread במצב רב-אשכולות? נראה שהתשובה היא 'לא' מתוך המדריך (או gffread -h ), מכיוון שלא מוזכרת אפשרות מרובת-שרשור.

I ' m בעיקר משתמש בכלי זה כדי לחלץ רצפי תמלול (FASTA) מקבצי ההערות (GTF). במצב של חוט יחיד, זמן ריצה מקובל ברוב המקרים, אך ברצוני להאיץ במקצת במקרים מסוימים (במיוחד עבור גנומים גדולים).

שים לב שכבר ניסיתי, כאמור במדריך, כדי לאנדקס את הגנום תחילה (אשר, שוב, מצמצם את זמן הריצה ברוב המקרים אך לא בכל המקרים):

שים לב שאחזור רצפי התמלול בדרך זו הולך להיות הרבה יותר מהיר אם fasta קובץ אינדקס (genome.fa.fai בדוגמה זו) נמצא באותה ספרייה עם קובץ ה- fasta הגנומי.

ניתן ליצור קובץ אינדקס כזה באמצעות כלי השירות samtools לפני הפעלת gffread, כך: samtools faidx genome.fa

ואז בריצות הבאות באמצעות אפשרות ggread -g תמצא את אינדקס ה- FASTA הזה ותשתמש בו כדי להאיץ את חילוץ רצפי התמלול.

אני גם פתוח לחלופות שונות מ- gffread להמיר GTF -> FASTA.

השתמשתי ב- gffread כמה פעמים. הרושם שלי הוא שהוא מהיר. כפי שניסיתי זה עתה, להערות אנושיות של Ensembl, זה מקבל את כל התמלילים תוך 29 שניות. זה צריך להיות מהיר יותר מפעולות רבות אחרות בגנום האנושי. באיזו תדירות אתה רוצה להריץ gffread?

תודה. כן זה בדרך כלל די מהיר. למעשה התייחסתי לשאלה זו מכיוון שלקח לי יותר מ 8 דקות להוציא את התמלילים מגודל הגנום המשוער של 1.4Gb, אך לא הצלחתי לשחזר את זמן הריצה האיטי בשרת אחר (שם לקח לי בערך 110 שניות). מְשׁוּנֶה.

tmp = $ (mktemp -d); awk -vtmp = "$ tmp" '($ 1! ~ / ^ # /) {הדפס > tmp "/" $ 1 ".gff"}' gencode.v27.annotation.gtf && עבור f ב "$ tmp" / *; do gffread-0.9.12.Linux_x86_64 / gffread -w $ f.fa -g hg38.fa "$ f" & done wait cat "$ tmp" / * fa > all.fa

#! / Bin / shgtf = "$ 1" genome = "$ 2" tmp = $ (mktemp -d); awk -vtmp = "$ tmp" '($ 1! ~ / ^ # /) {הדפס > tmp "/" $ 1 ".gff"}' "$ gtf" && עבור f ב "$ tmp" / *; לעשות gffread -w "$ f" .fa -g "$ genome" "$ f" & donewaitcat "$ tmp" / * fa rm -rf "$ tmp"

$ time gffread -w out.fa -g hg38 .fa gencode.v27.annotation.gtfreal 1m52.072suser 1m3.160ssys 0m47.257s $ זמן ./pgffread.sh gencode.v27.annotation.gtf hg38.fa > all.fareal 0m17.533 משתמש 1m5.228ssys 0m43.039s קוד>