שְׁאֵלָה:
הכי פחות נוכחים K-mers בגנום האנושי
719016
2017-11-15 16:22:05 UTC
view on stackexchange narkive permalink

מה הם ה k -מרקים הפחות נוכחים בגנום האנושי בגדלים שונים?

החל מ- k = 4 ועולה בגודל עד k = 10, מה הם ה ק - נראות הכי פחות (או בכלל לא) בגנום האנושי? אני מתעניין רק בגנום האנושי המפנה, ולכן אני מנחה SNPs / אינדלים באוכלוסייה.

אם זה לא מחושב מראש איפשהו, איזה כלי מומלץ להשתמש שמתחיל ב GRCh38 התייחסות כקלט?

אם אתה מעוניין ב- k-mers לפחות נוכחים, אתה עשוי להתעניין גם במושג מינימום מילים שנעדרות (שני הדברים הללו קשורים זה לזה). ישנם מאמרים רבים בנושא זה, ראה למשל: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0029344. ביטוי נוסף לגוגל הוא "הימנעות ממילים".
שְׁלוֹשָׁה תשובות:
Bioathlete
2017-11-15 17:56:29 UTC
view on stackexchange narkive permalink

ניתן להשתמש בתוכנת מדוזות לצורך חישוב פרופילי k-mer עד אורך 31.

מההוראות שבמשתמש מדריך:

הפקודה הבסיסית לספור את כל ה- k-mers היא כדלקמן:

  ספירת מדוזות -m 21 -s 100M -t 10 -C reads.fasta  

כדי לחשב את ההיסטוגרמה של מופעי k-mer, השתמש בפקודת המשנה היסטו (ראה סעיף 3.1):

  מדוזות histo mer_counts.jf 

לשאילתת ספירות k-mer מסוים, השתמש בפקודת המשא השאילתה (ראה סעיף 3.3):

  שאילתת מדוזות mer_counts.jf AACGTTG  קוד> 

כדי להפיק את כל הספירות עבור כל ה- k-mers ב- le, השתמש בפקודת המשנה dump (ראה סעיף 3.2):

  מדוזה dump mer_counts.jf > mer_counts_dumps.fa  
אני מנסה מדוזות עכשיו.
ניסיתי מדוזות, וקיבלתי את רשימת הקמרים. אבל לא הצלחתי להשיג את רשימת הקימרים לספירה = 0.
benn
2017-11-15 18:23:23 UTC
view on stackexchange narkive permalink

אתה יכול גם להשתמש ב- R. אני נותן לך דוגמה של chr1 בלבד ורק kmer = 4.

  ספריית (BSgenome.Hsapiens.UCSC.hg38) ספריית (Biostrings) הגנום <- BSgenome.Hsapiens.UCSC.hg38kmers <- oligonucleotideFrequency (genome $ chr1, 4) kmersm <- as.matrix (kmers) m [order (m),]  
Alex Reynolds
2017-11-16 03:57:51 UTC
view on stackexchange narkive permalink

תופס כרומוזומים עבור hg38:

  $ wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/*.fa.gz $ עבור fn ב- `ls * .fa.gz`; לעשות gunzip $ fn; נעשה  

באמצעות מונה kmer ו- Python, כך תוכלו לחפש קמרים באורך 7 מכרומוזום chrY קוד>:

  #! / usr / bin / env python import sysimport subprocessimport itertoolsk = 7chr = 'chrY'fastaFile ='% s.fa '% (chr) kmerCmd =' counter-counter --fasta --no-rc --k =% d% s '% (k, fastaFile) נסה: output = subprocess.check_output (kmerCmd, shell = True) result = {} עבור שורה ב- output.splitlines (): (כותרת, ספירה) = line.strip (). פיצול ('\ t') כותרת = כותרת [1:] kmers = dict ((key, int (val)) עבור (key, val) ב- [d.split ( ':') fo rd ב- counts.split ('')]) תוצאה [כותרת] = kmersexcept תת-תהליך. CalledProcessError כשגיאה: sys.stderr.write ("% s \ n"% (str (error))) kmers = תוצאה [chr] comp = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'} עבור kmerList ב- itertools.product ('ACGT', חזור על = k): kmerKey = '' .join (kmerList) kmerCompKey = '' .join (הפוך ([comp.get (b, b) עבור b ב- kmerList])) אם kmerKey לא ב- kmers ו- kmerCompKey לא ב- kmers: kmers [kmerKey] = 0 למפתח, val ב- מיון (kmers.iteritems (), key = lambda (key, val) :( val, key)): sys.stdout.write ("% s \ t% s \ n"% (key, val ))  

סקריפט זה ידפיס קובץ טקסט המופרד באמצעות שתי עמודות לפלט רגיל, כאשר העמודה הראשונה היא ה- 7mer והעמודה השנייה היא ספירת ה- 7mer ההפוכה. משלימים מעל chrY (כולל ספירת אפס):

  CGACGCG 20CGTCGCG 20CGCGATA 23TACGCGC 25 ... AAATAAA 33521TTTCTTT 34014GAATGGA 35361AATGGAA 36906TTTTTTTT 103093  em> וכרומוזומים לגנום הייחוס שלך. 


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...