הכי פחות נוכחים K-mers בגנום האנושי

Bioathlete

2017-11-15 17:56:29 UTC

view on stackexchange narkive permalink

ניתן להשתמש בתוכנת מדוזות לצורך חישוב פרופילי k-mer עד אורך 31.

מההוראות שבמשתמש מדריך:

הפקודה הבסיסית לספור את כל ה- k-mers היא כדלקמן:

  ספירת מדוזות -m 21 -s 100M -t 10 -C reads.fasta

כדי לחשב את ההיסטוגרמה של מופעי k-mer, השתמש בפקודת המשנה היסטו (ראה סעיף 3.1):

  מדוזות histo mer_counts.jf

לשאילתת ספירות k-mer מסוים, השתמש בפקודת המשא השאילתה (ראה סעיף 3.3):

  שאילתת מדוזות mer_counts.jf AACGTTG  קוד>

כדי להפיק את כל הספירות עבור כל ה- k-mers ב- le, השתמש בפקודת המשנה dump (ראה סעיף 3.2):

  מדוזה dump mer_counts.jf > mer_counts_dumps.fa

אני מנסה מדוזות עכשיו.

ניסיתי מדוזות, וקיבלתי את רשימת הקמרים. אבל לא הצלחתי להשיג את רשימת הקימרים לספירה = 0.

benn

2017-11-15 18:23:23 UTC

view on stackexchange narkive permalink

אתה יכול גם להשתמש ב- R. אני נותן לך דוגמה של chr1 בלבד ורק kmer = 4.

  ספריית (BSgenome.Hsapiens.UCSC.hg38) ספריית (Biostrings) הגנום <- BSgenome.Hsapiens.UCSC.hg38kmers <- oligonucleotideFrequency (genome $ chr1, 4) kmersm <- as.matrix (kmers) m [order (m),]

Alex Reynolds

2017-11-16 03:57:51 UTC

view on stackexchange narkive permalink

תופס כרומוזומים עבור hg38:

  $ wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/*.fa.gz $ עבור fn ב- `ls * .fa.gz`; לעשות gunzip $ fn; נעשה

באמצעות מונה kmer ו- Python, כך תוכלו לחפש קמרים באורך 7 מכרומוזום chrY קוד>:

  #! / usr / bin / env python import sysimport subprocessimport itertoolsk = 7chr = 'chrY'fastaFile ='% s.fa '% (chr) kmerCmd =' counter-counter --fasta --no-rc --k =% d% s '% (k, fastaFile) נסה: output = subprocess.check_output (kmerCmd, shell = True) result = {} עבור שורה ב- output.splitlines (): (כותרת, ספירה) = line.strip (). פיצול ('\ t') כותרת = כותרת [1:] kmers = dict ((key, int (val)) עבור (key, val) ב- [d.split ( ':') fo rd ב- counts.split ('')]) תוצאה [כותרת] = kmersexcept תת-תהליך. CalledProcessError כשגיאה: sys.stderr.write ("% s \ n"% (str (error))) kmers = תוצאה [chr] comp = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'} עבור kmerList ב- itertools.product ('ACGT', חזור על = k): kmerKey = '' .join (kmerList) kmerCompKey = '' .join (הפוך ([comp.get (b, b) עבור b ב- kmerList])) אם kmerKey לא ב- kmers ו- kmerCompKey לא ב- kmers: kmers [kmerKey] = 0 למפתח, val ב- מיון (kmers.iteritems (), key = lambda (key, val) :( val, key)): sys.stdout.write ("% s \ t% s \ n"% (key, val ))

סקריפט זה ידפיס קובץ טקסט המופרד באמצעות שתי עמודות לפלט רגיל, כאשר העמודה הראשונה היא ה- 7mer והעמודה השנייה היא ספירת ה- 7mer ההפוכה. משלימים מעל chrY (כולל ספירת אפס):

  CGACGCG 20CGTCGCG 20CGCGATA 23TACGCGC 25 ... AAATAAA 33521TTTCTTT 34014GAATGGA 35361AATGGAA 36906TTTTTTTT 103093  em> וכרומוזומים לגנום הייחוס שלך.