אני מנסה לדמות גנום אחר של עמים, יש לי נתונים (קבצי VCF) של גנים שונים מפרויקט הגן 1000K.
אני רוצה לדמות גנומים שלמים שונים כלומר לייצר אוכלוסיה חדשה על ידי שילוב של הפלוטיפים אמיתיים שיש לי. אני תוהה מה הדרך הטובה ביותר להתמודד עם הבעיה. זוהי שיטה יעילה ליצירת גנוטיפים חדשים מציאותיים (לא רק לבחור חלקים באופן אקראי ולשלב אותם מחדש) על בסיס הגנוטיפים האמיתיים שכבר יש לי.
אני משתמש בחבילות Bioconductor VariantAnnotation כדי לקרוא ולתפעל את קבצי VCF ו- TxDb.Hsapiens.UCSC.hg19.knownGene כדי לקבוע את עמדות הגנים.
הנתונים נראים כך:
> gene58 @ rowRangesGRanges אובייקט עם 91 טווחים ועמודה אחת של מטא נתונים: seqnames ranges strands strand | paramRangeID <Rle> <IRanges> <Rle> | <factor> rs551585351 1 229566998 * | <NA> rs528384854 1 229567027 * | <NA> rs542093083 1 229567063 * | <NA> rs561849701 1 229567128 * | <NA> rs531042647 1 229567160 * | <NA> ... ... ... .... ... rs565479298 1 229569784 * | <NA> rs572772527 1 229569785 * | <NA> rs605430 1 229569803 * | <NA> rs605428 1 229569804 * | <NA> rs368699658 1 229569810 * | <NA> ------- seqinfo: 86 רצפים מהגנום "hg19"
מטריצת הגנוטיפ של הגן:
> gene.mat [ 1: 5, 1: 5] HG00867 HG02371 HG00759 HG00766 HG00844
rs551585351 "0 | 0" "0 | 0" "0 | 0" "0 | 0" "0 | 0" rs528384854 "0 | 0" "0 | 0" "0 | 0" "0 | 0" "0 | 0 "rs542093083" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "rs561849701" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "rs531042647" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "" 0 | 0 "