שְׁאֵלָה:
באיזה מדד יש להשתמש בנתוני PCA או RNA-seq? TPM או ספירות?
mgalardini
2017-08-18 15:13:13 UTC
view on stackexchange narkive permalink

אני מנסה להבין את גודל השפעות האצווה בדגימות ה- RNA-seq שלי, ותהיתי אילו יחידות ביטוי מתאימות יותר לציור PCA. אני חושב על ספירות או TPM , אבל דברים כמו rlog או vst יכול לעבוד גם.

בנוסף, אני תוהה אם צריך לבצע טרנספורמציה של אחת מהיחידות האלה כדי למנוע תמלילים בשפע רב שמניעים את ה- PCA.

שתיים תשובות:
Devon Ryan
2017-08-18 15:17:53 UTC
view on stackexchange narkive permalink

tldr: ספירת טרנספורמציית יומנים ו- TPM, אך עדיף rlog / vst

יש לשנות טרנספורמציה של TPM כדי לקבל תוצאות שימושיות יותר. אם אתה כבר משתמש ב- DESeq2 (בהתחשב בהפניה ל- rlog ו- vst , זה נראה סביר), אנא המשך והשתמש ב- rlog או vst . זה ייתן לך תוצאות סבירות יותר מספירות גולמיות. אם אתה תקוע בספירות מסיבה כלשהי, אז ראשית השתמש בספירות מנורמלות כך שיהיו לפחות קצת יותר דומות ואז התחבר לשנות אותם כך שהגנים שלך לידי ביטוי גבוה לא יניעו הכל.

ערוך : כצידה, אם אתה יודע מה אפקט האצווה (למשל, תאריך הכנה לספריה), לפעמים נוח לכלול את זה במודל שלך. לאחר מכן תוכל להעריך את הגנים שמשתנים בפועל עקב כך, שלעיתים שימושי לדעת (למשל, אילו גנים עשויים להיות פחות או יותר מועדים להתכלות).

ב"ספירות מנורמלות "אתה מתכוון למשהו כמו נורמליזציה כמותית או הסרת אפקט אצווה?
@mgalardini Quantile מנורמל, או כל שיטה שאתה מעדיף (למשל, אלה שמשתמשים כברירת מחדל הם DESeq2 / edgeR / limma).
gringer
2017-08-18 16:13:10 UTC
view on stackexchange narkive permalink

PCA פועל בצורה הטובה ביותר כאשר נתוני הקלט מופצים כרגיל בכל מימד. זה יהיה רעיון טוב לעשות כמה בדיקות איכות נתונים ראשוניות כדי לוודא שזה המקרה (ולהפוך את הנתונים כראוי אם לא), או לפחות לוודא שהנתונים מופצים כרגיל במצטבר.

לצורך התבוננות בנתוני אילומינה RNASeq, מה שעבד הכי טוב עבורי (כלומר ייצר את הנתונים הנראים הכי נורמליים) היה הצעדים הבאים:

  1. הסרת גנים עם ספירת גלם נמוכה בכל הדגימות
  2. שימוש בטרנספורמציה של ייצוב השונות של DESeq (אשר הופכת ספירה להתפלגות דמוית יומן) )

צעדים אלה מפורטים מעט יותר בפירוט בעיתון Th2 שפורסם בסוף השנה שעברה:

http: // jem .rupress.org / content / early / 2016/12/01 / jem.20160470 # materials-Methods

בהתחשב בעובדה שאני עובד עם חיידקים כנראה שאצטרך לדלג על שלב 3. תודה על התובנה!
האם יש לך התייחסות לטענה ש- PCA מניח נורמליות, כי זה לא משהו שנתקלתי בו בעבר, ואכן, מקורות רבים טוענים שזה לא. לְמָשָׁל https://stats.stackexchange.com/questions/32105/pca-of-non-gaussian-data
אקדים את זה עם "אני לא סטטיסטיקאי", ואבסס את זה על זיכרונותיי מהשיחות שקיימתי עם ביו-סטטיסטיקאי שעבדתי איתו. [הפעולות שבוצעו עבור PCA] (http://www.datasciencecentral.com/profiles/blogs/introduction-to-principal-component-analysis) מניחות שדברים כמו ממוצע ושונות ומרחק אוקלידי עובדים כרגיל וצפוי; התפלגות לא נורמלית לחלוטין יכולה להשפיע על זה. PCA חזק למדי להפצות לא נורמליות, אך אינו חסין לחלוטין.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...