שְׁאֵלָה:
האם צריך לתקן PCA לביטוי גנים?
Felipe Flores
2018-07-30 23:47:52 UTC
view on stackexchange narkive permalink

זו שאלה של תיאוריה / פרקטיקה טובה יותר משאלה טכנית. אם מתוכננות דוגמאות על פי הקרנת PCA של נתוני ביטוי גנים, אני תוהה האם זה סטנדרטי (ואם כן, מדוע) למרכז את המחשבים ולגדלן אותם. במקרה זה המשתנים (הגנים) נמדדים באותו קנה מידה, כך שאני לא יודע אם יהיה צורך למרכז / קנה מידה של נתונים.

אחד תשובה:
llrs
2018-07-31 12:42:31 UTC
view on stackexchange narkive permalink

כאשר ביטוי הגן מוגדל ומרוכז אתה מקטין את ההבדל בין גנים.

תאר לעצמך שיש לך גן A שבא לידי ביטוי גבוה בדרך כלל ובעל סטיית תקן של 500 יחידות לעומת גן B שלא בא לידי ביטוי הרבה ורק סטיית תקן של 5.

בגנים המוקטנים והמרכזיים שניהם תורמים אותו הדבר כי A בדרך כלל מבוטא 10000 ו- B מתבטא בדרך כלל 100 יחידות. לכן, עבור שניהם סטיית התקן היא 5% מהביטוי שלהם. כלומר וריאציה אצל אחד חשובה כמו אצל השנייה.

אם לא מוגדל (וממורכז), הגן הראשון A יתרום יותר לוריאציה מאשר לגן B, כיוון ששוני הביטוי במספרים המוחלטים גדול יותר.

שניהם משמשים בפרסומים, אבל אני חושב שהמדרגות והמרכזיות משמשות יותר, מכיוון שהממד הראשון משקף את ההבדלים בין הדגימות "טוב יותר". כמובן שאתה יכול לעשות את שניהם ולבחור את זה שעדיף להראות מה שאתה רוצה.

... מצד שני, אם אתה מגודל ומרכז, גן עם ביטוי 100 הופך להיות רלוונטי כמו גן עם ביטוי 10000 שעשוי להיות לא רצוי. בעבר עקבתי אחר נימוק ה- OP ובחרתי נגד קנה המידה והריכוז והשתמשתי בערכי ביטוי שהפכו יומנים (TPM או RPKM). האם זה הגיוני?
@dariober ההנמקה שאני משתמש בה היא שאם גן מבוטא בדרך כלל 1000, הוא זקוק לביטוי גבוה זה כדי לתפקד, ואילו השני לא צריך להיות כל כך גבוה. אז למה שאעניק יותר רלוונטיות לגן כי הוא זקוק לביטוי רב יותר כדי לשמור על התא בחיים? מה שאני רוצה לראות ב- PCA הוא הדמיון וההבדלים, לא אם גן בא לידי ביטוי דיפרנציאלי או לא. לגבי אילו יחידות להשתמש הוא (אני חושב) ויכוח נוסף, שכן הנורמליזציה המיושמת תשנה את הדמיון לכאורה בין הדגימות


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 4.0 עליו הוא מופץ.
Loading...