שְׁאֵלָה:
המרת שמות גנים מתבנית בסיס נתונים ציבורית אחת לאחרת
gringer
2017-06-06 18:38:20 UTC
view on stackexchange narkive permalink

זו שאלה מ- / u / apivan19 בנושא reddit. את הפוסט המקורי ניתן למצוא כאן.

יש לי כמה נתוני פרוטאומיקה שניתנו לי עם מזהי הגן של UniProt בעמודה 1. ניסיתי להמיר אותם לסמלי גנים רגילים באמצעות תוכניות שונות, אך זה מתגלה כקשה.

אתר Uniprot עושה זאת בצורה הגונה למדי, אך אינו מסוגל להמיר את כולם ואז מוסיף כמה גנים לא ידועים. לרשימה שלי.

לדוגמה, אני אתן לו 5439 גנים בסימון UniProt, ואגיד "5420 מתוך 5439 מזהי UniProt הוסבו ל -5450 סמלי גנים" ... וזה מגוחך.

ניסיתי להשתמש בדויד כדי לשנות את הסמלים, אבל זה מחזיר לי אותם בסדר מגוחך, אקראי ואין שום דרך שאוכל למיין ... יכול להיות שזה יהיה אבל זה ייקח שנייה.

מהן כמה מהדרכים הקלות ביותר לעשות זאת? זה כבר זמן רב מאוד ומחפש פתרונות פשוטים יותר

שֵׁשׁ תשובות:
Konrad Rudolph
2017-06-06 19:16:39 UTC
view on stackexchange narkive permalink

אני נוטה להשתמש ב Ensembl Biomart לשאילתות כאלה מכיוון שיש ממשקי API לשפות תכנות שונות, למשל. biomaRt, ואולי יותר מעניין, באמצעות REST API (אם כי זה די נורא).

כדי לתרגם מזהים ממאגרי מידע שונים, המשך כדלקמן:

  1. בחר מסד נתונים "Ensembl genes"
  2. בחר מערך נתונים האוגניזם הרצוי שלך
  3. המשך "מסננים" ›“ גן: ”› “קלט רשימת מזהים חיצוניים להזנה”
    1. בחר את מסד הנתונים של המקור שנבחר
    2. ספק רשימת מזהים, תחומה על ידי קו חדש
  4. עבור אל "תכונות" ›" גן: "> בטל את הסימון של" מזהה יציב תמליל "
    1. אם רוצים מזהי אנסמבל, השאר את המסמך" מזהה יציב גנטי "...
    2. אחרת בטל את הסימון; עבור אל "חיצוני:", סמן את פורמט המזהה הרצוי
  5. לחץ על "תוצאות" בפינה הימנית העליונה. זה נותן תצוגה מקדימה שניתן לייצא לפורמטים שונים; לחלופין, לחצני המרכז העליונים "XML" ו- "Perl" מספקים את השאילתה ב- XML ​​(לבקשות SOAP / REST) ​​וכתסריט פרל להפעלה (מעוצב להחריד).
שמות הגנים הביולוגיים יכולים להיות שימושיים מאוד לכך - יש לו ממשק משתמש נחמד לתרגום בכמויות גדולות, מכסה מגוון רחב של מזהים, יכול לגשת למילים נרדפות או שמות מושחתים וכו '. עם זאת, השירות לפעמים עולה ויורד כמו יויו וחלקם ספריות לקוחות עטיפה קשות לגבי גרסאות של ביומארט.
@agapow בהחלט, הסכים. :-(
Andrew
2017-06-06 22:52:18 UTC
view on stackexchange narkive permalink

אם נוח לך לעשות מעט תכנות, עיין ב mygene.info (שירותי אינטרנט להערות גנים מכל הסוגים). תרגום מזהים הוא באופן ספציפי אחד ממקרי השימוש שמטופלים ב לקוח מוליך ביו (ראו את הוויניחה), ויש גם לקוח פיתון דרך פיפי. את התיעוד עבור mygene ניתן למצוא כאן.

arupgsh
2017-06-06 23:32:15 UTC
view on stackexchange narkive permalink

אתה יכול לעשות את אותו הדבר באמצעות חבילה AnnotationDbi מבית Bioconductor. הורד את קובץ ההערות הספציפי לאורגניזם כמו org.Mm.eg.db עבור עכבר ומפה את מזהי הגן הנוכחיים לשמות הגן / סמלי הגן.

gringer
2017-06-06 18:46:44 UTC
view on stackexchange narkive permalink

אתר ההמרות המועדף על מסדי גנים הוא db2db. אתה מספק רשימת מזהים באחד ממספר רב של פורמטים ציבוריים שונים ויכול לבחור מזהה אחד או יותר כמטרות תרגום. לאחר מכן הוא יעבור בדרכים ידועות שונות כדי לבצע את התרגום, ויבחר את מה שהוא קובע להיות המסלול האמין ביותר לקבלת המידע שביקשת. התוצאות מופיעות בדפדפן כטבלה, אך ניתן לייצא אותן גם כקובץ אקסל, או כקובץ טקסט מופרד באמצעות כרטיסיות.

שים לב כי מיפוי הגנים ממסד נתונים אחד למשנהו אינו אחד. -מיפוי לאחד. ככל הנראה המקרה שיהיו כמה גנים במאגר המקורות אשר ימפו למספר גנים במסד היעד (ו להיפך ), וכמה גנים שאינם קיימים במאגר היעד. תופעות אלה ככל הנראה מהוות תוצאות "מגוחכות" שנראו כאן.

morgantaschuk
2017-06-06 19:37:23 UTC
view on stackexchange narkive permalink

אני לא מעריץ ענק של מערכת BioMart של Ensembl כי אני מתקשה להשתמש בו. ל- Synergizer יש ממשק פשוט מאוד ועובד די טוב ברוב הרשימות. הערה: זה לא עודכן זמן מה.

ithinkiam
2017-07-11 14:18:12 UTC
view on stackexchange narkive permalink

ללא ספק האפשרות המועדפת עלי לעשות זאת באופן ידני היא PICR: http://www.ebi.ac.uk/Tools/picr/

BTW זה לא " מגוחך "לקבל דיווחים על מספר שונה של גנים עבור קבוצה מסוימת של חלבונים. מכמה סיבות:

  1. מזהי Uniprot יכולים להיעלם, להתמזג או להתפצל
  2. לא לכל מזהי ה- uniprot והגנים יש קשר 1 ל -1
  3. תלוי במין סמלים גנים מסוימים יכולים להיות דו-משמעיים או שם נרדף.


שאלה ותשובה זו תורגמה אוטומטית מהשפה האנגלית.התוכן המקורי זמין ב- stackexchange, ואנו מודים לו על רישיון cc by-sa 3.0 עליו הוא מופץ.
Loading...