אני מבצע ניתוח כלשהו על מערך נתונים של RNA-seq. יש לי רשימה של תמלילים שהם lncRNA פוטנציאליים שעבורם ניהלתי גם מיישרים של קליסטו וגם של סלמון. נתוני הקלט לבניית האינדקס ולכימות כוללים mRNA וכן את ה- lncRNA הפוטנציאלי.
פקודות לשכפול אחד:
סלמון
אינדקס סלמון - -keepDuplicates -t transcripts.fasta -i index_directory / -k 31salmon quant --seqBias --gcBias -i index_directory / --libType ISR --auxDir index_directory / -1 sample_R1.fastq.gz -2 sample_R2.fastq.gz -o output_name
Kallisto
kallisto index -i kallisto_index.idx transcripts. fastakallisto quant -i kallisto_index.idx -o output_name - rf-stranded sample_R1.fastq .gz sample_R2.fastq.gz
ואז השתמשתי בערכי ה- tpm, עותקים משוכפלים בממוצע (3) ותיכנתי את מספר התמלילים לכל תנאי שהיו להם tpm> 2. אותה תוצאה עבור tpm> 5.
הגרף הבא מציג את ה- mRNA:
וגם עבור lncRNA:
שוב, הניתוח נעשה עם תמלילי lncRNA ו- mRNA יחד באותו קובץ fasta.
החפיפה לא מוצגת פה אך הוא תמיד קטן יותר מהספירה עבור Kallisto, עבור lncRNA.
בספרות נראה כי לשני הכלים יש תוצאות דומות. אני לא יכול למצוא סיבה לכך. אם תהיה שגיאה איפשהו הייתי מצפה לראות גם הבדלים ברנ"א העיבוי שלא קורים.