همگذاری ازسرنو ترانسکریپتوم
همگذاری ازسرنو ترانسکریپتوم، یک روش همگذاری دنبالهٔ de novo یا ازسرنو، برای ساخت رشتهٔ ترانسکریپتومیکس بدون کمک گرفتن از ژنوم مرجع است.
مقدمه[ویرایش]
به دنبال توسعهٔ تکنولوژیهای جدید برای توالییابی، در سالهای ۲۰۰۸ تا ۲۰۱۲ کاهش شدیدی در هزینهٔ توالییابی اتفاق افتاد. هزینهٔ تعیین توالی به ازای هر مگاباز (megabase) و ژنوم به ترتیب به ۱/۱۰۰٬۰۰۰ و ۱/۱۰٬۰۰۰ هزینهٔ قبلی، کاهش پیدا کرد.[۱] مهمتر، این بود که تنها ترانسکریپتوم مربوط به جاندارانی که در حوزهٔ تحقیقات علمی بیشتر مورد توجه و جالب بودند و امکانات برای آنها فراهم تر بود توالییابی میشدند. با اینحال، این تکنولوژیهای تازه توسعه یافتهٔ نسل بعدی (یا تکنولوژی با توان عملکردی بالا) از نظر هزینه و نیروی کاری بهینهتر هستند و تعداد موجوداتی که از این روشها مطالعه میشوند در حال گسترش است.[۲] برای نمونه ترانسکریپتوم موجوداتی مانند نخود،[۳] پلاناریا (Planarian)[۴] و پارائیالا هاواییس[۵] و همینطور دنبالهٔ مغز موجوداتی شامل تمساح نیل، مار ذرت و لاکپشت گوشقرمز ساخته شدهاست.[۶]
بررسی موجودات غیر مدل میتواند دید جدیدی از مکانیزمهای زیربنای «تنوع نوآوریهای شگفتانگیز مورفولوژیکی» که فراوانی زندگی روی سیارهٔ زمین را ممکن ساخته، فراهم کند. «نوآوری»هایی که در حیوانات و گیاهان وجود دارد و نمیتوان آنها را روی موجودات مدل رایج بررسی کرد، شامل تقلید، همزیستی دوسویه، پاراتیزیسم و تولید مثل غیرجنسی میباشد.[۷] همگذاری ازسرنو ترانسکریپتوم معمولاً روشی است که در مطالعهٔ موجودات غیر مدل ترجیح داده میشود، زیرا این روش کمهزینهتر و آسانتر از ساخت ژنوم است و متدهای مبتنی بر مرجع بدون وجود ژنوم امکانپذیر نیستند. ترانسکریپتوم این موجودات میتواند پروتئینهای جدید و ایزوفورمهای آنها را که در اینچنین آثار یکتای زیستی وجود دارند آشکار سازد.
همگذاری ازسرنو در مقایسه با روش مبتنی بر مرجع[ویرایش]
مجموعهای از ترانسکریپتهای همگذاری شده، امکان مطالعات ابتدایی بیان ژن را فراهم کرده و میکنند. پیش از توسعهٔ برنامههای کامپیوتریِ همگذاری ترانسکریپتوم، دادههای ترانسکریپتوم ابتدائاً با نگاشت روی ژنوم مرجع تحلیل میشدند. اگرچه همردیفی ژنوم، راهی مطمئن برای مشخص کردن توالی ترانسکریپت میباشد، این روش به خاطر ناتوانی در توجیه رخدادهایی مانند جابجایی ساختارمند ترانسکریپهای mRNA از جمله جابجایی جایگزین (alternative splicing) در این مورد کاربرد بهینهای ندارد.[۸] ژنوم شامل همهٔ اینترونها و اگزونهایی است که ممکن است در ترانسکریپت قرار بگیرند. تنوع جایگزینی، بعضی از اگزونها را (نه لزوماً تمام آنها را) دقیقاً به ترتیب آمدنشان در ژنوم، کنار هم قرار میدهد که این میتواند به نوعی ایزوفورمهای مختلف پروتئین را بسازند و همین تنوع درآمدن اگزومهاست که باعث این تنوع و تفاوت میشود. حتی در زمانی که ژنوم مرجع در دسترس است، همگذاری ازسرنو باید انجام گیرد، این کار ترانسکریپتهایی را که از بخشهایی از ژنوم، که در ژنوم همگذار شده قرار ندارند و رونویسی کردهاست را پوشش میدهد.[۹]
همگذاری ترانسکریپتوم در مقایسه با ژنوم[ویرایش]
برخلاف سطح پوشش دنبالهٔ ژنوم- که در نتیجهٔ محتوای تکراری در نواحی غیر کدینگ اینترون دیانای، میتواند به صورت تصادفی متفاوت باشد- سطح پوشش توالی ترانسکریپتوم مستقیماً نشاندهندهٔ سطح بیان ژنهاست. این توالیهای تکرار شده همچنین میتوانند باعث ایجاد ابهام در تشکیل contigها در همگذاری ژنوم شوند، در حالیکه ابهام در contigهای فرایند همگذاری ترانسکریپتوم، معمولاً به ایزوفورمهای تقسیم شده یا تنوع جزئی مربوط به اعضای خانوادهای از ژنها ارتباط دارد.[۸] همگذاری ژنوم به چندین دلیل، به صورت مستقیم نمیتواند در همگذاری ترانسکریپتوم مورد استفاده قرار بگیرد. اول، عمق تعیین توالی ژنوم معمولاً به اندازه سراسر طول ژنوم میباشد، اما عمق ترانسکریپتوم میتواند متنوع باشد. دوم اینکه هر دو رشتهٔ دیانای همیشه در ژنوم توالییابی میشوند، اما دادهٔ RNA-seq میتواند فقط یک رشته باشد. سومین دلیل این است که همگذاری ترانسکریپت چالش بیشتری دارد. زیرا تنوع ترانسکریپت حاصل از یک ژن، میتواند با استفاده از اگزونهای مختلف و ترکیب آنها ایجاد شده باشد و حل این ابهام و چندگانگی سختتر است.[۹]
انواع روشها[ویرایش]
Rna-seq[ویرایش]
پس از اینکه آرانای از سلول به صورت خالص استخراج شد، به عنوان ورودی به ابزارهای توالییابی با توان عملکردی بالا داده میشود، جایی که در ابتدا با استفاده از آنزیمی خاص به صورت معکوس رونویسی میشود تا cDNA یا دیانای مکمل ساخته شود. سپس این cDNA بر حسب پلتفرمی که استفاده میشود میتواند به طولهای متنوعی تقسیمبندی شود. هر کدام از پلتفرمهایی که در ادامه آمده، نوع متفاوتی از تکنولوژی برای تعیین توالی میلیونها read کوتاه را بکار میگیرد: 454 Sequencing, Illumina و SOLiD.
الگوریتمهای همگذاری[ویرایش]
Readهای توالی cDNAها بوسیلهٔ برنامههای همگذاری ترانسکریپت، به ترانسکریپت همگذار میشوند. به احتمال زیاد تنوع بعضی از آمینواسیدها بین ترانسکریپتها، که به طریق دیگری مشابه هستند، ایزوفورمهای متفاوت پروتئینها را ایجاد میکنند. همچنین ممکن است ژنهای متفاوت در یک خانوادهٔ مشابه را نشان دهند، یا میتواند ژنهایی باشند که فقط بخش حفاظت شدهای از ترانسکریپت را به اشتراک دارند و این بستگی به درجهٔ تنوع آنها دارد.
تعدادی برنامه برای همگذاری در دسترس است. با این که این برنامهها در همگذاری ژنوم موفق عملکردهاند، همگذاری ترانسکریپتوم چالشهای منحصربفرد خودش را دارد. درحالیکه پوشش بالای توالی برای ژنوم، میتواند نشان دهندهٔ وجود توالیهای تکراری باشد و در نتیجه پنهان شود، اما برای ترانسکریپتوم، میتواند نشان دهندهٔ فراوانی باشد. علاوه بر این، برخلاف تعیین توالی ژنوم، توالی یابی ترانسکریپتوم میتواند یک رشتهای باشد. نهایتاً بازسازی ایزوفورمهای تقسیم شده میتواند سخت باشد.[۹]
همگذارهای readهای کوتاه، معمولاً یکی از این دو الگوریتم پایهای را انتخاب میکنند: گراف همپوشانی و گراف دی براین. گراف همپوشانی برای بیشتر همگذاریهایی بکار گرفته میشود که برای توالییابی با تکنولوژی Sanger طراحی شدهاند. همپوشانی بین هر جفت از readها محاسبه میشود و به یک گراف، ترجمه و تبدیل میشود که در آن هر گره نشاندهندهٔ دنبالهٔ یک read است. این الگوریتم از نظر محاسباتی سنگین تر از گراف دیبراین است، همچنین در همگذاریِ تعداد کمتری از readهای با درجهٔ بالاتری از همپوشانی، مؤثرتر عمل میکند. گراف دی براین، k تاییهای متوالی موجود در هر read را (معمولاً بین ۲۵ تا ۵۰ باز) بر اساس دنبالهٔ k-1 تایی محافظت شده، همگذاری میکند تا contigها را بسازد. استفاده از k-تاییهایی که طول کوتاهتری از خود readها دارند- در گراف دیبراین، باعث کاهش شدت محاسباتی این روش میشود.[۱۰]
تفسیر کاربردی[ویرایش]
تفسیر کاربردی ترانسکریپت همگذاری شده، به ما تفسیر و دیدی در مورد کاربردهای مولکولی خاص، مؤلفههای سلولی و فرایندهای زیستیای که احتمالاً پروتئینهایی در آنها درگیر هستند، میدهد. Blast2GO، هستیشناسی ژنی را (Gene Ontology که به صورت GO مخفف میشود) برای ژنهایی که در حال حاضر هیچ تفسیر هستیشناسی برایشان در دسترس نداریم، براساس کاوش داده برای تفسیر دنبالهٔ دادهها میسر میکند. این یک ابزار تحقیقاتی است که در تحقیقات کاربردی ژنوم روی گونههای غیر مدل اعمال میشود.[۱۱] نحوهٔ کارکردش به این صورت است که contigهای همگذار شده را بین پایگاه دادههای پروتئینهای غیر مدل (در NCBI) بلاست میکند، سپس بر اساس تشابه دنبالهای، آنها را تفسیر میکند. Goanna یکی دیگر از برنامههای تفسیر هستیشناسی ژنی است که مخصوص حیوانات و ژن محصولات گیاهان کشاورزیِ در یک سبک است. این ابزار، بخشی از پایگاه دادهٔ (تأیید آزمایشگاهی شدهی) AgBase به عنوان سلسلهٔ قابل دسترس برای ابزارهای محاسباتیِ تفسیر و تحلیل GO است.[۱۲] تفسیرهای بعدی مانند (KEGG (Kyoto Encyclopedia of Genes and Genomes تصویرسازی از فرایندهای سوختوساز و شبکههای تعاملات سلولی در ترانسکریپتوم را فراهم میکند.[۱۳]
تأیید و کنترل کیفیت[ویرایش]
زمانی که ژنوم مرجع موجود نیست، کیفیت contigهای همگذار شده باید تأیید شود. این تأیید یا از طریق مقایسه دنبالههای تولید شده با readهایی که از آنها ساخته شدهاست بدون نیاز به مرجع انجام میگیرد، یا با همردیفی دنبالههای محافظت شدهٔ حوزهٔ ژن در mRNA ترانسکریپتوم، با ترانسکریپتوم یا ژنوم گونههای مربوطِ نزدیک به مرجع. ابزارهایی از جمله Translate[۱۴] و DETONATE[۱۵] امکان تحلیل آماری کیفیت همگذاری را با این متدهای توضیح داده شده فراهم میکنند. یک روش دیگر، طراحی پرایمرهای PCR (واکنش زنجیرهای پلیمراز) برای ترانسکریپت پیشبینی شدهاست، سپس باید با استفاده از cDNA تقویت و زیاد شوند. معمولاً، readهای کوتاه فیلتر میشوند و بیرون داده میشوند. دنبالههای کوتاه (کمتر از ۴۰ آمینواسید) بعید است پروتئینهای کاربردی را نشان دهند.[۱۶]
همگذارها[ویرایش]
در ادامه، خلاصهای از نرمافزارها و ابزارهایی که برای تولید ترانسکریپتوم استفاده شدهاند و همچنین در مقالات علمی به آنها اشاره شدهاست، آورده شده:
seqMan NGen[ویرایش]
seqMan NGen، به عنوان بخشی از نرمافزار DNASTAR شامل یک همگذار ترانسکریپتوم ازسرنو برای مجموعه دادههای بزرگ یا کوچک ترانسکریپتوم میباشد. seqMan NGen از یک الگوریتمِ ساختهشدهاستفاده میکند که RefSeq را برای شناسایی و ادغام ترانسکریپتها بهینه میکند، و به صورت خودکار ترانسکریپتهای همگذار شده را با استفاده از ابزار اختصاصیِ تفسیرِ ترانسکریپت DNASTAR برای شناسایی و برجسته کردن ژنهای جدید و شناخته شده، تفسیر میکند.
SOAPdenovo-Trans[ویرایش]
SOAPdenovo-Trans یک همگذار ترانسکریپتوم ازسرنو است که از چارچوب SOAPdenovo2 گرفته شدهاست و برای همگذاری ترانسکریپتوم با سطح بیان متفاوت و جابجایی جایگزین طراحی شدهاست. این همگذار در مقایسه با SOAPdenovo2 مسیرهای جامعتر و کاملتری برای ساخت کامل ترانسکریپتوم فراهم کردهاست.
Velvet/Oases[ویرایش]
الگوریتم velvet از گراف دیبراین برای همگذاری ترانسکریپت استفاده میکند. در شبیهسازی، Velvet میتواند contigهایی با معیار N50 برابر 50-kb را با استفاده از دادهٔ پروکاریوت، و تا N50 برابر 3-kb در کروموزومهای مصنوعی باکتریایی پستانداران تولید کند.[۱۷] ترانسکریپتهای اولیه به واحه تبدیل میشوند، که خود واحهها از readهای جفت دوطرفه و readهای طولانی برای ساخت ایزوفورمهای ترانسکریپت استفاده میکنند.[۱۸]
Trans-ABySS[ویرایش]
ABySS یک همگذار دنبالهٔ paired end است که موازی کار میکند. Trans-ABySS نرمافزاری است که به زبان پایتون و پرل برای تحلیل contigهای ترانسکریپتومِ همگذار شده توسط ABySS نوشته شدهاست. این نرمافزار میتواند برای همگذاریهای بازهٔ بزرگی از مقادیر k اعمال شود. ابتدا مجموعه دادهها را به مجموعهٔ کوچکتری از contigهای غیر همپوشان کاهش میدهد، و رخدادهای پیوند از قبیل پرش از اگزون، اگزونهای جدید، اینترونهای حفظ شده، اینترونهای جدید و جابجایی جایگزینی را تشخیص میدهد. این الگوریتم همچنین میتواند سطح بیان ژنها را نیز تخمین بزند، مکانهای محتمل چندآدنینی شدن را شناسایی کند و ژنهای کاندیدِ ادغام را تشخیص دهد.[۱۹][پیوند مرده][19]
Trinity[ویرایش]
ابزار Trinity ابتدا دنبالهٔ دادهها را به تعدادی گراف دیبراین تبدیل میکند، سپس ایزوفورمهای پیوند شده با طول کامل را استخراج میکند و ترانسکریپتهای استخراج شده از ژنهای parqalogous از هر گراف دیبراین را به صورت جداگانه شناسایی میکند. Trinity از سه ماژل نرمافزاری مستقل که به صورت پشت سر هم برای تولید ترانسکریپت عمل میکنند، تشکیل شدهاست:
Inchworm ابتدا دادههای RNA-seq را به دنبالههای ترانسکریپت همگذار میکند، و معمولاً برای ایزوفورم غالب، ترانسکریپت با طول کامل را تولید میکند، اما نهایتاً فقط بخشهای یکتایی از ترانسکریپت پیوند زده شدهٔ جایگزین را گزارش میدهد.
Chrysalis در مرحلهٔ بعد، contigهای Inchworm را خوشهبندی میکند و برای هر خوشه گراف دیبراین را به صورت کامل میسازد. هر خوشه نمایشدهندهٔ پیچیدگی ترانسکریپت به صورت کامل برای یک ژن است (یا یک خانواده یا مجموعهای از ژنها که دارای بخش محافظتشدهٔ مشترکی هستند). Chrysalis سپس مجموعهٔ کامل readها را بین این گرافهای مجزا بخشبندی میکند.
Butterfly سپس هر گراف را به صورت موازی پردازش میکند و مسیر readها را در گراف دنبال میکند و نهایتاً ترانسکریپت کامل را برای ایزوفورمهای پیوند زده شدهٔ جایگزین گزارش میکند.[۲۰]
منابع[ویرایش]
- ↑ Wetterstrand KA. "DNA Sequencing Costs: Data from the NHGRI Large-Scale Genome Sequencing Program Available at: www.genome.gov/sequencingcosts". Genome.gov.
- ↑ Surget-Groba Y, Montoya-Burgos JI (2010). "Optimization of de novo transcriptome assembly from next-generation sequencing data". Genome Res. 20 (10): 1432–1440. PMC 2945192 Freely accessible. PMID 20693479. doi:10.1101/gr.103846.109.
- ↑ Garg R, Patel RK, Tyagi AK, Jain M (2011). "De novo assembly of chickpea transcriptome using short reads for gene discovery and marker identification". DNA Res. 18 (1): 53–63. PMC 3041503 Freely accessible. PMID 21217129. doi:10.1093/dnares/dsq028.
- ↑ Adamidi C; et al. (2011). "De novo assembly and validation of planaria transcriptome by massive parallel sequencing and shotgun proteomics". Genome Res. 21 (7): 1193–1200. PMC 3129261 Freely accessible. PMID 21536722. doi:10.1101/gr.113779.110.
- ↑ Zeng V; et al. (2011). "De novo assembly and characterization of a maternal and developmental transcriptome for the emerging model crustacean Parhyale hawaiensis" (PDF). BMC Genomics. 12: 581. PMC 3282834 Freely accessible. PMID 22118449. doi:10.1186/1471-2164-12-581
- ↑ Tzika AC; et al. (2011). "Reptilian transcriptome v1.0, a glimpse in the brain transcriptome of five divergent Sauropsida lineages and the phylogenetic position of turtles" (PDF). EvoDevo. 2 (1): 19. PMC 3192992 Freely accessible. PMID 21943375. doi:10.1186/2041-9139-2-19.
- ↑ Rowan BA, Weigel D, Koenig D (2011). "Developmental genetics and new sequencing technologies: the rise of nonmodel organisms". Developmental Cell. 21 (1): 65–76. PMID 21763609. doi:10.1016/j.devcel.2011.05.021.
- ↑ ۸٫۰ ۸٫۱ Birol I; et al. (2009). "De novo transcriptome assembly with ABySS". Bioinformatics. 25: 2872–7. PMID 19528083. doi:10.1093/bioinformatics/btp367.
- ↑ ۹٫۰ ۹٫۱ ۹٫۲ Martin, Jeffrey A. ; Wang, Zhong. "Next-generation transcriptome assembly". Nature Reviews Genetics. 12 (10): 671–682. doi:10.1038/nrg3068.
- ↑ Illumina, Inc. (2010). "De Novo Assembly Using Illumina Reads" (PDF).
- ↑ Conesa A; et al. (2005). "Blast2GO: a universal tool for annotation, visualization and analysis in functional genomics research". Bioinformatics. 21 (18): 3674–3676. PMID 16081474. doi:10.1093/bioinformatics/bti610.
- ↑ McCarthy FM; et al. (2006). "AgBase: a functional genomics resource for agriculture". BMC Genomics. 7: 229. PMC 1618847 Freely accessible. PMID 16961921. doi:10.1186/1471-2164-7-229.
- ↑ "KEGG PATHWAY Database".
- ↑ Transrate: understand your transcriptome assembly. http://hibberdlab.com/transrate
- ↑ Li B; et al. (2014). "Evaluation of de novo transcriptome assemblies from RNA-Seq data". Genome Biology. 15: 553. doi:10.1186/s13059-014-0553-5.
- ↑ Karplus, K. pdb-1: Minimum length of Protein Sequence. https://lists.sdsc.edu/pipermail/pdb-l/2011-January/005317.html.
- ↑ Zerbino DR, Birney E (2008). "Velvet: Algorithms for de novo short read assembly using de Bruijn graphs". Genome Res. 18 (5): 821–829. PMC 2336801 Freely accessible. PMID 18349386. doi:10.1101/gr.074492.107.
- ↑ "Oases: de novo transcriptome assembler for very short reads".
- ↑ "Trans-ABySS: Analyze ABySS multi-k assembled shotgun transcriptome data".
- ↑ "Trinity RNA-Seq Assembly – software for the reconstruction of full-length transcripts and alternatively spliced isoforms". Archived from the original on July 12, 2011.