ارزیابی توالی رونوشت گیاه دارویی زیره سبز (Cuminum cyminum) با استفاده از RNA-Seq

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی کارشناسی ارشد اصلاح‌نباتات، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

2 دانشیار گروه علوم زراعی و اصلاح نباتات، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

3 استادیار گروه علوم دام و طیور، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

چکیده

زیره سبز (Cuminum cyminum L.) گیاهی گلدار از خانواده چتریان (Apiaceae) است که بومی مناطق شرق مدیترانه تا هند می­باشد. به­رغم اهمیت دارویی فراوان زیره سبز، اطلاعات بسیار اندکی از ژنوم و مکانیسم­های بیوشیمیایی ترکیبات موجود در این گیاه وجود دارد. در مطالعه حاضر جهت ارزیابی توالی رونوشت زیره سبز، از اندام گل (به دلیل تجمع بالای ترکیبات آلدئیدی و محل اصلی بیوسنتز آن)، جهت استخراج RNA از چهار نمونه و انجام آنالیز­های RNA-Seq استفاده شد. در نهایت، بیش از 153 میلیون خوانش به طول 50 باز از توالی­یابی این نمونه­ها حاصل شد. سرهم­بندی خوانش­ها به منظور ایجاد رونوشت­های بیان شده توسط نرم­افزار Trinity (نسخه 3 . 1 . 1) و با مقادیر kmer 25 و 32 انجام شد. بهترین سرهم­بندی بر اساس کامل بودن توالی رونوشت­ها با استفاده از نرم­افزار BUSCO (نسخه 3) شناسایی شد. بعد از سرهم­بندی خوانش­ها 50973 توالی ژن (کانتیگ) با میانگین طول 725 باز و مقدار N50 برابر با 1136 باز به دست آمد. همچنین  از این تعداد ژن، 53103 رونوشت شناسایی شد. از این تعداد، 35860 رونوشت دارای حداقل یک همولوگ در بانک اطلاعاتی Nr بودند. بیش از 7/66 درصد رونوشت­ها حداقل دارای یک همولوگ در بانک اطلاعاتی GO (فرآیند­های بیولوژیک، عملکرد­های مولکولی و اجزاء سلولی) بودند. بیشتر ژن های شناسایی شده مرتبط با تنظیم رونویسی و فعالیت های غشایی بودند. در مطالعه حاضر نخستین پروفایل توالی رونوشت در گیاه زیره گزارش شد که می­تواند در مطالعات بعدی به منظور شناسایی ژن­های دخیل در مسیر بیوسنتزی ترکیبات ثانویه مختلف و دیگر مطالعات ژنتیکی در این گیاه مورد استفاده قرار گیرد.

کلیدواژه‌ها


عنوان مقاله [English]

Transcriptome analysis of cumin (Cuminum cyminum L.) using RNA-Seq

نویسندگان [English]

  • Daruish Sadeghi 1
  • Mohammad-Mahdi Mortazavian 2
  • Mohammad-Reza Bakhtiyarizadeh 3
1 M.Sc student of Plant Breeding, College of Aburaihan, University of Tehran, Tehran, Iran.
2 Associate Professor of Plant Breeding, College of Aburaihan, University of Tehran, Tehran, Iran.
3 Assistant Professor of Animal Science, College of Aburaihan, University of Tehran, Tehran, Iran.
چکیده [English]

Cumin (Cuminum cyminum L.) is a flowering plant from Apiaceae family and native to the East Mediterranean to India. The main component of essential oil in cumin seeds is cumin aldehyde (63% of total oil). Despite the importance of the cumin derivative drugs little information is available on the genome and the molecular mechanisms involved in metabolic pathway of this plant. Transcriptomic studies have greatly contributed to better understand in metabolic pathways of medicinal plants. At the moment, the use of next-generation sequencing techniques, especially RNA-seq technique were considered as the suitable promising and most accurate methods of transcriptomic evaluation. In the present study, we report cumin transcriptome for the first time. Flower tissue was used to extract RNA from four samples for RNA-seq analysis. According to the results, more than 153000000 reads with length of 50 NT were achieved. Trinity software, using 25 and 32 K-mers, was used to assemble the reads. Selection of the best assembly was followed using BUSCO software based on the integer transcript sequences. After assembly of reads, 50973 genes with an average length of 725 NT and N50 value of 1136 NT were obtained. Moreover, 53103 transcripts were identified from all genes. From this number, 35860 transcripts had at least one homologous in Nr database. More than 66.7% of all transcripts had at least one homologous in GO database (biological process, molecular function, cellular compound). Most of the genes were related to transcriptional regulation and membrane activities. In the present study, the first transcriptome profile is reported in cumin which data can be used in subsequent studies to assess expression of genes and other genetic studies in this plant.

کلیدواژه‌ها [English]

  • Cumin
  • Gene transcript
  • Medicinal plant
  • Next Generation Sequencing

ارزیابی توالی رونوشت  گیاه دارویی زیره سبز (Cuminum cyminum) با استفاده از RNA-Seq

 

داریوش صادقی1، سید محمدمهدی مرتضویان2*، محمدرضا بختیاری زاده3

 

1 دانشجوی کارشناسی ارشد اصلاح‌نباتات، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

2دانشیار گروه علوم زراعی و اصلاح نباتات، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

3استادیار گروه علوم دام و طیور، پردیس ابوریحان دانشگاه تهران، تهران، ایران.

تاریخ دریافت: 18/07/1396، تاریخ پذیرش: 17/10/1396

چکیده:

زیره سبز (Cuminum cyminum L.) گیاهی گلدار از خانواده چتریان (Apiaceae) است که بومی مناطق شرق مدیترانه تا هند می­باشد. به­رغم اهمیت دارویی فراوان زیره سبز، اطلاعات بسیار اندکی از ژنوم و مکانیسم­های بیوشیمیایی ترکیبات موجود در این گیاه وجود دارد. در مطالعه حاضر جهت ارزیابی توالی رونوشت زیره سبز، از اندام گل (به دلیل تجمع بالای ترکیبات آلدئیدی و محل اصلی بیوسنتز آن)، جهت استخراج RNA از چهار نمونه و انجام آنالیز­های RNA-Seq استفاده شد. در نهایت، بیش از 153 میلیون خوانش به طول 50 باز از توالی­یابی این نمونه­ها حاصل شد. سرهم­بندی خوانش­ها به منظور ایجاد رونوشت­های بیان شده توسط نرم­افزار Trinity (نسخه 3 . 1 . 1) و با مقادیر kmer 25 و 32 انجام شد. بهترین سرهم­بندی بر اساس کامل بودن توالی رونوشت­ها با استفاده از نرم­افزار BUSCO (نسخه 3) شناسایی شد. بعد از سرهم­بندی خوانش­ها 50973 توالی ژن (کانتیگ) با میانگین طول 725 باز و مقدار N50 برابر با 1136 باز به دست آمد. همچنین  از این تعداد ژن، 53103 رونوشت شناسایی شد. از این تعداد، 35860 رونوشت دارای حداقل یک همولوگ در بانک اطلاعاتی Nr بودند. بیش از 7/66 درصد رونوشت­ها حداقل دارای یک همولوگ در بانک اطلاعاتی GO (فرآیند­های بیولوژیک، عملکرد­های مولکولی و اجزاء سلولی) بودند. بیشتر ژن های شناسایی شده مرتبط با تنظیم رونویسی و فعالیت های غشایی بودند. در مطالعه حاضر نخستین پروفایل توالی رونوشت در گیاه زیره گزارش شد که می­تواند در مطالعات بعدی به منظور شناسایی ژن­های دخیل در مسیر بیوسنتزی ترکیبات ثانویه مختلف و دیگر مطالعات ژنتیکی در این گیاه مورد استفاده قرار گیرد.

کلمات کلیدی: رونوشت ژن، زیره سبز، گیاه دارویی، نسل دوم توالی­یابی.

 


 

مقدمه

زیره سبز با نام علمی (Cuminum cyminum L.) از تیره چتریان (Apiaceae) و بومی مناطق مدیترانه است که به طور گسترده در آن مناطق کشت می­شود (Sowbhagya, 2013). همچنین یکی از مهم­ترین گیاهان دارویی صادراتی برای کشور­هایی نظیر ایران، هند و برخی دیگر از کشور­های آسیایی می­باشد (Kafi, 2006). در کشور ایران، زیره سبز با حدود 18 هزار هکتار، رتبه اول سطح زیر کشت در میان گیاهان دارویی را به خود اختصاص داده است (Taghavi and Eiman-Khan, 2005). این گیاه دیپلوئید (14x=2=n2)، یکساله، دگرگرده­افشان و گلدار بوده و به عنوان مهم­ترین گیاه دارویی اهلی در کشور ما شناخته شده است. بسیاری از نواحی کشور، مستعد کشت این گیاه دارویی مفید می­باشند و به تدریج بر اهمیت و سطح زیر کشت آن افزوده می شود (Kafi, 2006). اصلی­ترین نرکیبات دارویی اسانس زیره سبز کومین آلدئید، سیمن و ترپنوئید­ها هستند که در بذر زیره سبز بیشترین تجمع را دارند (Thippeswamy and Naidu, 2005). حدود 65-40 درصد اسانس زیره سبز را کومین آلدئید تشکیل می­دهد (Parthasarathy et al., 2008) که جزئی از مونوترپن­ها محسوب می­شود. ساخت این مونوترپن با واسطه آنزیم کلیدی لیمونن سنتاز صورت می گیرد (Mahmoud et al., 2004) که بیشترین بیان ژن کدکننده آن در ساقه و گل­های بسیار کوچک (mm2>) و کوچک (mm4-3) اتفاق می­افتد (Ghanadnia et al., 2011). اسانس زیره سبز دارای خاصیت آنتی اکسیدانی است که تا حدود زیادی مربوط به ساختار فنلی موجود در ترکیب کومین­آلدئید آن می­باشد (Guenther, 1948).

درک مکانیسم­های تنظیم بیان ژن برای ایجاد ارتباط میان ژنوتیپ­ و فنوتیپ امری اساسی است. سنتز و بلوغ RNA­ها شدیداً تحت کنترل بوده و با تشکیل یک شبکه بیان ژن، فرآیند­های بیولوژیک را هدایت می­کند. درک عمیق اصول و مکانیسم­های حاکم بر این شبکه­های بیان ژن برای فهم بهتر مکانیسم­های تنظیم بیان ژن در طول مراحل نموی و پاسخ به انواع سیگنال­های محیطی در گیاهان ضروری است. (Marguerat and Bähler, 2010). همچنین در دسترس بودن اطلاعات توالی­های ژنوم، اصلاح­گر را قادر به­دستیابی به توالی­ ژن­های مطلوب می­کند. شروع استفاده از روش­های نسل بعدی توالی­یابی[1] به سال 2004 برمی­گردد و بهبود روش­های توالی­یابی طی این سال­ها منجر به تحولی در دستیابی به حجم وسیعی از اطلاعات ژنومی در موجودات مختلف شده و توانسته پاسخگوی نیاز­های مختلف اصلاح­گران در بهبود گیاهان زراعی باشد (Barabaschi et al., 2015). تاکنون پیش نویس ژنومی حدود 100 گونه گیاهی منتشر شده است. این دسته از روش­ها مقرون به­صرفه، دارای تکرارپذیری بالا و انعطاف­پذیرند (Vlk and Řepková, 2017). لازم به ذکر است، بدلیل تولید حجم انبوهی از اطلاعات، کاربرد تکنیک­های نسل بعدی توالی­یابی نیاز به تخصص در زمینه تجزیه و تحلیل داده­ها و شناسایی اریبی و خطاهای موجود در طی مراحل مختلف آزمایش دارد. اریبی و خطاهای به وجود آمده در طول توالی­یابی اثرات معنی­داری به روی تجزیه و تحلیل­های بیوانفورماتیک خواهند داشت و لذا روش­های مختلفی برای بررسی و رفع این خطاها ارائه شده است. از جمله محققان دانشگاه جان هاپکینز، روشی بر مبنای K-mer به نام Rcorrector (RNA-Seq error Corrector) با هدف تصحیح خطاهای تصادفی توالی­یابی در خوانش­های RNA-Seq ارائه دادند (Song and Florea, 2015).

 تکنولوژی RNA-Seq برای هر دو نوع موجودات مدل و غیر­مدل استفاده شده است. برای موجودات غیر­مدل از قبیل زیره سبز، توالی­یابی عمیق (Deep sequencing) و به دنبال آن سرهم­بندی از ابتدا (De Novo) و خوشه­بندی، برای دستیابی به توالی رونوشت مرجع ضروری است (Yong et al., 2014). طی سال­های اخیر مطالعات بسیاری با استفاده از تکنولوژی RNA-Seq برای پی بردن به مکانیسم پیچیده انواع مقاومت­ به تنش­های زنده و غیرزنده و مسیر بیوسنتز ترکیبات ثانویه گیاهان دارویی و سایر گیاهان زراعی انجام شده و در حال انجام است. از جمله چنین مطالعاتی، کاربرد تکنیک RNA-Seq در گیاه دارویی (Gentiana macrophylla) است. ریشه­های خشک شده این گیاه برای درمان بیماری­هایی چون زگیل، هپاتیت و بیماری­های معده مورد استفاده قرار می­گیرد. با این حال، عدم وجود اطلاعات کافی در مورد ژنتیک این گیاه، مانع از تولید ترکیبات موثره آن از طریق مهندسی ژنتیک بود. در همین راستا، کاربرد تکنیک RNA-Seq در این گیاه منجر به شناسایی 42918 تک­ژن شد که از طریق بلاست با بانک­های اطلاعاتی مربوط به مسیر­های بیوسنتزی نظیر بانک اطلاعاتی KEGG، تعداد 2339 تک­ژن با مسیر بیوسنتزی انواع ترکیبات ثانویه در این گیاه همردیف شدند (Hua et al., 2014). تجزیه و تحلیل توالی رونوشت Thapsia laciniata از طریق تکنولوژی­ توالی­یابی نسل بعد، به شناسایی ژن­های جدید درگیر در بیوسنتز ترپنوئید­ها منجر گردید. از مجموع 78/66 میلیون خوانش به دست آمده از بافت ریشه T.laciniata، 58/64 میلیون خوانش به 76565 کانتیگ با bp 1261 = N50 بازسازی شد. پس از بلاست کانتیگ­ها از طریق بانک­های اطلاعاتی مربوط به آنتولوژی ژن و پایگاه مسیر­های بیوسنتزی KEGG، به ترتیب تعداد 17 و 5 کانتیگ به عنوان کانتیگ­های مسئول بیوسنتز ترپن­ها و سزکوئی­ترپن­ها شناخته شدند (Drew et al., 2013). همچنین در سال 2013 توالی رونوشت گونه کرفس نیز با استفاده از این تکنولوژی مورد مطالعه قرار گرفت. پس از بازسازی خوانش­ها در مجموع تعداد 42280 تک­ژن تولید شد که با استفاده از پلت­فرم­های مختلف از قبیل Nr، COG، GO، KEGG، همردیفی تک­ژن­ها مشخص شد. تعداد بسیاری SSR نیز در این گونه شناسایی و میزان تکثیر و چندشکلی 31 الحاقیه از کرفس مورد بررسی قرار گرفت (Fu et al., 2013).

تاکنون هیچ داده توالی­یابی از گونه­های جنس Cuminum در آرشیو SRA سایت NCBI گزارش نشده است. از سوی دیگر، وجود داده­های مولکولی بسیار اندک و ناچیز در ارتباط با زیره سبز به عنوان یکی از مهمترین گیاهان دارویی اهلی در کشور که بیشترین سطح زیر کشت را نیز به همراه دارد و دمین گیاه ادویه ای مهم در دنیاست (Bettaieb Rebey et al., 2012)، لزوم انجام تحقیقات ژنومیکس و ترانسکریپتومیکس را بیش از پیش ضروری می­نماید. وجود داده­هایی از این قبیل برای درک بهتر مسیر بیوستنزی ترکیبات ثانویه ارزشمند زیره سبز  حایز اهمیت فراوان است. در پژوهش حاضر برای نخستین بار در دنیا مجموعه رونوشت­های زیره سبز توالی­یابی، بازسازی و از نظر عملکردی تفسیر و خوشه­بندی گردیده است تا با کمک این اطلاعات ارزشمند مکانیسم­های بیوسنتز این ترکیبات شناسایی گردد و راهی برای اصلاح مولکولی این گیاه و سایر گیاهان دارویی هم­خانواده گشوده شود.

 

مواد و روش­ها

بذور اکوتیپ سیوند (استان فارس) زیره سبز (Cuminum cyminum L.)، به مدت 20 دقیقه در هیپوکلریت سدیم 2/0 درصد ضدعفونی (Ghanadnia et al., 2011) و در ادامه پنج مرتبه با آب مقطر شست و شو داده شدند. سپس به منظور حذف اثرات بازدارنده جوانه­زنی، بذور به روی کاغذ صافی مرطوب خیسانده شدند. پس از 48 ساعت، بذور در سینی­های 216 خانه محتوی 75 درصد پیت ماس و 25 درصد پرلیت به منظور تهیه نشاء کشت شدند. جهت آماده سازی گلدان­ها مقداری سنگریزه داخل هر گلدان ریخته شد تا علاوه بر ایجاد فضای لازم جهت تبادل هوا، وزن تمامی گلدان­ها یکسان شود. در ادامه انتقال نشاء به گلدان­های اصلی در محیط گلخانه با میانگین دمای 24 درجه سانتی­گراد و رطوبت 58 درصد انجام گرفت.

نمونه­برداری از بافت گل­ گیاه، به عنوان بافت هدف (محل تشکیل بذر و تجمع متابولیت­ها) و به صورت مخلوطی از چند بوته و به تعداد 4 مرتبه در شرایط گلخانه در مرحله زایشی (36 روز پس از کاشت) انجام شد. اندام گل، بلافاصله با ازت مایع فریز شد و برای مراحل بعدی انجام آزمایش در دمای 80- درجه سانتی­گراد نگهداری گردید. اولین مرحله در آنالیز توالی رونوشت، استخراج RNA با کیفیت و کمیت مناسب می­باشد. استخراج RNA براساس روش پیشنهادی کیت تجاری بایوزول انجام گرفت. به منظور بررسی کیفیت RNA استخراج شده، الکتروفورز ژل آگارز انجام شد. همچنین برای اطمینان از این که مقادیر یکسانی برای ساخت کتابخانه cDNA مورد استفاده قرار می­گیرند، کمیت RNA استخراج شده توسط دستگاه نانودراپ بررسی شد.

به منظور انجام آزمایش­های توالی­یابی، نمونه RNA­های استخراج شده که دارای RIN>7 (RNA Integrity Number) بودند به کمپانی BGI چین ارسال شد. نمونه­ها به وسیله پلت­فرم BGISEQ-500RS با استفاده از فناوری Single-end با طول قرائت 50 نوکلئوتید طبق دستورالعمل کمپانی BGI توالی­یابی شدند (جدول 1).

ابتدا خوانش­های خام با استفاده از نرم­افزار Fastqc کنترل کیفیت شدند. یکی از مشکلات مرتبط با تجزیه و تحلیل داده های RNAseq اریبی و خطاهای موجود در خوانش های خام است. در همین راستا در مطالعه حاضر به منظور کاهش خطاهای احتمالی موجود در داده­ها، از نرم­افزار Rcorrector (نسخه 0 . 2) استفاده شد. در ادامه بازها و خوانش­های با کیفیت پائین (کمتر از 20) و همچنین آلودگی­های لینکری احتمالی باقیمانده در خوانش­ها با استفاده از نرم­افزار Trimmomatic (نسخه 0.36) حذف شدند. به منظور سرهم­بندی خوانش­های خام از نرم­افزار Trinity که بر پایه استراتژی de Bruijn’s graph می­باشد،  استفاده گردید. انتخاب این نرم­افزار بر اساس صحت بالاتر گزارش شده آن نسبت به سایر نرم­افزارهای موجود در مطالعات قبل بود (Grabherr et al., 2011). جهت سرهم­بندی خوانش­ها و  ایجاد کانتیگ­های با کیفیت بالا دو K-mer مختلف 25 و 32 که در اکثر مطالعات بررسی می­شوند، مورد تجزیه وتحلیل قرار گرفت (Blande et al., 2017). سپس برای ارزیابی کیفیت دو مجموعه کانتیگ بدست آمده توسط دو K-mer بیان شده، از نرم­افزار پیشنهادی BUSCO 2.0.1 (Benchmarking Universal Single-Copy Orthologs) (Waterhouse et al., 2013) و سنجش N50  استفاده شد.

در نرم­افزار BUSCO، نمونه­برداری از صده­ها ژنوم و گروه­های ارتولوگ در بیش از 90% گونه ها انجام شده است و ژن­های ارتولوگ مربوط به شش فیلوژنی اصلی شامل مهره داران، بی­مهرگان، جانوران چند یاخته­ای، قارچ­ها، یوکاریوت­ها و ژن­های نشانگر عمومی برای ارزیابی ژنوم­های پروکاریوتی از طریق پایگاه OrthDB جمع­آوری شده است. بعد از انتخاب مجموعه کانتیگی که بهتر سرهم­بندی شده بود و جهت افزایش بازده سرهم­بندی خوانش­ها، کانتیگ­های دارای بیش از 95 درصد یکسانی که توسط Trinity مجزا در نظر گرفته شده بودند با استفاده از نرم­افزار CAP3  (نسخه لینوکس) مجددا سرهم­بندی شد.

در این تحقیق نرم افزار CAP3 کانتیگ­هایی را که دارای بیش از 95 درصد همولوژی می­باشند به عنوان یک کانتیگ در نظر می­گیرد. در ادامه برای بررسی کیفیت کانتیگ­های ایجاد شده خوانش­های مربوط به هر کدام از 4 نمونه با توالی رونوشت حاصل از سرهم­بندی خوانش­ها به صورت جداگانه با استفاده از نرم­افزار Bowtie2 (نسخه 2 . 3 . 4) همردیف شدند.



 

 

 


 

شکل 1- کیفیت  خوانش­های مربوط به 4 نمونه پس از تصحیح با Rcorrector و انجام پیرایش.


Figure 1- Read qualities of 4 samples after correction and trimming by Rcorrector

 


 

 

در نهایت، همردیفی با ژنوم هویج به عنوان گیاهی هم­خانواده با زیره سبز به منظور تعیین میزان شباهت توالی رونوشت دو گیاه جهت بررسی قابلیت انتقال نشانگر­های عمومی SSR، صورت گرفت.

به منظور بررسی قابلیت کدکنندگی کانتیگ­های ایجاد شده همه توالی­ها توسط نرم­افزار Transdecoder (نسخه 3.0.1) به توالی­های پروتئینی ترجمه شدند. به منظور یافتن همولوگ احتمالی ژن­های شناسایی شده، توالی­های به دست آمده در برابر بانک­های اطلاعاتی nr (بخش پروتئینی) و UniprotKB با نرم­افزار BLASTX بررسی شدند. همچنین توالی­های پروتئینی ترجمه شده توسط Transdecoder نیز در برابر بانک­های اطلاعاتی مذکور BLASTP شدند. مقدار E برای بررسی آماری 5-10 در نظر گرفته شد (Zhang et al., 2015). اطلاعات مربوط به مسیر بیولوژیکی (موجود در بانک اطلاعاتی KEGG) و عبارات ژن آنتولوژی مرتبط با ژن­های همولوگ شناسایی شده از بانک اطلاعاتی UniprotKB استخراج شد. برای بررسی بیشتر توالی­های بدست آمده، این توالی­ها در برابر بانک­ اطلاعاتی Rfam و miRBase نیز با استفاده از نرم­افزار BLASTN بررسی شدند که برای بررسی معنی­داری مقدار E، 5- 10 در نظر گرفته شد. miRBase یک سیستم متمرکز برای اختصاص نام­های جدید به ژن­های miRNA فراهم می­کند(Griffiths-Jones, 2010). همچنین توالی­ها با استفاده از نرم­افزار HMMscan در برابر بانک ­اطلاعاتی Pfam بررسی شدند تا دمین­های احتمالی موجود در توالی­ها شناسایی شود.

 

نتایج و بحث

در مطالعه حاضر با استفاده از روش سرهم­بندی de novo اقدام به شناسایی مرجع توالی رونوشت در گیاه زیره سبز شد که گزارش در این گیاه برای نخستین بار در دنیاست.

نتایج حاصل از بررسی کیفیت و کمیت نمونه­های RNA استخراج شده در شکل (2) نشان داده شده است. در مجموع بیش از 152 میلیون خوانش 50 نوکلئوتیدی ایجاد شد. علیرغم طول کوتاه خوانش­ها، عمق بالای توالی­یابی، دقت سرهم­بندی را افزایش می­دهد. اهمیت مقدار عمق توالی­یابی در بهبود نتایج در مطالعات قبل ثابت شده است (Honaas et al., 2016; Wang and Gribskov, 2017). در فرآیند تصحیح و حذف خوانش­های با کیفیت پایین به ترتیب 289175، 274107، 122858 و 385644 خوانش در نمونه های اول تا چهارم حذف شد (جدول 1).  در نهایت و پس از تریمینگ، بیش از 152680585 خوانش حفظ و برای شناسایی ژن­های بیان شده و ایجاد کانتیگ­ها استفاده شد. براین اساس، دو مجموعه کانتیگ با K-mer 25 و 32 ایجاد شد.

نتایج حاصل از نرم­افزار BUSCO نشان داد، از مجموع 1440 گروه ژنی ارتولوگ جستجو شده که در گیاهان وجود دارد، بترتیب تعداد 993 و 833 گروه به طور کامل در کانتیگ­های حاصله از K-merهای 25 و 32 وجود دارد.

همچنین نتایج حاصل از بررسی کانتیگ­ها نشان داد که میزان N50 در کانتیگ­های ایجاد شده با کاربرد K-mer 25 و 32  به ترتیب 1136 و 1064 است. میانگین طول کانتیگ­ها، مجموع باز­های سرهم­بندی شده و میانگین درصد GC نیز به ترتیب، 725 ، 38476552 و 45/40 برای K-mer 25  و 709، 30606138 و 81/41 برای K-mer 32  بود. با توجه به اینکه کانتیگ­های ایجاد شده توسط K-mer 25 بر اساس معیارهای ذکر شده دارای کیفیت بهتری بود، این کانتیگ­ها به عنوان سرهم­بندی نهایی برای ادامه بررسی­ها انتخاب شدند. در مطالعات سایر محققین، kmer25 به عنوان روش سرهم بندی مناسب شناسایی شد(Aguilera et al., 2017; Chopra et al., 2014). 53 درصد (27897 توالی) طول کانتیگ­های ایجاد شده بین 200 تا 500 نوکلئوتید بود.



 

 

 

 

 

شکل 2- (الف) نشانگر وزنی 1Kb DNA Ladder RTU  و (ب) نوارهای RNA  دارای کیفیت­های متنوع مربوط به استخراج­های مختلف با استفاده از کیت بایوزول روی ژل آگارز جهت تعیین کیفیت و کمیت نمونه­های مورد بررسی.

Figure 2- 1Kb DNA Ladder RTU (a) and RNA bands on agarose gel showing quality and quantity of different extracts using Biozol kit 

 


جدول 1- کمیت خوانش­های به دست­آمده از توالی­یابی RNAseq در زیره سبز و تعداد خوانش­ها قبل و بعد از پیرایش.

Table 1- Quantity of reads from RNAseq experiment in cumin and reads before and after trimming

نمونه (تکرار)

Sample

طول خوانش

Read length

تعداد کل خوانش­ها

Total of reads

تعداد خوانش­های حفظ شده

Survived reads

GC درصد

GC%

1

50 bp

34392871

34422804

40

2

50 bp

48327034

48375158

42

3

50 bp

17261608

17277344

43

4

50 bp

52567159

52605279

41

           


 

 

 

همچنین، 22 درصد (11794 توالی) و 25 درصد (13187 توالی) از توالی­ها به ترتیب طولی بین 500 تا 1000 و 1000 تا 3000 نوکلئوتید داشتند. تنها برای 255 توالی طول بزرگتر یا مساوی 3000 نوکلئوتید مشاهده شد.

در مطالعه­ بر روی توالی رونوشت گونه ای از رز (Pelargonium graveolens)، نیز 92/53 درصد از کانتیگ­ها طول بین bp 500 – 200 داشتند و تنها 24 توالی رونوشت دارای طول بزرگتر از 3000 نوکلئوتید بودند(Narnoliya et al., 2017). همچنین در مطالعه روی توالی رونوشت زیتون بیش از 50 درصد کانتیگ ها در دامنه طول بین  bp 500 – 200 گزارش شد (Martı, 2013). نتایج حاصل از همردیفی هر کدام از چهار نمونه با توالی رونوشت حاصل نشان داد که نمونه­های اول تا چهارم به ترتیب، 51/94، 63/92، 92/70 و 15/94 درصد با توالی رونوشت حاصل از سرهم­بندی De novo خوانش­ها  همردیف شدند. همچنین، در نمونه اول 56/85 درصد از کانتیگ­ها دقیقا یکبار و 95/8 درصد کانتیگ­ها بیش از یک بار با توالی رونوشت De novo خوانش­ها همردیف شد. یکبار یا بیش از یکبار همردیفی کانتیگ­های نمونه­های دوم تا چهارم با توالی رونوشت De novo به ترتیب برابر با 16/82 و 47/10، 83/63 و 09/7، 26/84 و 89/9 درصد بود. خوانش­های مربوط به هر کدام از چهار نمونه مورد بررسی با ژنوم هویج که بعنوان گیاهی هم خانواده با زیره سبز به شمار می آید همردیف شدند. نمونه­های اول تا چهارم، هر کدام به ترتیب 60/10، 05/15، 21/8 و 52/11 درصد با ژنوم هویج همردیفی نشان دادند که بیانگر شباهت کم توالی رونوشت این دو گیاه با یکدیگر می­باشد. در خانواده چتریان تنها چند نشانگرSSR عمومیِ در دسترس وجود دارد که این نشانگر­ها در هویج معرفی شده­اند. در سال 2013 قابلیت انتقال نشانگر­های SSR از هویج به زیره سبز مورد تایید قرار گرفته است (Kumar et al., 2014). نشانگرهای SSR عموماً در محدودة نواحی تکراری Non-coding یا اینترونی قرار دارند (Subramanian et al., 2003) و در مطالعه حاضر، توالی رونوشت یعنی نواحی ژنی مورد بررسی قرار گرفته است و به این ترتیب تناقض بین همخوانی نواحی SSR هویج با زیره و نتایج مطالعه حاضر قابل توجیه است. در عین حال، برخی SSRها در نواحی کدکننده ژنوم قرار دارند که می توان با مطالعات بیشتر نسبت به شناسایی این نواحی در بخش­های همپوشان این دو ژنوم اقدام نمود. در ادامه همه توالی­های ژنی مشاهده شده در برابر بانک­های اطلاعاتی مختلف جستجو شدند تا همولوگ­های احتمالی شناسایی شوند. نتایج حاصل از جستجو در برابر بانک اطلاعاتی پروتئنی Nr با دو روش BLASTP و BLASTX نشان داد که به ترتیب 13561 و 15065 کانتیگ دارای همولوگ معنادار با بیش از 50 درصد یکسانی در این بانک اطلاعاتی می­باشند. همچنین بدون در نظر گرفتن مقدار یکسانی و تنها بر اساس سطح E معنادار (کمتر از 5-10) این مقادیر به ترتیب برای BLASTP و BLASTX برابر با 26782 و 39342 توالی بود. نتایج حاصل از جستجو در برابر بانک اطلاعاتی پروتئینی UniprotKB نیز منجر به شناسایی 21669 و 30103 توالی معنادار با دو روش BLASTP و BLASTX گردید. در کل همولوگ­های شناسایی شده در 773 گونه مختلف مشاهده شد که بیشترین تعداد همولوگ­های شناسایی شده در گیاه مدل Arabidopsis thaliana (با 16959 همولوگ) یافت شد. نتایج حاصل از جستجو در برابر بانک اطلاعاتی miRBase منجر به شناسایی 28 توالی miRNA گردید و حاکی از این بود که توالی­های miRNA در داده­ توالی­های توالی رونوشت قابل شناسایی است. از این بین، 15 توالی با ژن­های موجود در بانک GO همردیف شد. همردیفی توالی­های شناسایی شده به عنوان miRNA با ژن­های کد کننده پروتئین­ها در این بانک اطلاعاتی و همچنین طول بالای این 15 توالی، حاکی از آن است که این توالی­ها نخواهند توانست نماینده مناسبی از توالی­های miRNA باشند و به احتمال بالا می­توان عنوان نمود که شناسایی آن­ها به عنوان miRNA به نوعی مثبت دروغین (False positives) خواهد بود. بنابراین می­توان گفت تعداد 13 توالی miRNA در داده­های حاصل از توالی­یابی رونوشت زیره سبز یافت شد. همچنین نتایج حاصل از جستجو در بانک اطلاعاتی Pfam نشان داد که 21654 توالی، حداقل دارای یک دمین پروتئینی می­باشند.

به منظور ارزیابی بیشتر عملکردی رونوشت­های بیان شده در زیره سبز، اطلاعات مربوط به گروه­های کارکردی (GO) و KEGG توالی­هایی که دارای همولوگ در بانک اطلاعاتی UniprotKB بودند، استخراج و مورد بررسی بیشتر قرار گرفت. هدف بانک اطلاعاتی GO، ایجاد یک منبع اطلاعاتی واحد در راستای افزایش دانش در زمینه نقش ژن­ها و پروتئین­ها در تمام سلول­های یوکاریوتی با استفاده از داده­های تحت کنترل است (Gene et al., 2011). بر این اساس، تعداد 25296 ژن شناسایی شد که دارای حداقل یک عبارت  معنادار متعلق یه یکی از سه گروه فرآیندهای بیولوژیکی، عملکردهای مولکولی و ترکیبات سلولی بودند. طبقه­بندی به سه گروه عملکردی با نتایج سایر مطالعات در این زمینه در توافق است (Peng et al., 2014). براساس نتایج به دست آمده از آزمایش­های GO، گروه ترکیبات سلولی با معنی­داری 77/43 درصد از ژن­های به دست آمده، بزرگ ترین گروه حاوی اطلاعات (Chen et al., 2014) و پس از آن گروه عملکرد­های مولکولی با 92/42 و فرآیند­های بیولوژیک با 14/41 درصد از کل ژن های شناسایی شده بیشترین اطلاعات را دربرگرفتند. عبارات شناسایی شده در نهایت به 48 گروه عملکردی (Tang et al., 2014) طبقه­بندی شدند. در گروه فرآیند­های بیولوژیکی، ژن­های مربوط به تنظیم رونویسی (53/25 درصد)، ترانسپورترها (23/19 درصد)، رشد و توسعه (38/17 درصد) و فرآیند­های سلولی (31/12 درصد) به لحاظ فراوانی بر سایر ژن­ها غالب بودند (شکل 3- الف). در گروه عملکردهای مولکولی، ­ژن­های مربوط به binding (13/54 درصد)، فعالیت­های پروتئینی (07/20 درصد)، فعالیت­های رونویسی (99/9 درصد) و ترانسپورترها (22/8 درصد) بر سایر ژن­ها غالب بودند (شکل 3- ب). همچنین در گروه ترکیبات سلولی سلولی، ­ژن­های مربوط به غشاء سلولی (71/77 درصد)، اجزاء سلول (81/69 درصد) و اجزاء اندامک­ها (20/33 درصد) بر سایر ­ژن­ها غالب بودند (شکل 3- ج). غالب بودن گروه­های اجزاء سلول در گروه ترکیبات سلولی و همچنین binding در گروه عملکردهای مولکولی با نتایج حاصل از سایر مطالعات نیز مشابهت دارند (Tang et al., 2014).

 

طبقه­بندی بر اساس نتایج KEGG

KEGG یک بانک اطلاعاتی یکپارچه و پایه­ای متشکل از 15 پایگاه داده اصلی از قبیل KEGG Gene، KEGG Genome، KEGG Phathway و ... برای تجزیه و تحلیل­های سیستماتیک عملکرد ژن­ها­ در شبکه­های ژنی  می­باشد(Kanehisa et al., 2012). برای بررسی دقیق­تر مسیر­های بیولوژیکی فعال در زیره سبز، 50973 تک­ژن تفسیر شده توسط بلاست به 3492 مسیر فعال بیولوژیکی از طریق پلت­فرم KEGG همردیف شد. این تعداد مسیر به 5 گروه اصلی (فرآیند سلولی، پردازش اطلاعات محیط زیست، پردازش اطلاعات ژنتیکی، متابولیسم و سیستم­های موجود زنده) طبقه­بندی شدند. بر این اساس در ژنوم زیره سبز مسیر درگیر در متابولیسم لیپید­ها با 13% و مسیر رشد و توسعه با 10% دارای بیشترین همردیفی  با پلت­فرم­ KEGG است که به ترتیب مربوط به گروه­های اصلی متابولیسم و سیستم­های موجود زنده می­باشند.

این تفسیر­ها و طبقه بندی­ها بعنوان یک منبع برای بررسی مسیر­های خاص از قبیل مسیر بیوسنتز متابولیت­های ثانویه می­باشند. فلاونوئید جزء متابولیت­های ثانویه دارای وزن مولکولی کم است که در سیتوزول و واکوئل بسیاری از سلول­های گیاهی تولید می­شود و از طریق مهار پراکسیداسیون لیپید­ها، فشار اکسیداتیو را در طی تنش خشکی کاهش می­دهد (Alinian et al., 2016). در همین راستا و براساس طبقه­بندی ژنوم زیره سبز از طریق پلت فرم KEGG مشخص شد که بیوسنتز فلاونوئید­ها در گیاه زیره سبز در غشاء واکوئل صورت می­گیرد و از طریق نقل و انتقال غشایی به تنش­ خشکی موجود در محیط پاسخ می­دهد.

 

نتیجه­گیری

بررسی­ها نشان داده است کشور ایران در زمینه گیاه دارویی زیره­سبز دارای مزیت نسبی صادراتی بالایی است. به علاوه، زیره سبز یکی از گیاهانی است که نیاز آبی کمی دارد و در نتیجه برای کشت در مناطق کم­آب بسیار مساعد است (Najafi and Hasani, 2009).

 


 

 

 

 

الف

 

ب

 

ج

 

شکل 3- نمودار دایره­ای سه گروه عمده بدست آمده از طریق بانک اطلاعاتی GO. الف) فرآیند­های بیولوژیکی. ب) عملکرد­های مولکولی. ج) ترکیبات سلولی.

Figure 3- Pie diagram of three major clusters obtained from GO database. Biological process (a), molecular function (b) and cellular components (c)


 

 

شکل 4- فراوانی مسیر­های متابولیسم ترکیبات حاصل از پلت­فرم KEGG.

Figure 4- Metabolic pathway frequencies of compounds obtained from KEGG platform.

 

 

 

لذا، از طریق کاربرد تکنیک­هایی چون RNA-Seq توان بالقوه محققین در زمینه شناسایی مسیرهای بیوسننتزی ترکیبات ثانویه و نیز شناسایی و افزایش در میزان بیان ژن­های هدف به منظور افزایش مقاومت به تنش­هایی نظیر خشکی، از طریق کاربرد تکنیک­های مهندسی ژنتیک افزایش خواهد یافت. بنابراین گام اول در بهبود مقاومت گیاه به انواع تنش­ها و افزایش میزان بیان ژن­های درگیر در مسیرهای بیوسنتزی انواع ترکیبات ثانویه، نقشه­یابی رونوشت خواهد بود. لذا، در این تحقیق با استفاده از تکنیک RNA-Seq کلیه اطلاعات مربوط به ژنوم و عملکردهای بیولوژیکی ژن­های زیره سبز شناسایی و پس از انجام آزمایش­های تکمیلی در انواع دست­ورزی­های ژنتیکی مورد هدف قرار خواهدگرفت.

 

سپاسگزاری

از حمایت مالی پارک علم و فناوری و پژوهشکده فناوری­های همگرای دانشگاه تهران از این تحقیق قدردانی می­گردد.


منابع

Aguilera PM, Debat HJ, Grabiele M (2017). Dataset of the transcribed 45S ribosomal RNA sequence of the tree crop “yerba mate.” Data Breeds 12: 649–651.

Alinian S, Razmjoo J, Zeinali H (2016). Flavonoids , anthocynins , phenolics and essential oil produced in cumin ( Cuminum cyminum L .) accessions under different irrigation regimes. Ind. Crops Production 81: 49–55.

Barabaschi D, Tondelli A, Desiderio F, Volante A, Vaccino P, Valè G, Cattivelli L (2015). Next generation breeding. Plant Sciences 242: 3–13.

Bettaieb Rebey I, Jabri-Karoui I, Hamrouni-Sellami I, Bourgou S, Limam F, Marzouk B (2012). Effect of drought on the biochemical composition and antioxidant activities of cumin (Cuminum cyminum L.) seeds. Ind. Crops Production 36: 238–245.

Blande D, Halimaa P, Tervahauta A.I, Aarts M.G.M (2017). Data Descriptor : De novo transcriptome assemblies of four accessions of the metal hyperaccumulator plant Noccaea caerulescens. Scientific Data 76: 1–9.

Chen J, Hou K, Qin P, Liu H, Yi B, Yang W, Wu W. (2014). RNA-Seq for gene identification and transcript profiling of three Stevia rebaudiana genotypes. BMC Genomics 46: 1–11.

Chopra R, Burow G, Farmer A, Mudge J, Simpson C.E, Burow M.D (2014). Comparisons of de novo transcriptome assemblers in diploid and polyploid species using peanut (Arachis spp.) RNA-Seq data. PLoS One 9: 1–16.

Drew D.P, Dueholm B, Weitzel C, Zhang Y, Sensen C.W, Simonsen H.T (2013). Transcriptome analysis of Thapsia laciniata rouy provides insights into terpenoid biosynthesis and diversity in apiaceae. International Journal of Molecular Sciences 14: 9080–9098.

Fu N, Wang Q, Shen H.L (2013). De Novo Assembly, Gene Annotation and Marker Development Using Illumina Paired-End Transcriptome Sequences in Celery (Apium graveolens L.). PLoS One 8: 1-12.

Gene T, Consortium O, Ashburner M, Ball C.A, Blake J.A, Botstein D, Butler H, Cherry J.M, Davis A.P, Dolinski K, Dwight S.S, Eppig J.T, Harris M.A, Hill D.P, Issel-tarver L, Kasarskis A, Lewis S, Matese J.C, Richardson J.E, Rubin G.M, Sherlock G (2011). Gene Ontology : tool for the unification of biology. Nat Genet 25: 25–29.

Ghanadnia M, Hadad R, Zarrinkob F, Sharifi M (2011). Different expression of limonine synthase gene in the organs and developmental stages of Cuminum cyminum L. Iranian Journal of Medicinal and Aromatic Plants 27: 495–508.

Grabherr M.G, Haas B.J, Yassour M, Levin J.Z, Thompson D.A, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, Palma F, Birren B.W, Nusbaum C, Lindblad-toh K, Friedman N, Regev A (2011). Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology 29: 644-654.

Griffiths-Jones S, (2010). MiRBase: MicroRNA sequences and annotation. Current Protocols in Bioinformatics 34: 1291–12910.

Guenther E (1948). The Essential oils. Van Nostrand Company Inc., New York.

Honaas L.A, Wafula E.K, Wickett N.J, Der J.P, Zhang Y, Edger P.P, Altman N.S, Chris Pires J, Leebens-Mack J.H, DePamphilis C.W (2016). Selecting superior de novo transcriptome assemblies: Lessons learned by leveraging the best plant genome. PLoS One 11: 1–42.

Hua W, Zheng P, He Y, Cui L, Kong W, Wang Z (2014). An insight into the genes involved in secoiridoid biosynthesis in Gentiana macrophylla by RNA-seq. Molecular Biology Reports 41: 4817–4825.

Kafi M (2006). Cumin (Cuminum Cyminum): production and processing, Science Publications.

Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M (2012). KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Research 40: 109–114.

Kumar S, Asamadi M.H, Fougat R.S, Sakure A.A, Mistry J.G (2014). Transferability of carrot ( Daucus carota ) microsatellite markers to cumin ( Cuminum cyminum ). International Journal of Seed Spices 4: 88–90.

Mahmoud S.S, Williams M, Croteau R (2004). Cosuppression of limonene-3-hydroxylase in peppermint promotes accumulation of limonene in the essential oil. Phytochemistry 65: 547–554.

Marguerat S, Bähler J (2010). RNA-seq : from technology to biology. Cellular and Molecular Life Sciences 67:569-579

Martı M.A (2013). De Novo Assembly and Functional Annotation of the Olive ( Olea europaea ) Transcriptome. DNA Research 24: 93–108.

Najafi H, Hasani Y (2009). Evaluating the relative advantage of producing, exporting and identifying target markets for cumin. Journal of Agricultural  Economics Researches 1: 101–122.

Narnoliya L.K, Kaushal G, Singh S.P, Sangwan R.S (2017). De novo transcriptome analysis of rose-scented geranium provides insights into the metabolic specificity of terpene and tartaric acid biosynthesis. BMC Genomics 18: 74-83.

Peng Y, Gao X, Li R, Cao G (2014). Transcriptome sequencing and de novo analysis of Youngia japonica using the illumina platform. PLoS One 9: 1–10.

Song L, Florea L (2015). Rcorrector : efficient and accurate error correction for Illumina RNA-seq reads. Gigascience 56: 1–8.

Sowbhagya H.B (2013). R. Critical Reviews in Food Science and Nutrition 53: 1–10.

Subramanian S, Mishra R.K, Singh L (2003). Genome-wide analysis of microsatellite repeats in humans: their abundance and density in specific genomic regions. Genome Biology 4: 9-13.

Taghavi M, Eiman-Khan N (2005). Evaluation of the effect of macroeconomic variables on Iran’s medicinal plants exports. TA Journal 5: 17–36.

Tang X, Xiao Y, Lv T, Wang F, Zhu Q.H, Zheng T, Yang J (2014). High-throughput sequencing and de novo assembly of the Isatis indigotica transcriptome. PLoS One 9: 1-8.

Thippeswamy N.B, Naidu K.A (2005). Antioxidant potency of cumin varieties-cumin, black cumin and bitter cumin-on antioxidant systems. European Food Research and Technology 220: 472–476.

Vlk D, ŘEPKOVÁ J (2017). Application of Next-Generation Sequencing in Plant Breeding. Czech Journal of Genetics Plant Breeding 53:76-84.

Wang S, Gribskov M (2017). Comprehensive evaluation of de novo transcriptome assembly programs and their effects on differential gene expression analysis. Bioinformatics 33: 327–333.

Waterhouse R.M, Tegenfeldt F, Li J, Zdobnov E.M, Kriventseva E.V (2013). OrthoDB : a hierarchical catalog of animal , fungal and bacterial orthologs. Nucleic Acids Research 41: 358–365.

Yong H, Zou Z, Kok E, Kwan B, Chow K, Nasu S, Nanzyo M, Kitashiba H, Nishio T (2014). Comparative Transcriptome Analysis of Leaves and Roots in Response to Sudden Increase in Salinity in Brassica napus by RNA-seq. Biomed Research International 42 : 1-20

Zhang W, Wei X, Meng H.L, Ma C.H, Jiang N.H, Zhang G.H, Yang S.C (2015). Transcriptomic comparison of the self-pollinated and cross-pollinated flowers of Erigeron breviscapus to analyze candidate self-incompatibility-associated genes. BMC Plant Biology 15: 248-257.


 

Transcriptome analysis of cumin (Cuminum cyminum L.) using RNA-Seq

 

Sadeghi D.1, Mortazavian S.M.M.* 2, Bakhtyari Zadeh M.R.3

 

1 M.Sc student of Plant Breeding, College of Aburaihan, University of Tehran, Tehran, Iran.

2 Associate Professor of Plant Breeding, College of Aburaihan, University of Tehran, Tehran, Iran.

3 Assistant Professor of Animal Science, College of Aburaihan, University of Tehran, Tehran, Iran.

 

Abstract

Cumin (Cuminum cyminum L.) is a flowering plant from Apiaceae family and native to the East Mediterranean to India. The main component of essential oil in cumin seeds is cumin aldehyde (63% of total oil). Despite the importance of the cumin derivative drugs little information is available on the genome and the molecular mechanisms involved in metabolic pathway of this plant. Transcriptomic studies have greatly contributed to better understand in metabolic pathways of medicinal plants. At the moment, the use of next-generation sequencing techniques, especially RNA-seq technique were considered as the suitable promising and most accurate methods of transcriptomic evaluation. In the present study, we report cumin transcriptome for the first time. Flower tissue was used to extract RNA from four samples for RNA-seq analysis. According to the results, more than 153000000 reads with length of 50 NT were achieved. Trinity software, using 25 and 32 K-mers, was used to assemble the reads. Selection of the best assembly was followed using BUSCO software based on the integer transcript sequences. After assembly of reads, 50973 genes with an average length of 725 NT and N50 value of 1136 NT were obtained. Moreover, 53103 transcripts were identified from all genes. From this number, 35860 transcripts had at least one homologous in Nr database. More than 66.7% of all transcripts had at least one homologous in GO database (biological process, molecular function, cellular compound). Most of the genes were related to transcriptional regulation and membrane activities. In the present study, the first transcriptome profile is reported in cumin which data can be used in subsequent studies to assess expression of genes and other genetic studies in this plant.

Keywords: Cumin, Gene transcript, Medicinal plant, Next generation sequencing.

 

 



* نویسنده مسئول: سید محمد مهدی مرتضویان               تلفن:  09126788738 Email: Mortazavian@ut.ac.ir                                   

[1] Next Generation Sequencing

 

* Corresponding Author: Mortazavian. S.M.M.                Tel+: 09126788738          Email: Mortazavian@ut.ac.ir                           

 

 
Aguilera PM, Debat HJ, Grabiele M (2017). Dataset of the transcribed 45S ribosomal RNA sequence of the tree crop “yerba mate.” Data Breeds 12: 649–651.
Alinian S, Razmjoo J, Zeinali H (2016). Flavonoids , anthocynins , phenolics and essential oil produced in cumin ( Cuminum cyminum L .) accessions under different irrigation regimes. Ind. Crops Production 81: 49–55.
Barabaschi D, Tondelli A, Desiderio F, Volante A, Vaccino P, Valè G, Cattivelli L (2015). Next generation breeding. Plant Sciences 242: 3–13.
Bettaieb Rebey I, Jabri-Karoui I, Hamrouni-Sellami I, Bourgou S, Limam F, Marzouk B (2012). Effect of drought on the biochemical composition and antioxidant activities of cumin (Cuminum cyminum L.) seeds. Ind. Crops Production 36: 238–245.
Blande D, Halimaa P, Tervahauta A.I, Aarts M.G.M (2017). Data Descriptor : De novo transcriptome assemblies of four accessions of the metal hyperaccumulator plant Noccaea caerulescens. Scientific Data 76: 1–9.
Chen J, Hou K, Qin P, Liu H, Yi B, Yang W, Wu W. (2014). RNA-Seq for gene identification and transcript profiling of three Stevia rebaudiana genotypes. BMC Genomics 46: 1–11.
Chopra R, Burow G, Farmer A, Mudge J, Simpson C.E, Burow M.D (2014). Comparisons of de novo transcriptome assemblers in diploid and polyploid species using peanut (Arachis spp.) RNA-Seq data. PLoS One 9: 1–16.
Drew D.P, Dueholm B, Weitzel C, Zhang Y, Sensen C.W, Simonsen H.T (2013). Transcriptome analysis of Thapsia laciniata rouy provides insights into terpenoid biosynthesis and diversity in apiaceae. International Journal of Molecular Sciences 14: 9080–9098.
Fu N, Wang Q, Shen H.L (2013). De Novo Assembly, Gene Annotation and Marker Development Using Illumina Paired-End Transcriptome Sequences in Celery (Apium graveolens L.). PLoS One 8: 1-12.
Gene T, Consortium O, Ashburner M, Ball C.A, Blake J.A, Botstein D, Butler H, Cherry J.M, Davis A.P, Dolinski K, Dwight S.S, Eppig J.T, Harris M.A, Hill D.P, Issel-tarver L, Kasarskis A, Lewis S, Matese J.C, Richardson J.E, Rubin G.M, Sherlock G (2011). Gene Ontology : tool for the unification of biology. Nat Genet 25: 25–29.
Ghanadnia M, Hadad R, Zarrinkob F, Sharifi M (2011). Different expression of limonine synthase gene in the organs and developmental stages of Cuminum cyminum L. Iranian Journal of Medicinal and Aromatic Plants 27: 495–508.
Grabherr M.G, Haas B.J, Yassour M, Levin J.Z, Thompson D.A, Amit I, Adiconis X, Fan L, Raychowdhury R, Zeng Q, Chen Z, Mauceli E, Hacohen N, Gnirke A, Rhind N, Palma F, Birren B.W, Nusbaum C, Lindblad-toh K, Friedman N, Regev A (2011). Full-length transcriptome assembly from RNA-Seq data without a reference genome. Nature Biotechnology 29: 644-654.
Griffiths-Jones S, (2010). MiRBase: MicroRNA sequences and annotation. Current Protocols in Bioinformatics 34: 1291–12910.
Guenther E (1948). The Essential oils. Van Nostrand Company Inc., New York.
Honaas L.A, Wafula E.K, Wickett N.J, Der J.P, Zhang Y, Edger P.P, Altman N.S, Chris Pires J, Leebens-Mack J.H, DePamphilis C.W (2016). Selecting superior de novo transcriptome assemblies: Lessons learned by leveraging the best plant genome. PLoS One 11: 1–42.
Hua W, Zheng P, He Y, Cui L, Kong W, Wang Z (2014). An insight into the genes involved in secoiridoid biosynthesis in Gentiana macrophylla by RNA-seq. Molecular Biology Reports 41: 4817–4825.
Kafi M (2006). Cumin (Cuminum Cyminum): production and processing, Science Publications.
Kanehisa M, Goto S, Sato Y, Furumichi M, Tanabe M (2012). KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Research 40: 109–114.
Kumar S, Asamadi M.H, Fougat R.S, Sakure A.A, Mistry J.G (2014). Transferability of carrot ( Daucus carota ) microsatellite markers to cumin ( Cuminum cyminum ). International Journal of Seed Spices 4: 88–90.
Mahmoud S.S, Williams M, Croteau R (2004). Cosuppression of limonene-3-hydroxylase in peppermint promotes accumulation of limonene in the essential oil. Phytochemistry 65: 547–554.
Marguerat S, Bähler J (2010). RNA-seq : from technology to biology. Cellular and Molecular Life Sciences 67:569-579
Martı M.A (2013). De Novo Assembly and Functional Annotation of the Olive ( Olea europaea ) Transcriptome. DNA Research 24: 93–108.
Najafi H, Hasani Y (2009). Evaluating the relative advantage of producing, exporting and identifying target markets for cumin. Journal of Agricultural  Economics Researches 1: 101–122.
Narnoliya L.K, Kaushal G, Singh S.P, Sangwan R.S (2017). De novo transcriptome analysis of rose-scented geranium provides insights into the metabolic specificity of terpene and tartaric acid biosynthesis. BMC Genomics 18: 74-83.
Peng Y, Gao X, Li R, Cao G (2014). Transcriptome sequencing and de novo analysis of Youngia japonica using the illumina platform. PLoS One 9: 1–10.
Song L, Florea L (2015). Rcorrector : efficient and accurate error correction for Illumina RNA-seq reads. Gigascience 56: 1–8.
Sowbhagya H.B (2013). R. Critical Reviews in Food Science and Nutrition 53: 1–10.
Subramanian S, Mishra R.K, Singh L (2003). Genome-wide analysis of microsatellite repeats in humans: their abundance and density in specific genomic regions. Genome Biology 4: 9-13.
Taghavi M, Eiman-Khan N (2005). Evaluation of the effect of macroeconomic variables on Iran’s medicinal plants exports. TA Journal 5: 17–36.
Tang X, Xiao Y, Lv T, Wang F, Zhu Q.H, Zheng T, Yang J (2014). High-throughput sequencing and de novo assembly of the Isatis indigotica transcriptome. PLoS One 9: 1-8.
Thippeswamy N.B, Naidu K.A (2005). Antioxidant potency of cumin varieties-cumin, black cumin and bitter cumin-on antioxidant systems. European Food Research and Technology 220: 472–476.
Vlk D, ŘEPKOVÁ J (2017). Application of Next-Generation Sequencing in Plant Breeding. Czech Journal of Genetics Plant Breeding 53:76-84.
Wang S, Gribskov M (2017). Comprehensive evaluation of de novo transcriptome assembly programs and their effects on differential gene expression analysis. Bioinformatics 33: 327–333.
Waterhouse R.M, Tegenfeldt F, Li J, Zdobnov E.M, Kriventseva E.V (2013). OrthoDB : a hierarchical catalog of animal , fungal and bacterial orthologs. Nucleic Acids Research 41: 358–365.
Yong H, Zou Z, Kok E, Kwan B, Chow K, Nasu S, Nanzyo M, Kitashiba H, Nishio T (2014). Comparative Transcriptome Analysis of Leaves and Roots in Response to Sudden Increase in Salinity in Brassica napus by RNA-seq. Biomed Research International 42 : 1-20
Zhang W, Wei X, Meng H.L, Ma C.H, Jiang N.H, Zhang G.H, Yang S.C (2015). Transcriptomic comparison of the self-pollinated and cross-pollinated flowers of Erigeron breviscapus to analyze candidate self-incompatibility-associated genes. BMC Plant Biology 15: 248-257.