Blact dasturida aminokislotalar ketma ketligini taqqoslash. Vatranslyantlarning olinishi


BLAST nukleotidlarining ketma-ketligi dasturi



Yüklə 30,02 Kb.
səhifə3/3
tarix03.10.2023
ölçüsü30,02 Kb.
#151658
1   2   3
Blast boyicha

BLAST nukleotidlarining ketma-ketligi dasturi
Belgilanmaganga o'xshash oqsillarni kodlovchi genlarning aniqlanmagan genomlarini qidiring
E. coli GlmS ga o'xshash oqsillarni kodlovchi genlarni qidirish amalga oshirildi. Qidiruv quyidagi organizmlarning aniqlanmagan genomlari bo'yicha olib borildi: Pseudomonas aeruginosa, Pasteurella multocida va Vibrio vabo. NCBI Entrez taksonomiyasining ma'lumotlariga ko'ra, bu organizmlarning barchasi E. colining juda yaqin qarindoshlari bo'lib, ular bir xil Gammaproteobakteriyalar sinfiga kiradi.
Formatb dasturi yordamida qidiruvni amalga oshirishdan oldin har bir genom uchun indeksli fayllar, shuningdek uchta genom uchun indeksli fayllar alohida yaratildi. Ikkala holatda ham dastur nhr, nin va nsq kengaytmali uchta faylni yaratdi. Nsq kengaytmali fayl (nukleotidlar ketma-ketligi) 4 marta siqilgan nukleotidlar ketma-ketligi to'g'risidagi ma'lumotlarni o'z ichiga oladi. Ushbu fayl boshqa ikkalasiga qaraganda ancha katta. Nhr va ninali fayllar (nukleotid indekslari) yordamchi bo'lib, mos ravishda to'liq genomni tashkil etuvchi yozuvlar sarlavhalarini va indekslarning ro'yxatini o'z ichiga oladi (formatdb dasturi uchun hujjatlarni ko'ring).
Qidiruvni amalga oshirish uchun BLAST to'plamidagi TBLASTN dasturidan foydalanildi, u oltita freymdagi tarjima mahsuloti kirish oqsillari ketma-ketligiga o'xshash nukleotidlar ketma-ketliklarini aniqlash uchun ishlab chiqilgan. Elektron qiymatning chegaraviy qiymati 0,01 ga teng tanlangan. Qidiruv natijalari jadvalda keltirilgan.
Nukleotidning ketma-ketligini taqqoslaganda (2) formula bilan aniqlanadi. Uzunligi m o'rganilgan ketma-ketlikni ko'plab ma'lumotlar bazalari ketma-ketligi bilan taqqoslash ikki nuqtaga asoslanishi mumkin. Birinchi nuqta, ma'lumotlar bazasining barcha ketma-ketliklari o'rganilayotganga o'xshashdir. Bu ma'lumotlar bazasida mavjud bo'lgan qisqa ketma-ketlik bilan hizalanish uchun E qiymatini uzun ketma-ketlik bilan tekislash uchun E qiymatiga tenglashtirish kerakligini anglatadi. Ma'lumotlar bazasidan E qiymatini hisoblash uchun olingan E qiymatini undagi ketma-ketliklar soniga juft-juft taqqoslash orqali ko'paytirish kerak. Ikkinchi nuqta, o'rganilgan ketma-ketlik uzoq ketma-ketliklarga qaraganda qisqaroqroqqa o'xshaydi, chunki ikkinchisi ko'pincha turli qismlardan iborat (ko'p oqsillar domenlardan iborat). Agar o'xshashlik ehtimolligi ketma-ketlik uzunligiga mutanosib deb hisoblasak, n uzunlikdagi ma'lumotlar bazasi uchun E ning juft qiymatini N / n ga ko'paytirish kerak, bu erda N - bazadagi aminokislotalar yoki nukleotidlarning umumiy uzunligi. BLAST dasturlari asosan ushbu yondashuvdan ma'lumotlar bazasidan E qiymatlarini hisoblashda foydalanadilar.
Nazariy jihatdan, mahalliy hizalanish har qanday nukleotid yoki aminokislotalarning hizalanadigan ketma-ketligidan boshlanishi mumkin. Biroq, GES, qoida tariqasida, ketma-ketlikning chetiga (boshiga yoki oxiriga) yaqin boshlamaydi. Bunday chekka effektni tuzatish uchun ketma-ketlikning samarali uzunligini hisoblash kerak. 200 dan ortiq qoldiq bo'lsa, chekka effekti neytrallanadi.
BLASTN AC-ni chiqarishda bu yozuv AE004967. AE004967 yozuvi 2006 yil 12 iyulda AE004091 bilan almashtirildi. Shubhasiz, P. aeruginosa genom yozuvlari EMBL-ning oldingi versiyalaridan olingan. EMBL-ning SRS-qidiruvi EMBL-ning 87-versiyasida AE004967-ni topdi. CDS koordinata qiymatlari topilgan yozuvdan olinadi.

Query: 1460 tgaaagagatctcttacattcacgctgaagcctacgctgctggcgaactgaaacacggtc 1519


||||||||||||||||||| ||||| |||||||| || || ||||| || || || || |
Sbjct: 4535 tgaaagagatctcttacatccacgcagaagcctatgcagcgggcgagctaaagcatggcc 4594
Query: 1520 cgctggcgctaattgatgccgatatgccggttattgttgttgcaccgaacaacgaattgc 1579
| ||||| |||||||||| |||||||| || |||| |||||||| | ||| ||| ||
Sbjct: 4595 cattggcgttaattgatgcggatatgccagtggttgtggttgcaccaagcaatgaactgt 4654
Query: 1580 tggaaaaactgaaatccaacattgaagaagttcgcgcgcg 1619
| ||||| || |||||||| ||||||||||| || |||||
Sbjct: 4655 tagaaaagcttaaatccaatattgaagaagtgcgtgcgcg 4694

Query: 889 cagatcctcgcctgtggtacttcttataactccggtatggtttcccgctactggtttgaa 948


|||||| ||||||| |||||||||||||| | || ||| | || ||||||||||||
Sbjct: 3961 cagatcgtcgcctgcggtacttcttataatgcagggatgacggcacgttactggtttgaa 4020
Query: 949 tcgctagcaggtattccgtgcgacgtcgaaatcgcctctgaattccgctatcgcaaat 1006
||| |||| ||| | || || ||||||||||| ||||||||||||||||||||||
Sbjct: 4021 tcgttagcgggtgtgagctgtgatgtcgaaatcgcgtctgaattccgctatcgcaaat 4078

Query: 1754 cttaccatgtcgcgctgatcaaaggcaccgacgttgaccagccgcgtaacctggcaaaat 1813


|||||||||| || | |||||||| ||||| ||||||||||| |||||||| || |||
Sbjct: 4829 cttaccatgtggctttaatcaaaggtaccgatgttgaccagcctcgtaaccttgctaaag 4888
Query: 1814 cggttacggttgagtaa 1830
|||| || || ||||||
Sbjct: 4889 cggtaactgtcgagtaa 4905

Query: 1123 tgtaacgttccgggttcttctctggtgcgcgaatc 1157


||||||||| ||||||||||||| ||||| |||||
Sbjct: 4195 tgtaacgttgcgggttcttctctcgtgcgtgaatc 4229

Query: 285 ggtggtgcataacggcatcatcgaaaaccatgaaccgctgcgt 327


|||||| || |||||||| ||||||||||||||| |||||||
Sbjct: 3357 ggtggtacacaacggcattatcgaaaaccatgaaatgctgcgt 3399

Query: 1 atgtgtggaattgttggcgcgatcgcgcaacgtgatgtagcagaaatccttcttgaaggt 60


||||||||||||||||| ||| | || ||||| ||||| || ||||| | | ||||
Sbjct: 3073 atgtgtggaattgttggtgcggttgcacaacgcgatgttgctgaaattttagtacaaggc 3132
Query: 61 ttacgtcgtctggaataccgcggatatgactctgc 95
|||| ||||| ||||||||||| |||||||||||
Sbjct: 3133 ctacgccgtcttgaataccgcggctatgactctgc 3167

2. BLASTN dasturining ixtisosligi E. coli glmS geniga etkazish xususiyatlarining natijalari


Pseudomonas aeruginosa, Pasteurella multocida va Vibrio xolera genomlari bo'yicha. hakl 1. E. coli glmS genlar ketma-ketligi va E. coli GlmS ortologini kodlovchi V. vabera genlari ketma-ketligi bo'yicha mintaqalarni tekislash. Tizimlar BLASTN dasturi tomonidan qurilgan.
Genlarning to'liq bo'linishini bir necha qismlarga bo'lishining sababi bu genetik kodning nasli. Ko'pgina aminokislotalar qoldiqlari uchun kodonning uchinchi pozitsiyasi ahamiyatga ega emas (ya'ni har xil uchinchi pozitsiyaga ega kodonlar odatda bir xil aminokislotani kodlaydi). Shunday qilib, genning deyarli har uchinchi nukleotidi selektsiya bosimi bilan topilmaydi. Bu, uchinchi bir-biriga yaqin bo'lgan organizmlar (E. coli va V. chorarae) genlarining ayrim qismlarining har uchinchi qoldiq uchun farq qilishi mumkinligiga olib keladi, bu ham rasmda ko'rsatilgan izalanishlar bilan tasdiqlanadi.
Agar kamida har uchinchi kodonning uchinchi nukleotidi homolog genlar ketma-ketligining etarlicha uzun qismida farq qiladigan bo'lsa, unda BLASTN dasturi ushbu bo'limlarning hizalanishini qura olmaydi (mutlaqo bir xil bo'lgan ketma-ketliklarning minimal uzunligi - armatura uzunligi - kamida 11 np) bo'lishi kerak. Shuning uchun BLASTN ba'zi genlar ketma-ketliklari o'rtasidagi o'xshashlikni aniqlay olmaydi va to'liq hizalanish qisqa qismlarga bo'linadi. Bundan tashqari, juda qisqa bo'laklarning hizalanishining elektron qiymati chegaraviy qiymatdan oshib ketishi mumkin, bu dasturning chiqishida bunday hizalanish yo'qligiga olib keladi.
Eng yaxshi BLASTN topilmalarining elektron qiymati eng yaxshi TBLASTN topilgan ma'lumotlarning elektron qiymatidan ancha yuqori (V. xolerae genomida, mos ravishda 9x10-17 va 0). Buning uchta sababi bo'lishi mumkin: bankning kattalashishi (har bir aminokislota uch n.p. bilan kodlangan), hizalanish uzunligining pasayishi va nukleotidlarning aminokislotalarga nisbatan besh baravar kamligi. 0,01 ostonasida, BLASTN har bir genomdan E. coli GlmS ortologlarining genlarini aniqlashga imkon berdi, ammo TBLASTN dan farqli o'laroq, E. coli GlmS paraloglari aniqlanmadi (E. coli glmS genlarining ketma-ketligi va 21 sekundli EMBL AE004776 ro'yxatga olish bo'limining aniqlangan qismi aniqlandi). .p. tasodifiy nukleotid tasodifining natijasi bo'lishi mumkin).
Shunday qilib, BLASTN dasturi TBLASTN-ga qaraganda kamroq sezgir qidiruv vositasi bo'lib, kirish ketma-ketligi mahsulotining eng yaqin ortologlarini kodlash uchun faqat genlarni aniqlashga imkon beradi. Shu munosabat bilan, TBLASTN dasturi ma'lum bir genning homologlarini qidirish yoki yangi genlarni izohlash uchun ko'proq mos keladi.
Yüklə 30,02 Kb.

Dostları ilə paylaş:
1   2   3




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin