Genomni kartalashtirish

Genomning o‘zgaruvchanligi va tartiblash xatolari

Yüklə 63,5 Kb.

səhifə	3/3
tarix	06.04.2023
ölçüsü	63,5 Kb.
	#93985

1 2 3

GENOMNI KARTALASHTIRISH

Qo‘shimchalar yordamida yondashish asoslari.

Genomning o‘zgaruvchanligi va tartiblash xatolari. Genomni haritalash ishlarida asosiy muammo shundaki, har qanday o‘rganilayotgan genomda o‘zgaruvchanlik mavjud bo‘lib, SNP ketmaketliklari va indellar orqali aniqlanadi, ushbu ketma-ketliklar albatta tartiblash xatolari tufayli farq qiladi. SHu sababli, genomni o‘qishda va uning "to‘g‘ri" holatda algoritm yozuvlarini hosil qilishda, genom har qanday joyida ko‘proq farqlar bo‘lishi kuzatiladi va haritalash dasturlarida noto‘g‘ri joylarni topish kerak bo‘ladi. Bu maqsadda turli xil yondoshuvlar qo‘llaniladi. Bunday tajribalarda RNK-seq usullari qo‘llanilganda, natijalar bilan ishlash muammo yanada murakkablashadi. Ketma-ketliklarni aniqlash va o‘qish ishlarini takroriy o‘tkazish natijasida qo‘shimcha xatolar kelib chiqishi mumkin. Bunday holatlarda, ketma-ketliklarning haritalashda joyini aniqlash imkoni bo‘lmaydi va ketma-ketliklarning tasodifiy joyini aniqlash yoki bir necha qismda joyini belgilash mumkin bo‘ladi.
Hisoblash muammosi. Genom ketma-ketliklarin milliardlab nusxada hosil qilinsa, haritalash vaqti jiddiy muammo bo‘lishi mumkin. Alignment har doim juda katta resurs talab qiladi, lekin bunday hollarda asosiy muammolardan biri protsessor vaqt va xotira uchun juda oqilona va samarali algoritmlarni ishlatishni talab qiladi. Yondashuvlar. Bu muammolarni hal qilishda ikki asosiy yondashuv mavjud: xesh-jadvallardan va suffiks shajaralaridan foydalanish mumkin.
Hashing yondashuv asoslari. Aralash ketma-ketliklarni qidiruv jarayoni Smit-Waterman algoritmi asosida dinamik dasturlash yordamida klassik algoritmlarga nisbatan ko‘p marta tezroq va iqtisoiy tejamkor usulardan biridir.
Bu yondashuvda tez qidirish uchun Hash funksiyasidan foydalanadi. Eng oson yo‘li ketma-ketliklar uzunligidagi mos nukleotidlarga qarab bo‘linadi, lekin bu yondashuv ishlamaydi, uzoq so‘zlar noyob bo‘lishi ehtimoli ko‘proq va ularning saqlash xotirasida juda ko‘p joy egallaydi. Buning o‘rniga, ular ancha keng tarqalgan qisqa va aralash ketma-ketliklardan foydalanish kerak. Hash funksiyasi tegishli o‘rinlarni olish uchun ishlatiladi. O‘qishni bir necha qismga bo‘lib yondashish algoritmda almashtirishlar imkoniyatini beradi. Demak, MAC dasturida ketma-ketliklar 4 qismga bo‘linadi. Agar olingan ketma-ketliklar bo‘yicha mukammal mos bo‘lsa, unda barcha 4 hil nukleotidlar mos keladi. Ehtimol SNP yoki tartiblash xatolarining mavjudligi tufayli paydo bo‘lgan ketma-ketliklarda bitta almashtirish mavjud bo‘lsa, u holda u nukleotidlardan biriga mos keladi, demak boshqa 3 hali ham mukammal mos kelmagan. Xuddi shunday, tiklash dasturlaridan LED mukammal hisoblanadi. SOAP, RMAP va SeqMAP shunga o‘xshash tarzda ishlaydi.
Hisoblash ishlarida bunday yondashuvlarning qo‘llanilishi bir o‘zgartirish orqali o‘qish barcha chora-tadbirlarini ko‘rib chiqish imkoni hisoblanadi. Masalan: ACGTni o‘qish uchun ulardan 3tasi bo‘lishi kerak: AC, CG, GT.
Bu ma‘lumotlar xotirada ko‘p joy egallaydi, ishlatilayotgan xotira miqdorini kamaytirish uchun, dasturlarda nukleotidlarning bitta kodidan foydalanish (A 00, C 01, G 10, T 11) taklif etiladi, lekin bunday o‘qishlar va ketma-ketliklar genom uchun mavjud bo‘lishi mumkin noaniq ketma-ketlik ma‘lumotlarini o‘rganishda ko‘p xatoliklarga olib keladi.
Turli algoritmlardan xisoblash ishlarini tezlashtirish va xatolarni oldini olish uchun foydalanish mumkin. Masalan, ketma-ketliklarning joylashgan joyini aniqlash ishlarida foydalanish mumkin. Ma’lum nukleotidni x deb belgilasak, LED algoritmidan foydalanilganda, acgxacg ga acgaacg va ACGCACGGA mos keladi, ushbu algoritm juda sezgir lekin ko‘p vaqt talab qiladi.
Ko‘pincha algoritmlar ketma-ketliklar tarkibini emas, balki ularning pozisiyasini aniqlashda qo‘llaniladi. Aksariyat dasturlar Needleman — Wunsch algoritmi yoki uning modifikatsiyasidan foydalanadi. Boshqalar, masalan, GASST, Euler dasturlari masofani o‘lchash va oraliq qadamni aniqlash dasturini qo‘shadilar, bunday dasturlar asosan bir xil harflardan iborat ketma-ketliklar sonini hisobga oladi. Masalan, 5 ta G ni o‘z ichiga olgan ketma-ketlik, 1 ta G ni o‘z ichiga olgan ketma-ketlik bilan haritaga tushirilganda, kamida 4 ta almashtirishga ega bo‘lish mumkin. Bunday yondashuv yaroqsiz hududlarning olib tashlanishiga va faqat istiqbolli ketmaketliklar hududlarining aniq qo‘llash imkonini beradi.
Demak Hash uslubi butun genom ketma-ketliklarini o‘qish uchun emas, balkim bir xil uzunlikdagi genom qismlarini o‘qishda qo‘llanilishi mumkin. MAC, RMAP va SeqMAPning dastlabki versiyalari bu yondashuvdan foydalangan, biroq hozirgi vaqtda bitta tajribada o‘qishlar soni sezilarli darajada oshdi va bunday yondashuv hozirgi kunda samarali hisoblanmaydi.
Qo‘shimchalar yordamida yondashish asoslari. Xisoblash ishlarida algoritmlarning qo‘llanilishi ketma-ketliklar takrorlanib kelganda yahshi natija olish imkonini bermaydi, chunki tekshirilishi kerak bo‘lgan ketma-ketliklar soni sezilarli darajada ortadi. Bunday muammoni yechish uchun suffiksli shajara-qo‘shimchalarga asoslangan algoritmlardan foydalaniladi. Ushbu yondashuvning afzalligi, xususan, takrorlashlar algoritmning ishlash vaqtini tejaydi, chunki takroriy ketma-ketliklar ushbu shajaradan tushirib yuboriladi. Olingan ketma-ketliklar sof shaklida, agar xato yoki almashtirishlar bo‘lmasa masalan, Mpscan dasturi ishlatilganda, bunday yondashuv juda tez ishlaydi.

Yüklə 63,5 Kb.

Dostları ilə paylaş:

1 2 3