Tadqiqotning oxirgi avlodi biologik ma'lumotlarining birinchi xususiyati shundaki , ma'lumotlar nafaqat miqdoriy va aniqroq, balki nukleotidlar va aminokislotalar ketma-ketligida bo'lgani kabi, ular diskretga aylandi. Alohida organizmning genomik ketma-ketligini ochish yoki klonlash nafaqat to'liq, balki eng muhimi, aniq bo'lishi mumkin bo'ldi. Eksperimental xatolarni hech qachon butunlay inkor etib bo'lmaydi, ammo zamonaviy genom ketma-ketligi uchun ular juda past.
Bu biologiya analitik fanga aylandi, degani emas. Hayot haqiqatan ham fizika va kimyo qonunlariga bo'ysunadi, lekin u juda murakkab va tarixiy baxtsiz hodisalar zanjiriga bog'liq bo'lib, uning xususiyatlarini fundamental printsiplarga asoslanib batafsil tushuntira olmaydi. Va genomni aniqlashning erishilgan aniqligi hayot hodisasini tushuntirish uchun etarli shart emas.
ikkinchi aniq xususiyati ularning katta miqdoridir. Hozirgi vaqtda nukleotidlar ketma-ketligining ma'lumotlar bazalarida 100 milliardga yaqin nuklein tayanch juftlari mavjud. Agar o'lchov birligi sifatida inson genomining o'lchamini (HUman Genome Equivalent, HUGE) oladigan bo'lsak, unda bu ma'lumot miqdori 35 HUGE ga teng. Faqat oqsil tuzilmalari ma'lumotlar bazasida 86 000 dan ortiq yozuvlar mavjud bo'lib, ularning har biri uch o'lchovli fazoda berilgan oqsilning ~ 400 aminokislota qoldiqlari koordinatalarining to'liq tavsifi (1.1-rasm) - http://www.pdb .org/.
1.1-rasm. PDB Protein ma'lumotlar banki veb-sahifasi
Nafaqat alohida ma'lumotlar banklari juda katta, balki o'sishning eksponent sur'ati ham juda katta . Shunday qilib, masalan, 1-jadvalda genetik ketma-ketliklar ma'lumotlar bazasini to'ldirish dinamikasi ko'rsatilgan GenBank , http://www.ncbi.nlm.nih.gov/genbank/. Va 1.2-rasmda bu ma'lumotlar grafik ko'rinishda keltirilgan.
Biologik ma'lumotlarning bunday miqdori va sifati tadqiqotchilarni quyidagi maqsadlarga erishishga undaydi:
Tirik mavjudotlar olamining rasmini aniq va to'liq ko'rish, ya'ni muvofiqlashtirilgan murakkab tizimlar sifatida qaraladigan organizmlar biologiyasining integral tomonlarini tushunish .
ketligi , uch o'lchovli tuzilishi, o'zaro ta'siri va funktsiyalarini bog'lang.
Vaqt o'tishi bilan organizmlarni o'rganish uchun asos sifatida zamonaviy organizmlar haqidagi ma'lumotlardan foydalaning : evolyutsiya tarixidagi voqealar ketma-ketligini hisoblash uchun vaqtni orqaga qaytarish (filogenetik tahlil), biologik tizimlarning ilmiy asoslangan modifikatsiyasiga (biotexnologiya) oldinga .
Ushbu bilimlarni tibbiyot, qishloq xo'jaligi va boshqa sohalarda qo'llashni targ'ib qilish .
1.1-jadval. GenBank ma'lumotlar bazasining o'sish dinamikasi
Yil
Raqam
tayanch juftliklar
Raqam
ketma-ketliklar
Yil
Raqam
tayanch juftliklar
Raqam
ketma-ketliklar
1982 yil
680 338
606
1996 yil
651 972 984
1 021211
1983 yil
2 274 029
2427
1997 yil
1 160 300 687
1 765 847
1984 yil
3 368 765
4 175
1998 yil
2008 761 784
2 837 897
1985 yil
5 204 420
5 700
1999 yil
3 841 163 011
4 864 570
1986 yil
9 615 371
9 978
2000
11 101 066 288
10 106 023
1987 yil
15 514 776
14 584
2001 yil
15 849 921 438
14 976 310
1988 yil
23 800 000
20 579
2002 yil
28 507 990 166
22 318 883
1989 yil
34.762 585
28 791
2003 yil
36 553 368 485
30 968 418
1990 yil
49 179 285
39 533
2004 yil
44 575 745 176
40 604 319
1991 yil
71 947 426
55 627
2005 yil
56 037 734 462
52 016 762
1993 yil
157 152 442
143 492
2006 yil
69 019 290 705
64 893 747
1994 yil
217 102 462
215 273
2007 yil
83 874 179 730
80 388 382
1995 yil
384 939 485
555 694
2008 yil
99 116 431 942
98 868 465
1.2-rasm. GenBankning genetik ketma-ketlik ma'lumotlar bazasini to'ldirish tendentsiyalari: http://www.ncbi.nlm.nih.gov/genbank/genbankstats-2008/ DNK molekulasi minglab nukleotidlardan iborat va shuning uchun butun xromosoma DNK molekulasining to'liq nukleotidlar ketma-ketligini aniqlash juda qiyin ishdir. Genlarni klonlash texnologiyasi va polimeraza zanjiri reaktsiyasi (PCR) paydo bo'lishi bilan olimlar xromosoma DNKsining alohida qismlarini ajratib olishga muvaffaq bo'lishdi. Bu yutuqlar, o‘z navbatida, tez va samarali DNK sekvensiyasi texnikasini ishlab chiqishga zamin yaratdi . 1970-yillarning oxirida ikkita ketma-ketlik usuli paydo bo'ldi, ular mos ravishda zanjirni tugatish va kimyoviy parchalanish reaktsiyalariga asoslangan. Ushbu usullar, ba'zi bir kichik o'zgartirishlar bilan, 80-90-yillardagi ketma-ketlik inqilobi va keyinchalik bioinformatikaning tug'ilishi uchun asos yaratdi. O'zining sezgirligi, o'ziga xosligi va avtomatlashtirish imkoniyatlari tufayli PCR genomik DNK namunalarini tahlil qilish va genetik xaritalarni yaratish uchun etakchi usul hisoblanadi. Asosiy PCR texnologiyasini keyingi takomillashtirish ushbu texnikaning quvvati va foydaliligini yanada oshirdi.
1980-yillarning boshlarida tadqiqotchilar qo'lda (elektron yozuvchilar yordamida) jel plyonkasidagi bantlar naqshidan DNK ketma-ketligini o'qiydilar. 1987 yilda Stiven A. Krawetz geliy plyonkalarini avtomatik o'qiydiganlar uchun birinchi dasturiy ta'minotni ishlab chiqdi.
1987 yilda yarim avtomatlashtirilgan usulda sekvensiyalangan birinchi ketma-ketlik ishlab chiqarilgandan, 1990 yilda PCR amaliy amalga oshirilgandan va Sanger polimerini nusxalash usuli bilan ishlab chiqarilgan DNK fragmentlarini lyuminestsent yorliqlash usuli joriy etilgandan beri keng ko'lamli ketma-ketlik mavjud. amalga oshirildi, bu esa bioinformatika rivojiga beqiyos hissa qo‘shdi. Shu bilan birga, ketma-ketlik ketma-ketligi natijalarini avtomatlashtirilgan tarzda ro'yxatga olish texnologiyalari sezilarli darajada rivojlandi.
1990-yillar boshida Jon Kreyg Venter va uning hamkasblari genlarni aniqlashning yangi usulini ixtiro qildilar. Venter guruhi bitta nukleotidning yakuniy rezolyutsiyasida xromosomali DNKni ketma-ketlashtirish o'rniga, mRNK molekulalarini ajratib oldi, ularni cDNK molekulalariga ko'chirdi va keyin cDNK molekulasining bir qismini ketma-ketlashtirdi, natijada EST uchun ifodalangan ketma-ketlik teglari yaratildi. Birinchi marta). Entoni Kerlavaj tomonidan taklif qilingan. Ushbu EST ketma-ketliklari butun genni ajratish uchun ko'rsatkichlar (identifikatorlar, "barmoq izlari") sifatida ishlatilishi mumkin edi. Bundan tashqari, EST yorliqlash yondashuvi nukleotidlar ketma-ketligining ulkan ma'lumotlar bazalarini tashkil qilishni talab qildi va, EST usulini ishlab chiqish yangi genlarni yuqori mahsuldorlik bilan kashf qilish loyihalarini amalga oshirishning maqsadga muvofiqligini ko'rsatdi va amaliy genomikani rivojlantirish uchun asosiy turtki bo'ldi.
1980-yillarda bir qator loyihalar inson genomining batafsil genetik va fizik xaritalarini yaratishga kirishdi (3-rasm). Ushbu loyihalarning maqsadi inson genomining to'liq nukleotidlar ketma-ketligini ochish va taxminiy 30 000 genning lokuslarini (sobit pozitsiyalar, xromosomada lokalizatsiya) aniqlash edi . Bunday keng miqyosdagi ishlar genetik xaritalar va DNK ketma-ketligi ma'lumotlarini tahlil qilish uchun yangi hisoblash usullarini ishlab chiqishni rag'batlantirdi, shuningdek, DNKni dekodlash va tahlil qilish uchun yangi usullar va laboratoriya uskunalarini ishlab chiqishni talab qildi. Tadqiqotchilarning keng doirasini dekodlash natijalari bilan tezroq tanishtirish uchun olingan ma'lumotlarni tarqatishning takomillashtirilgan vositalarini ishlab chiqish kerak edi.
Ushbu global tashabbus natijasida yaratilgan xalqaro tadqiqot dasturi Inson genomi loyihasi ( HGP) deb nomlandi. Bu va boshqa genom ketma-ketligi loyihalari haqida ko'proq ma'lumotni quyidagi manzilda topishingiz mumkin:
2007 yilda http://www.1000genomes.org 1000 genom loyihasi ishga tushirildi - har birida 6 Giga-baza juftligi (6 Gbp) va jami 6 Terapar asoslari (6 Tbp) bo'lgan 1000 kishining to'liq genomlarini dekodlash. [56]. 2012 yil mart oyiga kelib, dekodlangan genlarning to'liq tavsifi hajmi 260 terabaytdan ortiq bo'lgan 250 000 dan ortiq faylni tashkil etdi. Ushbu loyiha uchun Ma'lumotlarni muvofiqlashtirish markazi (DCC ) tashkil etildi va yangi avlod sekvensiyasi (NGS) texnologiyalari ishlab chiqildi , bu bitta genomni sekvensiyalash narxini 5000 AQSh dollarigacha pasaytirdi .
1.3-rasm - Genomik loyihalarning veb-sahifalari: a - AQSh Energetika vazirligining Genomik dasturi; b - O'zimizni bilish; c - genomlarning annotatsiyasi loyihasi; d - Inson genomini o'rganish milliy instituti. Bioinformatikaning maqsad va vazifalari
Bioinformatikaning asosiy printsipi shundaki, nuklein kislota va oqsil molekulalari kabi biopolimerlar raqamli belgilar ketma-ketligi sifatida ifodalanishi mumkin. Bundan tashqari, aminokislotalar va nukleotid zanjiri monomerlarini ifodalash uchun faqat cheklangan miqdordagi alfavit belgilari kerak. Cheklangan alifbolar yordamida biomolekulalarni tahlil qilishning bunday moslashuvchanligi bioinformatikaning muvaffaqiyatli rivojlanishiga olib keldi. Bioinformatikaning rivojlanishi va funktsional kuchi ko'p jihatdan kompyuter texnikasi va dasturiy ta'minotining rivojlanishiga bog'liq. Bioinformatika oldidagi eng oddiy vazifalar biologik ma'lumotlarning ma'lumotlar bazalarini yaratish va yuritish bilan bog'liq.
fani uchta komponentni o'z ichiga oladi:
biologik ma'lumotlarning katta to'plamlarini saqlash va boshqarish imkonini beruvchi ma'lumotlar bazalarini yaratish;
ma'lumotlar bazasi elementlari o'rtasidagi bog'liqlikni aniqlash uchun statistik tahlilning algoritmlari va usullarini ishlab chiqish;
turli xil biologik ma'lumotlarni tahlil qilish va sharhlash uchun ushbu vositalardan foydalanish - xususan, DNK, RNK va oqsillar ketma-ketligi, oqsil tuzilmalari, genlarni ifodalash profillari va biokimyoviy yo'llar.
maqsadlari :
Ma'lumotlarni shunday tashkil qilingki, tadqiqotchilar ma'lumotlar bazalarida saqlangan joriy ma'lumotlarga kirish imkoniga ega bo'lsin va yangi ma'lumotlar paydo bo'lishi bilan ularga yangi yozuvlar qo'shishi mumkin.
Ma'lumotlarni boshqarish va tahlil qilishda yordam beruvchi dasturiy vositalar va axborot resurslarini ishlab chiqish.
Ma'lumotlarni tahlil qilish va natijalarni biologik ma'noga ega bo'lishi uchun sharhlash uchun ushbu vositalardan foydalaning.
vazifalari biologik ketma-ketlikda kodlangan ma'lumotlarni tahlil qilishdan iborat, xususan:
turli organizmlarning DNK ketma-ketligidagi genlarni aniqlash;
yangi dekodlangan ketma-ketliklar va RNKning tegishli strukturaviy hududlari tuzilishi va (yoki) funktsiyasini o'rganish usullarini ishlab chiqish;
tegishli ketma-ketliklar oilalarini aniqlash va modellarni yaratish;
evolyutsion munosabatlarni aniqlash uchun shunga o'xshash ketma-ketliklarni tekislang va filogenetik daraxtlarni tiklang.
Yuqorida sanab o'tilgan vazifalarga qo'shimcha ravishda, farmatsevtika biotexnologiyasi bilan bevosita bog'liq bo'lgan yana bir muhim bioinformatika masalasini ta'kidlash kerak - dori ta'sirining maqsadlarini aniqlash va istiqbolli eksperimental birikmalarni ("etakchilar" deb ataladigan) izlash (). ingliz qo'rg'oshin birikmasidan)). Bioinformatika fani quyidagi faoliyat turlarida amalga oshiriladi. Biologik ma'lumotlarni boshqarish va qayta ishlash; bunga ularni tashkil etish, kuzatish, himoya qilish, tahlil qilish va boshqalar kiradi.
Fundamental va amaliy biologik tadqiqotlar bilan shug'ullanuvchi olimlar, loyihalar va muassasalar o'rtasidagi aloqani tashkil etish. Muloqot elektron pochta, fayllarni uzatish, masofadan kirish, telekonferentsiya, tarmoq axborot resurslarini o'rnatishni o'z ichiga olishi mumkin.
Biologik ma'lumotlar, hujjatlar va adabiyotlar to'plamini tashkil etish, shuningdek ularga kirish, ularni qidirish va tanlash.
Hisoblash usullaridan foydalangan holda biologik ma'lumotlarni tahlil qilish va talqin qilish, xususan: vizualizatsiya, matematik modellashtirish, shuningdek, murakkab biologik tuzilmalarni yuqori parallel qayta ishlash algoritmlarini qurish.
Bioinformatikani qo'llash istiqbollari
Oqsillar va DNKni o'rganuvchi tadqiqotchilarni nazariy asos va hisoblash va analitik apparatlar bilan ta'minlashdan tashqari, bioinformatika ko'plab sohalarda qo'llanilishini topdi. Transkriptda _ biologik ketma-ketlikda ikki xil analitik yo'nalish paydo bo'ldi:
birinchi yondashuvga ko'ra , olimlar muntazam kombinatsiyalarni tanib olish usullariga tayanadilar, ular orqali ular ketma-ketliklarning o'xshashligini aniqlaydilar va shuning uchun evolyutsiya bilan bog'liq tuzilmalar va funktsiyalarni aniqlaydilar;
ikkinchi yondashuvga ko'ra , ab initio bashorat qilish usullari (dang boshidan, birinchi tamoyillardan) - uchinchi darajali tuzilmalarni bashorat qilish va oxir-oqibat, funktsiyani bevosita birlamchi ketma-ketlikdan olish uchun ishlatiladi. Birlamchi aminokislotalar ketma-ketligidan oqsilning uch o'lchovli tuzilishini bevosita bashorat qilish bioinformatikaning eng muhim maqsadi hisoblanadi.