Ishning maqsadi:
UniProtKB/Swiss-Prot - qo'lda izohlangan, ortiqcha bo'lmagan oqsillar ketma-ketligi ma'lumotlar bazasi. U ilmiy adabiyotlardan olingan ma'lumotlarni va biokurator tomonidan baholangan hisoblash tahlilini birlashtiradi. UniProtKB/Swiss-Prot dasturining maqsadi ma'lum bir protein haqida barcha ma'lum bo'lgan tegishli ma'lumotlarni taqdim etishdir. Ilmiy topilmalar bilan tanishish uchun izohlar muntazam ravishda ko'rib chiqiladi. Yozuvning qo'lda annotatsiyasi oqsil ketma-ketligini va ilmiy adabiyotlarni batafsil tahlil qilishni o'z ichiga oladi.
Ishning vazifalari:
Oqsil ketma-ketliklari bazalari (SWISS-PROT) haqida o’rganish;
Oqsil ketma-ketliklari bazalari (SWISS-PROT)bilan tanishish;
Oqsil ketma-ketliklari bazalari (SWISS-PROT)bilan ishlash haqida o’rganish;
Yig’ilgan ma’lumotlarni umumlashtirish va xuloslash.
I BOB. ADABIYOTLAR SHARHI
Kompyuterlar va ixtisoslashtirilgan dasturiy ta'minot biologlar to'plamining muhim qismiga aylandi. DNK yoki oqsil ketma-ketligini muntazam tahlil qilish yoki gigabayt o'lchamdagi katta biologik ma'lumotlar to'plamidagi mazmunli ma'lumotlarni tahlil qilish uchun biologiyadagi deyarli barcha zamonaviy tadqiqot loyihalari ma'lum darajada kompyuterlardan foydalanishni talab qiladi. Bu, ayniqsa, populyatsiya genetikasi, miqdoriy genetika, molekulyar sistematika, mikrobial ekologiya va boshqa ko'plab tadqiqot yo'nalishlarini tubdan o'zgartirgan yangi avlod sekvensiyasi (NGS) paydo bo'lganidan beri to'g'ri keladi.
Shu nuqtai nazardan, bugungi talabalar va tadqiqotchilar uchun zamonaviy bioinformatika nisbatan yaqinda paydo bo'lib, NGS ma'lumotlarini tahlil qilish yordamiga kelganiga ishonish oson. Biroq, bioinformatikaning boshlanishi 50 yildan ko'proq vaqt oldin, ish stoli kompyuterlari hali faraz bo'lgan va DNKni hali ketma-ketlashtirish mumkin bo'lmagan paytda sodir bo'lgan. Bu erda biz o'tgan yarim asr davomida bioinformatika va unga aloqador sohalardagi asosiy voqealarning integratsiyalashgan jadvalini, shuningdek molekulyar biologiya va informatika sohasidagi parallel yutuqlar va bioinformatikaning kelajagi haqida ba'zi fikrlarni taqdim etamiz. Umid qilamizki, ushbu sharh o'quvchiga bioinformatikaning bugungi kunda biologiyaning asosiy harakatlantiruvchi kuchiga aylanishini tushunishga yordam beradi.
1950-yillarning boshlarida dezoksiribonuklein kislotasi (DNK) haqida ko'p narsa ma'lum emas edi. Uning genetik ma'lumotlarning tashuvchisi molekulasi sifatidagi maqomi o'sha paytda hali ham bahsli edi. Avery, MacLeod va McCarty (1944) virulent bakterial shtammdan sof DNKni olish virulentlikni novirulent shtammga berishi mumkinligini ko'rsatdi, ammo ularning natijalari ilmiy hamjamiyat tomonidan darhol qabul qilinmadi. Ko'pchilik oqsillarni genetik ma'lumot tashuvchisi deb o'ylardi. DNKning genetik ma'lumotni kodlovchi molekulasi sifatidagi roli 1952 yilda Hershey va Chase tomonidan tasdiqlangan va ular bakteriofag bilan zararlangan bakterial hujayralar tomonidan qabul qilingan va uzatilgan oqsil emas, balki DNK ekanligini hech qanday shubhasiz isbotladilar.
Uning asosiy rolini bilishga qaramay, DNK molekulasining joylashishi haqida ko'p narsa ma'lum emas edi. Uning monomerlarining juftlari (ya'ni nukleotidlari) ekvimolyar nisbatda bo'lganini bilganimiz shu edi. Boshqacha qilib aytganda, adenozin qancha timidin bo'lsa, shuncha guanidin va sitidin shuncha ko'p. Aynan 1953 yilda DNKning qo'sh spiralli tuzilishi nihoyat Uotson, Krik va Franklin tomonidan hal qilindi. Ushbu yutuqga qaramay, genetik kodni dekodlash uchun yana 13 yil kerak bo'ladi va birinchi DNK sekvensiyasi usullari mavjud bo'lgunga qadar yana 25 yil kerak bo'ladi. Binobarin, DNK tahlilida bioinformatikadan foydalanish kimyoviy tabiati DNKga qaraganda yaxshiroq tushunilgan oqsillarni tahlil qilishdan qariyb yigirma yil orqada qoldi.
1950-yillarning oxirida, kristallografiya orqali oqsil tuzilmalarini aniqlashdagi katta yutuqlarga qo'shimcha ravishda , oqsilning birinchi ketma-ketligi (ya'ni, aminokislotalar zanjiri joylashuvi) insulin nashr etildi. Bu katta sakrash oqsillarning polipeptid zanjiri joylashuvi haqidagi bahslarni hal qildi. Bundan tashqari, u protein ketma-ketligini olishning yanada samarali usullarini ishlab chiqishni rag'batlantirdi. Edman degradatsiyasi usuli oddiy usul sifatida paydo bo'ldi, bu N-terminusdan boshlab bir vaqtning o'zida bitta aminokislotadan oqsillarni ketma-ketlashtirishga imkon berdi. Avtomatlashtirish bilan birgalikda, keyingi 10 yil ichida 15 dan ortiq turli protein oilalari ketma-ketligi.
Edman sekvensiyasi bilan bog'liq asosiy muammo katta protein ketma-ketligini olish edi. Edman ketma-ketligi N-terminal aminokislota qoldiqlarini fenilizotiyosiyanat bilan birma-bir parchalanish orqali ishlaydi . Biroq, bu reaktsiyaning hosildorligi hech qachon to'liq bo'lmaydi. Shu sababli, bir Edman reaktsiyasida nazariy maksimal 50-60 aminokislotalar ketma-ket bo'lishi mumkin. Kattaroq oqsillar kichikroq bo'laklarga bo'linishi kerak, keyin ular ajratiladi va alohida ketma-ketlikda bo'ladi.
Muammo oqsilni o'z-o'zidan ketma-ketlashtirish emas, balki yuzlab kichik Edman peptidlari ketma-ketligidan butun protein ketma-ketligini yig'ish edi. Bir necha yuzlab (agar minglab bo'lmasa) qoldiqlardan tashkil topgan yirik oqsillar uchun oxirgi ketma-ketlikni qaytarish juda qiyin edi. 1960-yillarning boshlarida ushbu muammoni hal qilish uchun birinchi ma'lum bo'lgan bioinformatika dasturi ishlab chiqilgan.
1981 yilga kelib, 579 ta inson genlari xaritaga tushirildi va in situ gibridizatsiya orqali xaritalash standart usulga aylandi. Marvin Karruters va Leori Hud DNKni avtomatlashtirilgan tartiblash usulini ixtiro qilganlarida bioinformatikada katta sakrashga erishdilar.
1988 yilda Inson genomi tashkiloti (HUGO) tashkil etildi. Bu inson genomi loyihasida ishtirok etgan olimlarning xalqaro tashkilotidir. 1989 yilda Haemophilus influenza bakteriyalarining birinchi to'liq genom xaritasi nashr etildi.
Keyingi yili inson genomi loyihasi boshlandi. 1991 yilga kelib, jami 1879 ta inson genlari xaritaga tushirildi. 1993 yilda Frantsiyadagi Genethon, inson genomi tadqiqot markazi inson genomining fizik xaritasini ishlab chiqdi. Uch yil o'tgach, Genethon Inson genetik xaritasining yakuniy versiyasini nashr etdi. Shu bilan inson genomi loyihasining birinchi bosqichi yakunlandi.
Bioinformatikaga GenBank va EMBL va Yaponiyaning DNK ma'lumotlar bazasi kabi ulkan ma'lumotlar bazalarini yaratish zarurati sabab bo'ldi, ular inson genomidan chiqqan DNK ketma-ketligi ma'lumotlarini va boshqa genomlarni ketma-ketlashtirish loyihalarini saqlash va taqqoslashdi.
Bugungi kunda bioinformatika oqsil strukturasini tahlil qilish, gen va oqsil funktsional ma'lumotlari, bemorlarning ma'lumotlari, klinikadan oldingi va klinik sinovlar va ko'plab turlarning metabolik yo'llarini qamrab oladi.
Bioinformatik/biologik ma'lumotlar bazalarining kelib chiqishi:
Birinchi bioinformatik/biologik ma'lumotlar bazalari birinchi oqsil ketma-ketliklari mavjud bo'la boshlaganidan bir necha yil o'tgach yaratilgan. Xabar qilingan birinchi protein ketma-ketligi 1956 yilda 51 ta qoldiqdan iborat bo'lgan sigir insulini edi. Taxminan o'n yil o'tgach, birinchi nuklein kislotalar ketma-ketligi, 77 asosli xamirturush alanin tRNKsi haqida xabar berildi. Bir yil o'tgach, Dayhoff birinchi bioinformatika ma'lumotlar bazasini yaratish uchun barcha mavjud ketma-ketlik ma'lumotlarini to'pladi.
Protein ma'lumotlar banki 1972 yilda o'nta rentgen kristallografik oqsil to'plami bilan ta'minlandi.
tuzilmalar va SWISSPROT oqsil ketma-ketligi ma'lumotlar bazasi 1987 yilda boshlangan. Turli xil va o'lchamdagi turli xil ma'lumotlar resurslari hozirda jamoat mulki yoki yaqinda tijorat uchinchi tomonlardan mavjud. Barcha asl ma'lumotlar bazalari juda sodda tarzda tashkil etilgan bo'lib, ma'lumotlar yozuvlari tekis fayllarda, bitta ko'p kirish yoki bitta katta matn fayli sifatida saqlanadi. Qayta yozish - Sarlavha ma'lumotlarini qulay kalit so'z bilan qidirish imkonini berish uchun keyinchalik qidirish indekslari qo'shildi.
Ma'lumotlar bazalari shakllantirilgandan so'ng, ketma-ketlik ma'lumotlar bazalarini qidirish uchun vositalar mavjud bo'ldi - dastlab juda sodda tarzda, kalit so'zlarga mos keladigan va qisqa ketma-ketlik so'zlarini qidiradi, so'ngra naqshlarni moslashtirish va moslashtirishga asoslangan yanada murakkab usullar. Tez, ammo unchalik qat'iy bo'lmagan BLAST algoritmi o'n yil oldin joriy qilinganidan beri ketma-ket ma'lumotlar bazasini qidirishning asosiy tayanchi bo'lib kelgan va yanada qat'iyroq va sekinroq FASTA va Smit Uoterman algoritmlari bilan to'ldirilgan. Stenford, CA, Kembrij, Buyuk Britaniya va Madison, WIdagi yetakchi akademik tadqiqotchilar tomonidan o'zlarining ichki loyihalari uchun yozilgan tahlil algoritmlari to'plami asosiy ketma-ketlik tahlili uchun kengroq mavjud bo'la boshladi. Ushbu algoritmlar odatda bitta funktsiyali qora qutilar bo'lib, ular kiritilgan va formatlangan fayllar ko'rinishida chiqdi. Algoritmlarni boshqarish uchun UNIX uslubidagi buyruqlar ishlatilgan, ba'zi to'plamlarda yuzlab mumkin bo'lgan buyruqlar mavjud bo'lib, ularning har biri turli xil buyruq variantlari va kiritish formatlarini oladi. Ushbu dastlabki harakatlardan boshlab, ketma-ketlik ma'lumotlarini yig'ishni avtomatlashtirishda sezilarli yutuqlarga erishildi. Biokimyo va asbobsozlik sohasidagi tezkor innovatsiyalar bizni kamida 20 ta organizmning, asosan mikrobial patogenlarning butun genomik ketma-ketligi ma'lum bo'lgan va hozirda kamida 100 ta prokaryotik va eukaryotik genomlarni yoritish bo'yicha loyihalar amalga oshirilayotgan darajaga olib keldi. Guruhlar endi hatto butun inson genomining ketma-ketligini tugatish uchun raqobatlashmoqda. Yangi texnologiyalar yordamida biz tirik hujayralardagi mRNK va oqsillarning ifoda darajasidagi o'zgarishlarni kasallik holatida ham, tashqi sinovdan keyin ham bevosita tekshirishimiz mumkin. Biz agentning to'qimalarga ta'sir qilish mexanizmini tushunishga olib keladigan hujayralardagi javob shakllarini aniqlashga o'tishimiz mumkin. Bunday turdagi loyihalardan kelib chiqadigan ma'lumotlar hajmi farmatsevtika sanoatida misli ko'rilmagan bo'lib, ma'lumotlardan foydalanish usullariga va dori vositalarini kashf qilish va ishlab chiqish loyihalarida o'tkaziladigan tajribalarga katta ta'sir ko'rsatadi. Bu to'g'ri, chunki mavjud qiziqarli ma'lumotlarning aksariyati tijorat genomik kompaniyalari qo'lida bo'lganligi sababli, farmatsevtika kompaniyalari ko'plab gen ketma-ketliklariga yoki ularning ekspressiya profillariga eksklyuziv kirish imkoniyatiga ega emaslar. Genomik ma'lumotlar bazasining ko-litsenziatlari o'rtasidagi raqobat samarali ravishda ushbu gen bo'yicha patent pozitsiyasini ta'minlash uchun kasallik holatidagi gen uchun mexanik rolni yoki boshqa yordamni o'rnatish uchun poygadir. Bu ishlarning katta qismi informatika vositalari yordamida amalga oshiriladi. Tartiblash va ifoda tahlili texnologiyalaridagi ulkan yutuqlarga va davlat, xususiy va tijorat ma'lumotlar bazalarida saqlanadigan ko'proq ma'lumotlarning tegishli hajmiga qaramay, bioinformatikada ma'lumotlarni saqlash, qidirish, tahlil qilish va tarqatish uchun foydalaniladigan vositalar hali ham juda o'xshash. 15-20 yil oldin tadqiqotchilar tomonidan to'plangan asl tizimlar. Ko'p yillar davomida akademik va tijorat foydalanuvchilarining ehtiyojlarini qondirib kelgan asl akademik tizimlarning oddiy kengaytmalari. Ushbu tizimlar farmatsevtika sanoatidagi o'zgarishlar sur'atiga moslashish uchun kurash olib borgani uchun endi orqada qola boshladi. Ma'lumotlar bazalari hali ham tekis fayllar yordamida to'planadi, tartibga solinadi, tarqatiladi va qidiriladi. Relyatsion ma'lumotlar bazalari hali ham juda kam, va ob'ektga aloqador yoki to'liq ob'ektga yo'naltirilgan tizimlar hali ham asosiy dasturlarda kam uchraydi. Interfeyslar hali ham buyruq satrlariga, har bir ish stoliga o'rnatilishi kerak bo'lgan mijoz interfeyslariga yoki HTML/CGI shakllariga tayanadi. Ular bioinformatika bo'yicha mutaxassislar qo'lida bo'lganlarida, farmakonlar o'z vositalariga nisbatan talabchan edilar. Endi muammolar asosiy kashfiyot jarayonini qamrab olish uchun kengaytirildi, farmatsevtika AR-GE informatika talablariga javob berish uchun ancha moslashuvchan va kengaytiriladigan echimlar kerak.
Bioinformatikaning kelib chiqishi haqida turlicha qarashlar mavjud - TK Attvud va DJ Parri-Smitning “Bioinformatikaga kirish” asaridan, Prentice-Xall 1999 [Longman Higher Education; ISBN 0582327881]: “Bioinformatika atamasi biologiya fanlaridagi deyarli barcha kompyuter dasturlarini qamrab olish uchun ishlatiladi, lekin dastlab 1980-yillarning oʻrtalarida biologik ketma-ketlik maʼlumotlarini tahlil qilish uchun yaratilgan”.
Mark S. Boguskining "Trends Guide to Bioinformatika" Elsevier, Trends Supplement 1998 p1 maqolasidan: ""Bioinformatika" atamasi nisbatan yaqinda paydo bo'lgan ixtiro bo'lib, 1991 yilgacha adabiyotda paydo bo'lmagan, keyin esa faqatgina paydo bo'lishi kontekstida. elektron nashriyot. 1988 yilda AQSh Kongressi a'zosi Klod Pepper va Prezident Ronald Reygan tomonidan yaratilgan Biotexnologiya Axboroti Milliy Markazi (NCBI) bu yil o'zining 10 yilligini nishonlamoqda. Shunday qilib, bioinformatika 30 yildan ortiq vaqtdan beri mavjud. va hozir o'rta yoshda."
Dayhoff: birinchi bioinformatikachi
Margaret Dayhoff (1925-1983) amerikalik fizik kimyogar bo'lib, biokimyo sohasida hisoblash usullarini qo'llashga asos solgan. Dayhoffning bu sohaga qo'shgan hissasi shunchalik muhimki, Devid J. Lipman, Milliy Biotexnologiya Axborot Markazining (NCBI) sobiq direktori uni "bioinformatikaning onasi va otasi" deb atadi.
Dayhoff o'zining elektrokimyo bo'yicha nomzodlik dissertatsiyasini uchun hisoblash usullaridan keng foydalangan va biologiya va tibbiyot sohalarida kompyuterlarning imkoniyatlarini ko'rgan. 1960 yilda u Milliy biotibbiyot resurslari jamg'armasi direktorining o'rinbosari bo'ldi. U erda u fizik Robert S. Ledli bilan ishlay boshladi, u ham biotibbiyot muammolariga hisoblash resurslarini keltirmoqchi edi. 1958 yildan 1962 yilgacha ikkalasi ham o'z tajribalarini birlashtirib, Edman peptidlari ketma-ketligi ma'lumotlaridan foydalangan holda oqsilning asosiy tuzilishini aniqlash uchun mo'ljallangan "IBM 7090 uchun to'liq kompyuter dasturi" COMPROTEINni ishlab chiqdilar. To'liq FORTRAN-da perfokartalarda kodlangan ushbu dasturiy ta'minot bugungi kunda biz de novo deb ataydigan narsaning birinchi hodisasidir.
COMPROTEIN dasturida aminokislotalarning kirish va chiqish ketma-ketligi uch harfli qisqartmalar bilan ifodalangan (masalan, lizin uchun Lys, serin uchun Ser). Protein ketma-ketligi ma'lumotlari bilan ishlashni soddalashtirish maqsadida Dayhoff keyinchalik bugungi kunda ham qo'llanilayotgan bir harfli aminokislota kodini ishlab chiqdi. Bu bir harfli kod birinchi marta Dayhoff va Eckning 1965 yilda Proteinlar ketma-ketligi va tuzilishi atlasida, birinchi biologik ketma-ketlik ma'lumotlar bazasida ishlatilgan . Atlasning birinchi nashrida 65 ta protein ketma-ketligi mavjud bo'lib, ularning aksariyati bir hovuch oqsillarning interspesifik variantlari edi. Shu sababli, birinchi AtlasProtein ketma-ketligi turlarning evolyutsiya tarixini aks ettiradi, deb taxmin qilgan ikki tadqiqotchi uchun ideal ma'lumotlar to'plami bo'ldi.
1960-yillarga qadar biokimyo boʻyicha olib borilgan tadqiqotlarning koʻp qismi fermentlarni mexanik modellashtirishga qaratilgan boʻlsa-da, Emil Zukerkandl va Linus Pauling “axborot tashuvchisi” sifatida biomolekulyar ketma-ketliklarni oʻrganish orqali ushbu paradigmadan chiqdilar. So'zlar o'ziga xos joylashuvi ma'noni bildiruvchi harflar qatori bo'lgani kabi, oqsilning molekulyar funktsiyasi (ya'ni ma'nosi) uning aminokislotalarining "so'z" hosil qilish uchun qanday joylashishidan kelib chiqadi. So'zlar va tillar vaqt o'tishi bilan nozik o'zgarishlarni meros qilib olish orqali rivojlanishini bilish, oqsil ketma-ketligi shunga o'xshash mexanizm orqali rivojlanishi mumkinmi? Ushbu irsiy o'zgarishlar biologlarga ushbu oqsillarning evolyutsiya tarixini qayta tiklashga va xuddi shu jarayonda ularning "ajdodlari" ketma-ketligini tiklashga imkon berishi mumkinmi? Tsukerkandl va Pauling 1963 yilda evolyutsion biologiyaning ushbu yangi sohasini joriy qilish uchun "Paleogenetika" atamasini kiritdilar.
Ikkalasi ham umurtqali hayvonlarning gemoglobin kabi ortologik oqsillari uzoq evolyutsion vaqt davomida tasodifiy yoki konvergent evolyutsiya natijasi bo'lishi uchun juda yuqori darajada o'xshashlik ko'rsatganini kuzatdi ( o'sha yerda ). Orfologiya kontseptsiyasining o'zi 1970 yilda Uolter M. Fitch tomonidan spetsifikatsiya hodisasidan kelib chiqqan homologiyani tavsiflash uchun aniqlangan. Bundan tashqari, har xil turlarning ortologlaridagi farqlar miqdori ushbu turlar orasidagi evolyutsion tafovutga mutanosib bo'lib tuyuldi. Masalan, ular inson gemoglobini shimpanze ( Pan troglodytes ) gemoglobinida sichqoncha ( Mus musculus) gemoglobiniga qaraganda ancha yuqori saqlanishini kuzatdilar.) gemoglobin. Ushbu ketma-ketlik identifikatori gradienti fotoalbom yozuvlaridan olingan divergensiya taxminlari bilan bog'liq.
Ushbu kuzatishlar asosida Tsukerkandl va Pauling ortologik oqsillar umumiy ajdoddan ajralish natijasida paydo bo'lgan deb taxmin qilishdi. Binobarin, hozirgi mavjud organizmlardagi gemoglobin ketma-ketligini taqqoslash orqali gemoglobinning "ajdodlar ketma-ketligi" va bu jarayonda uning hozirgi shakllarigacha bo'lgan evolyutsiya tarixini oldindan aytish mumkin bo'ldi.
Dostları ilə paylaş: |