L. A. Kadirova, A. A. No’monjonov bioinformatika o‘zbekiston Respublikasi vazirligi tomonidan ta’lim yo‘nalishi bo‘yicha darslik sifatida tavsiya etilgan



Yüklə 1,41 Mb.
səhifə11/95
tarix07.01.2024
ölçüsü1,41 Mb.
#211693
1   ...   7   8   9   10   11   12   13   14   ...   95
bioinfarmatika kitob o\'zbekcha0

standart umumlashtirilgan belgilash tilining ( SGML ) soddalashtirilgan kichik to'plamidir.
- hujjatlar uchun belgilash tilini aniqlash mumkin bo'lgan metall til. SGML 1969 yilda IBM da ishlab chiqilgan Generalized Markup Language ( GML ) ning vorisi hisoblanadi.

  1. bioinformatika ma'lumotlari

Kompyuterlar ketma-ketliklar haqidagi ma'lumotlarni satrlar sifatida saqlaydi - ketma-ket belgilarning oddiy ketma-ketligi. Har bir belgi ikkilik kodda ifodalanadi va bayt deb ataladigan eng kichik axborot birligi bilan ifodalanadi. Har bir bayt 8 bitdan iborat bo'lib , har bir bit 0 yoki 1 qiymatini qabul qilishi mumkin, bu bitlarning 255 xil kombinatsiyasini, ya'ni bir baytda 255 ta belgini kodlash imkoniyatini beradi.
DNK ketma-ketligi odatda kompyuterda qayd etilgan ikkilik formatdagi 8 bitli so'zlar qatori sifatida saqlanadi va qayta ishlanadi.
Protein ketma-ketligi ikkilik shakldagi aminokislotalarning harf belgilaridan iborat 8 bitli so'zlar qatori sifatida ifodalanadi.
Odatda, DNK yoki oqsil ketma-ketligi haqidagi ma'lumot matn fayliga standart ASCII formatida yoki FASTA (FAST Alignment ) dasturi formatida yoziladi. FASTA formatidagi ma'lumotlar fayli sarlavha qatorini (sarlavha) va ma'lumotlar qatorini o'z ichiga oladi. Ketma-ketlik tavsifi sarlavha chizig'idan keyin keladi, uning boshida ">" belgisi mavjud. Bu qatordagi birinchi so'z ketma-ketlikning nomi, keyin ketma-ketlikning tavsifi. Qolgan qatorlar ketma-ketlikni o'z ichiga oladi. Ma'lumotlar faylini o'qiyotganda, FASTA bo'sh satrlarni va ketma-ketlikdagi har qanday bo'shliq yoki bo'sh joy belgilarini e'tiborsiz qoldiradi. Ko'p ketma-ketliklarni birlashtirgan fayl bir xil printsip asosida qurilgan - ketma-ketliklar tavsifini o'z ichiga olgan qatorlar birin-ketin ketadi.
FASTA formatidagi ketma-ketlik tuzilishi:
Oddiy tavsif qatori bilan boshlanadi. Birinchi ustunda ">" bo'lishi kerak. Sarlavha satrining qolgan qismi ixtiyoriy, ammo ma'lumot beruvchi bo'lishi kerak.
Quyidagi satrlar ketma-ketlikni o'z ichiga oladi, har bir qoldiq uchun bitta belgi.
Nukleotidlar va aminokislotalarning bir harfli kodlari Xalqaro biokimyo va biokimyo ittifoqi tomonidan berilgan.
Xalqaro toza va amaliy kimyo ittifoqi (IUB/IUPAC). http://www.chem.qmw.ac.uk/iupac/misc/naabb.html http://www.chem.qmw.ac.uk/iupac/AminoAcid/
Selenosistein uchun uchta va bir harfli kodlar sifatida Sec va U belgilaridan foydalaning: http://www.chem.qmw.ac.uk/iubmb/newsletter/1999/item3.html
Chiziqlar turli uzunliklarda bo'lishi mumkin; bu "yirtilgan" o'ng qirrali chegara.
Odatda nukleotidlar kichik harflar bilan, aminokislotalar esa bosh harflar bilan yoziladi.
Пример формата FASTA для фермента глутатион пероксидаза быка: >gi|121664|sp|P00435|GSHC_BOVIN GLUTATHIONE PEROXIDASE MCAAQRSAAALAAAAPRTVYAFSARPLAGGEPFNLSSLRGKVLLIENVASL UGTTVRDYTQ MNDLQRRLGPRGLWLGFPCNQFGHQENAKNEEILNCLKYVRPGGGFEPNF MLFEKCEVNGE KAHPLFAFLREVLPTPSDDATALMTDPKFITWSPVCRNDVSWNFEKFLVGP DGVPVRRYSR RFLTIDIEPDIETLLSQGASA Строка заголовка имеет следующие поля:
- birinchi qatorning majburiy birinchi belgisi; gi|121664 geninfo ning GI raqami, tayinlangan identifikator
AQSh Milliy Biotexnologiya Axborot Markazi (NCBI). Ma'lumotlar bankidagi har bir ketma-ketlik o'ziga xos GIga ega. NCBI ketma-ketliklarni turli manbalardan, jumladan, birlamchi ma'lumotlar arxivlari va patent arizalaridan to'playdi. Uning GI raqamlari manba ma'lumotlar bazalari uchun turli konventsiyalarni qoplaydigan umumiy va izchil soyabon identifikatorini ta'minlaydi. Agar manba ma'lumotlar bazasi ma'lumotni yangilasa, agar o'zgarishlar ketma-ketlikka ta'sir qilsa, NCBI yangi GI raqami bilan yangi yozuv yaratadi, lekin agar o'zgarishlar ketma-ketlikda bo'lmagan ma'lumotlarga ta'sir qilsa, yozuvni yangilaydi va saqlaydi, masalan, adabiyotlar iqtiboslari.
Sp|P00435 yozuvi ma'lumot manbai Swiss-Prot ekanligini va Swiss-Prot yozuviga kirish raqami P00435 ekanligini ko'rsatadi.
GSHC_BOVIN GLUTATHION PEROKSIDAZ - Shveytsariya-Prot ketma-ketligi va tur identifikatori (GSHC_BOVIN), undan keyin molekula nomi.

  1. Tarmoqlar va asoslar

EMBnet - Yevropa molekulyar biologiya tarmog'i. 1988-yilda Yevropa molekulyar biologiya laboratoriyalarini oʻz tadqiqotlarida bioinformatika va hisoblash biologiyasi usullaridan foydalangan holda bogʻlash uchun tarmoq tashkil etilgan. EMBnet (European Molecular Biology net) deb nomlangan ushbu tarmoq Yevropaning turli mamlakatlarida joylashgan laboratoriyalar xodimlariga mahalliy tillarda ishlaydigan maxsus ajratilgan tugunlar orqali axborot va taʼlim xizmatlarini koʻrsatish uchun ishlab chiqilgan. Keyinchalik, ushbu tarmoqning tashkil etilishi alohida muassasalarni bir qator biologik ma'lumotlar bazalarining vaqti-vaqti bilan yangilanib turuvchi nusxalarini saqlash, qidiruv dasturlarini o'rnatish, qimmat tijoriy dasturiy ta'minot paketlarini sotib olish va hokazolar zaruratidan xalos qildi. Bugungi kunda EMBnet 34 ta tugunga xizmat ko'rsatmoqda. Ulardan 20 ta tugun ajratilgan Milliy tugunlardir. Muvofiq davlatlar ma'lumotlar bazalarini saqlashlari, dasturiy ta'minot va tarmoq xizmatlarini (ketma-ketlik tahlili, oqsillarni modellashtirish, genetik xaritalash va boshqalar) taqdim etishlari, foydalanuvchilarni qo'llab-quvvatlashlari va ta'lim berishlari, tadqiqot va ishlanmalar olib borishlari kerak.
Sakkizta EMBnet tugunlari maxsus maqsadga ega. Bular bioinformatikaning ma'lum tor sohalarida maxsus bilimlar bilan ishlashga mo'ljallangan o'quv, sanoat yoki tadqiqot markazlari. Ular asosan ma'lumotlar bazalarini saqlash va biologiya ehtiyojlari uchun dasturiy ta'minotni ishlab chiqish uchun mas'uldirlar.
Qolgan olti tugun EMBnet-ga sheriklik tugunlari sifatida birlashtirilgan. Bular Evropadan tashqari mamlakatlardagi hisoblash biologiya markazlari bo'lib, ular o'z foydalanuvchilariga odatiy Milliy tugun kabi xizmatlarni taqdim etadilar. Ushbu tugunlarning deyarli barchasi ma'lumotlar bazalari va ketma-ketlikni tahlil qilish dasturlariga, shuningdek, molekulyar modellashtirish, genom tahlili, gen xaritalash va boshqalar uchun turli xil vositalarga zamonaviy kirishni taklif qiladi . U EMBnet foydalanuvchilariga qo'shimcha xizmatlarni taqdim etish uchun ishlab chiqilgan. SRS Internet manzili: http://srs.ebi.ac.uk/ ( 2.1-rasm). SRS har qanday aka -uka ma'lumotlar bazasini boshqa har qanday ma'lumotlar bazasi indeksiga indekslash imkonini beradi.
2.1-rasm. SRS@EBI veb-sahifasi

Ushbu tizimning afzalligi shundaki, olingan ko'rsatgichlarni tezda topish mumkin, bu esa operatorlarga tizim tomonidan bog'langan barcha resurslardagi yozuvlarni tanlash, bog'lash va ularga kirish imkonini beradi. SRS foydalanuvchisi o'z xohishiga ko'ra ulangan ma'lumotlar bazalari ro'yxatini osongina qayta belgilashi mumkin. Ketma-ket namuna olish tizimi nuklein kislotalarning ma'lumotlar bazalarini, EST (Expressed Sequence Tags ) , oqsil ketma-ketligini, oqsil qatlamlarining naqshlarini, oqsil tuzilmalarini va maxsus bibliografik ma'lumotlar bazalarini bog'laydi.


Shunday qilib, SRS juda kuchli tizim bo'lib, foydalanuvchilarga ma'lumotlarning ichki tuzilishi, so'rovlar tillari va boshqalar haqida qayg'urmasdan, yagona birlashtirilgan interfeys orqali turli xil ma'lumotlar bazalariga nisbatan so'rovlarni shakllantirish imkonini beradi.
SRS ko'plab geterogen ketma-ketlik ma'lumotlar bazalari va tanlangan ketma-ketliklarni ketma-ketlikni taqqoslash va tekislash dasturlari kabi analitik vositalar orqali uzatish uchun integratsiyalangan ma'lumot qidirish tizimidir. Umuman olganda, SRS oqsil va nukleotidlar ketma-ketligi, metabolik yo'llar, oqsil fazoviy tuzilmalari va funktsiyalari, genomlar, kasalliklar tavsiflari va fenotiplarning 140 dan ortiq ma'lumotlar bazalarini qidirishi mumkin. Shuningdek, u Prosite (http://prosite.expasy.org/) va Blocks (http://blocks.fhcrc.org/) protein strukturaviy motiv ma'lumotlar bazalari, transkripsiya faktorlari ma'lumotlar bazalari va maxsus ma'lumotlar bazalari kabi kichik ma'lumotlar bazalarini o'z ichiga oladi . . Ko'p sonli ma'lumotlar bazalariga kirishdan tashqari, SRS ma'lumotlar bazalari va ilovalarni ishga tushirish qulayligi o'rtasida qattiq aloqalarni (o'zaro havolalar orqali) ta'minlaydi.
Yagona ma'lumotlar bazasidagi qidiruv to'liq tarmoqdagi qidiruvga kengaytirilishi mumkin, ya'ni ma'lum bir protein bilan bog'liq barcha yozuvlarni ularni o'z ichiga olgan barcha ma'lumotlar bazalarida osongina topish mumkin. O'xshashlikni qidirish va moslashtirish dasturlari so'rov natijalarini oraliq faylga saqlamasdan bevosita ishga tushirilishi mumkin.
NCBI (National Center for Biotexnology information - National Center for Biotexnology Information) 1988 yilda Qo'shma Shtatlarda Milliy tibbiyot kutubxonasining bo'limi sifatida tashkil etilgan va Milliy sog'liqni saqlash instituti kampusida joylashgan.((NIH), Bethesda sh. (Bethesda , Merilend (http://www.ncbi.nlm.nih.gov/).
NCBIning vazifasi sog'lom va kasal organizmda sodir bo'ladigan molekulyar va genetik jarayonlarni o'rganish uchun yangi axborot texnologiyalarini ishlab chiqishdir.
Maxsus maqsadlarga - biologik ma'lumotlarni saqlash va tahlil qilish uchun avtomatlashtirilgan tizimlarni yaratish, ma'lumotlarni mashinada qayta ishlashning ilg'or texnologiyalarini ishlab chiqish, foydalanuvchilarning ma'lumotlar bazalari va dasturiy ta'minotga kirishini osonlashtirish, shuningdek, butun dunyo bo'ylab biotexnologik ma'lumotlarni to'plash bo'yicha sa'y-harakatlarni muvofiqlashtirish kiradi.
NIH tomonidan tashkil etilgan GenBank, DNK ketma-ketligi ma'lumotlar bazasini (http://www.ncbi.nlm.nih.gov/genbank/) saqlaydi.

Yüklə 1,41 Mb.

Dostları ilə paylaş:
1   ...   7   8   9   10   11   12   13   14   ...   95




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin