2.3. SWISS-PROT-da saqlangan ma'lumotlarni boshqarish
SWISS-PROT bu Jeneva universiteti Tibbiyot biokimyosi kafedrasida yaratilgan va 1987 yildan beri kafedra va Yevropa molekulyar biologiya laboratoriyasi (EMBL) hamkorlikdagi sa'y-harakatlari bo'lgan izohli oqsil ketma-ketligi ma'lumotlar bazasidir. SWISS -PROT endi EMBL va Shveytsariya bioinformatika instituti (SIB) o'rtasidagi teng huquqli hamkorlikdir. EMBL faoliyati Hinxton Outstation, Yevropa bioinformatika instituti (EBI) tomonidan amalga oshiriladi.
SWISS-PROT protein ketma-ketligi ma'lumotlar bazasi ketma-ketlik yozuvlaridan iborat. Ketma-ket yozuvlar har xil chiziq turlaridan iborat bo'lib, ularning har biri o'z formatiga ega. Standartlashtirish maqsadida SWISS-PROT formati (qarang: http://www.expasy. ch/txt/userman.txt) EMBL nukleotidlar ketma-ketligi ma'lumotlar bazasiga imkon qadar yaqinroqdir. SWISS-PROT yozuvining namunasi http://www.expasy.ch/cgi-bin/niceprot sahifasida ko'rsatilgan. pl? P29965
SWISS-PROT ma'lumotlar bazasi o'zini boshqa oqsillar ketma-ketligi ma'lumotlar bazalaridan uchta aniq mezon bilan ajratib turadi: (i) izohlar, (ii) minimal ortiqcha va (iii) boshqa ma'lumotlar bazalari bilan integratsiya.
Izoh
SWISS-PROT-da ma'lumotlarning ikki sinfini ajratish mumkin: asosiy ma'lumotlar va izoh. Har bir ketma-ketlik kiritish uchun asosiy ma'lumotlar ketma-ketlik ma'lumotlaridan iborat; iqtibos ma'lumotlari (bibliografik manbalar) va taksonomik ma'lumotlar (oqsilning biologik manbasining tavsifi), izoh esa quyidagi elementlarning tavsifidan iborat:
• Oqsilning funksiya(lari).
• Post-tarjima modifikatsiya(lar). Masalan, uglevodlar, fosforlanish, asetillanish, GPI-langar va boshqalar.
• Domenlar va saytlar. Masalan, kaltsiyni bog'laydigan hududlar, ATP bilan bog'lanish joylari, sink barmoqlari, homeoboxlar, SH2 va SH3 domenlari va boshqalar.
• Ikkilamchi tuzilma. Masalan, alfa spiral, beta varaq va boshqalar.
• To'rtlamchi tuzilish. Masalan, homodimer, geterotrimer va boshqalar.
• Boshqa oqsillarga o'xshashlik
• Protein etishmovchiligi(lar)i bilan bog'liq kasallik(lar).
• Ketma-ket ziddiyatlar, variantlar va boshqalar.
Biz SWISS-PROT-ga iloji boricha ko'proq izoh ma'lumotlarini kiritishga harakat qilamiz. Ushbu ma'lumotni olish uchun biz yangi ketma-ketlik ma'lumotlari haqida xabar beruvchi nashrlarga qo'shimcha ravishda, oilalar yoki oqsillar guruhlari izohlarini vaqti-vaqti bilan yangilash uchun maqolalarni ko'rib chiqamiz. Biz, shuningdek, bizga oqsillarning muayyan guruhlari bo'yicha o'z sharhlari va yangilanishlarini yuborish uchun jalb qilingan tashqi ekspertlardan foydalanamiz (qarang: http://www.expasy. ch/cgi-bin/experts).
Bizning fikrimizcha, asosiy ma'lumotlarni taqdim etuvchi nashrlardan boshqa nashrlarga ham, mavzu bo'yicha hakamlarga ham tizimli murojaat qilish SWISS-PROTning o'ziga xos va foydali xususiyati hisoblanadi. SWISS-PROT-da izohlar asosan sharh satrlarida (CC), xususiyatlar jadvalida (FT) va kalit so'z satrlarida (KW) mavjud. Ko'pchilik sharhlar "mavzular" bo'yicha tasniflanadi; Ushbu yondashuv ma'lumotlar bazasidan ma'lum toifadagi ma'lumotlarni osongina olish imkonini beradi.
Minimal ortiqcha
Ko'pgina ketma-ketlik ma'lumotlar bazalarida ma'lum bir protein ketma-ketligi uchun turli adabiyot hisobotlariga mos keladigan alohida yozuvlar mavjud. SWISS-PROT-da biz ma'lumotlar bazasining ortiqchaligini minimallashtirish uchun barcha ma'lumotlarni birlashtirishga harakat qilamiz. Turli xil ketma-ketlik hisobotlari o'rtasida ziddiyatlar mavjud bo'lsa, ular tegishli SWISS-PROT yozuvining xususiyatlar jadvalida ko'rsatilgan.
Boshqa ma'lumotlar bazalari bilan integratsiya
Biomolekulyar ma'lumotlar bazalari foydalanuvchilariga ketma-ketlik bilan bog'liq ma'lumotlar bazalarining uchta turi (nuklein kislotalari ketma-ketligi, oqsillar ketma-ketligi va uchinchi darajali oqsil tuzilmalari), shuningdek, maxsus ma'lumotlar to'plamlari o'rtasida integratsiya darajasi bilan ta'minlash muhimdir. O'zaro havolalar SWISS-PROT yozuvlari bilan bog'liq ma'lumotlarga ko'rsatgichlar shaklida taqdim etiladi va SWISS-PROTdan boshqa ma'lumotlar to'plamlarida topiladi. Misol uchun, yuqorida aytib o'tilgan namuna ketma-ketligi, boshqalar qatori, EMBL, PDB, OMIM, Pfam va PROSITE ga ishora qiluvchi DR (Ma'lumotlar banki ma'lumotnomasi) qatorlarini o'z ichiga oladi. Shunday qilib, ushbu maxsus misolda ushbu proteinni (EMBL) kodlaydigan nuklein kislotalar ketma-ketligini, ushbu protein (OMIM) bilan bog'liq bo'lgan genetik kasallik(lar) tavsifini olish mumkin,
Biz genomlar ketma-ketligi va/yoki xaritalash loyihalari maqsadi bo'lgan bir qator organizmlarni tanladik va ular uchun:
(i) iloji boricha to'liq bo'lishi;
(ii) yuqori darajadagi izohni taqdim etish;
(iii) boshqa ma'lumotlar bilan bir qatorda ushbu oqsillarni kodlaydigan genlar haqidagi ba'zi genetik ma'lumotlarni o'z ichiga olgan ixtisoslashtirilgan ma'lumotlar bazasiga (lar) o'zaro havolalar berish; va
(iv) maxsus indekslar yoki hujjatlarni taqdim etish.
Hozirgi vaqtda tanlab olingan organizmlar: Arabidopsis thaliana (sichqon-quloq krepi), Bacillus subtilis , Caenorhabditis elegans (chuvalchang), Candida albicans , Dictyostelium discoideum (shilimshiq mog'or), Drosophila melanogaster (meva pashshasi), Escherichlupylia , Escherichluopenus , men , Homo sapiens (odam), Methanococcus jannaschii , Mus musculus (sichqoncha), Mycobacterium tuberculosis , Mycoplasma genitalium , Saccharomyces cerevisiae (tomurcuklanma xamirturush),Salmonella typhimurium , Schizosaccharomyces pombe (bo'linish xamirturush), Sulfolobus solfataricus va Synechocystis sp. PCC 6803.
Birgalikda bu organizmlar SWISS-PROTdagi ketma-ketlik yozuvlari umumiy sonining ~40% ni tashkil qiladi. Biz hozirda E.coli , B.subtilis , M.jannaschii va xamirturushdan olingan barcha prognoz qilingan oqsillarni SWISS-PROTga integratsiyalashni yakunlashga harakat qilmoqdamiz .
1999 yil iyul oyida TrEMBL 11-versiyasi ishlab chiqarildi. 11-nashr EMBL Nukleotidlar ketma-ketligi ma'lumotlar bazasi 58-versiyasidagi barcha 379 000 CDS tarjimasiga asoslangan edi. Ushbu CDS larning 119 000 ga yaqini allaqachon SWISS-PROT da ketma-ketlik hisobotlari sifatida bo'lgan va shuning uchun TrEMBLdan chiqarib tashlangan. Qolgan 260 000 ta ketma-ketlik yozuvlari TrEMBL-da ortiqchalikni kamaytirish uchun iloji boricha avtomatik ravishda birlashtirildi. Ushbu qadam 245 761 TrEMBL yozuviga olib keldi.
Biz TrEMBLni ikkita asosiy qismga ajratdik; SP-TrEMBL va REM-TrEMBL: SP-TrEMBL (SWISS-PROT TrEMBL) SWISS-PROT-ga kiritilishi kerak bo'lgan yozuvlarni (11-nashrda 199 794) o'z ichiga oladi. Ushbu yozuvlarga SWISS-PROT kirish raqamlari berilgan. SP-TrEMBL SWISS-PROT-ga nisbatan qisman ortiqcha, chunki bu yozuvlarning ~60 000 tasi SWISS-PROT-dagi oqsillarning faqat qo'shimcha ketma-ketlik hisobotidir. TrEMBL ning SWISS-PROT ga kompyuter izohli qo'shimchasi sifatida ishlashi uchun ortiqchalikni olib tashlash va avtomatik ravishda yuqori ishonchli izoh qo'shish uchun yangi tartiblar joriy etildi .
TrEMBL izohini yaxshilash uchun oltin standart sifatida mavjud SWISS-PROT annotatsiyasidan foydalanadigan qoidaga asoslangan tizim qo'llaniladi. Hozirda bu jarayon barcha TrEMBL yozuvlarining atigi 15 foiziga ta'sir qiladi. Qo'shimcha qoidalarni yaratish kelgusi yil davomida TrEMBL uchun ustuvor vazifalardan biri bo'ladi. Bu avtomatik izoh bilan qamrovning keskin oshishiga olib kelishi kerak.
REM-TrEMBL (REMaining TrEMBL) biz SWISS-PROT-ga kiritishni istamaydigan yozuvlarni (11-nashrda ~ 46 000) o'z ichiga oladi.
Akademik foydalanuvchilar uchun SWISS-PROT dan foydalanish bepul. Biroq, 1998 yil sentyabr oyida biz ma'lumotlar bazasidan tijorat foydalanuvchilari uchun yillik abonent to'lovi tizimini joriy qildik. SIB va EMBL/EBI yangi kompaniya, Geneva Bio-informatics (GeneBio) (http://www.genebio.com) ga zarur litsenziya shartnomalarini tuzish va to'lovlarni undirish maqsadida ularning vakili sifatida harakat qilish majburiyatini yukladi. Yig'ilgan mablag'lar SIB va EBIda SWISS-PROTni yangilash, uni yangilab turish va sifatini yanada oshirish uchun ishlatiladi. Ushbu yangi tizim haqida qo'shimcha ma'lumotni http://www.expasy.ch/announce/ saytidan olishingiz mumkin.
Joriy SWISS-PROT nashrining mazmuni
Hozirda (1999 yil oktyabr), SWISS-PROT ~ 81 000 ta ketma-ketlik yozuvlarini o'z ichiga oladi, ular ~ 65 000 havolalardan olingan 30 million aminokislotalarni o'z ichiga oladi. Ma'lumotlar fayli (ketma-ketliklar va izohlar) diskda 185 Mb saqlash joyini talab qiladi. Hujjatlar va indeks fayllari uchun ~65 Mb disk maydoni talab qilinadi.
SWISS-PROT va TrEMBL-ga interaktiv kirish
SWISS-PROT yoki TrEMBL-da interaktiv ko'rib chiqishning eng samarali va foydalanuvchilarga qulay usuli bu WWW molekulyar biologiya serveri ExPASy va EBI tomonidan ishlab chiqilganidan foydalanishdir. 1993-yil sentabrida ExpASy veb-server ommaga taqdim etildi. 1999-yil oktyabr oyida jami 60 million ulanishga erishildi. Uning manzili:
http://www.expasy.ch/
ExPASy-ning to'liq va yangilangan oyna saytlari Avstraliya, Kanada va Tayvanda mavjud:
http://expasy.proteome.org.au/ (Avstraliya Proteome Analysis Facility, Sidneyda)
http://expasy.cbr.nrc.ca/ (Kanada bioinformatika resursida, Halifax)
http://expasy.nhri.org.tw/ (Milliy sog'liqni saqlash tadqiqot institutlarida, Taypeyda)
EBI serveriga quyidagi manzilda kirish mumkin:
http://www.ebi.ac.uk/
ExPASy va EBI veb-serverlarida ketma-ketlik yozuvlarini so'rash va olish uchun Sequence Retrieval System (SRS) ( 6 ) dasturiy paketidan foydalanishingiz mumkin. EBI va SIB shuningdek, Smit-Waterman, FASTA va BLAST ketma-ketligi o'xshashligini ishlatish uchun bir qator qidiruv xizmatlarini taklif qiladi (http://www2.ebi.ac.uk/ yoki http://www.expasy.ch/tools/ ga qarang). SWISS-PROT + TrEMBL ga qarshi qidiruvlar.
To'liq SWISS-PROT va/yoki TrEMBL relizlarini qanday olish mumkin
SWISS-PROT + TrEMBL EBI tomonidan CD-ROMda tarqatiladi ( 2 ). CD-ROMlar shuningdek, MS-DOS va Apple Macintosh kompyuterlari uchun ma'lumotlar bazasi so'rovlari va qidirish dasturlarini o'z ichiga oladi. Barcha savollar uchun quyidagi manzilga murojaat qiling: EMBL Outstation — Yevropa bioinformatika instituti, Wellcome Trust Genome Campus, Hinxton, Kembrij CB10 1SD, Buyuk Britaniya. Tel: +44 1223 494 444; Faks: +44 1223 494 468; Elektron pochta: datalib@ebi.ac.uk
Internetga ulangan kompyuterdan SWISS-PROT va TrEMBL ni anonim FTP (Fayl uzatish protokoli) yordamida quyidagi serverlardan olishingiz mumkin: ftp.expasy.ch va ftp.ebi.ac.uk
SWISS-PROT-ga ma'lumotlarni yoki yangilanishlarni/tuzatishlarni qanday yuborish kerak
SWISS-PROTga yangi ketma-ketlik ma'lumotlarini yuborish va topshirish jarayoniga oid barcha so'rovlar uchun quyidagi manzilga murojaat qiling: SWISS-PROT, The EMBL Outstation — The European Bioinformatika Instituti, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Buyuk Britaniya. Tel: +44 1223 494 457; Faks: +44 1223 494 468; Elektron pochta: datasubs@ebi.ac.uk (yuborish uchun) yoki datalib@ebi. ac.uk (so'rovlar uchun).
SWISS-PROT-ga yangilanishlar va/yoki tuzatishlar yuborish uchun siz swiss-prot@expasy.ch elektron pochta manzilidan yoki http://www.expasy.ch/sprot/sp_update_form.html WWW manzilidan foydalanishingiz mumkin.
Chiqarish chastotasi, haftalik yangilanishlar va ortiqcha bo'lmagan ma'lumotlar to'plamlari
Joriy tarqatish chastotasi yiliga to'rtta nashr. Haftalik yangilanishlar ham mavjud; bu yangilanishlar anonim FTP orqali mavjud. SWISS-PROT uchun har hafta uchta fayl yangilanadi:
• new_seq.dat Oxirgi to'liq nashrdan beri barcha yangi yozuvlarni o'z ichiga oladi.
• upd_seq.dat Oxirgi nashrdan beri ketma-ketlik ma'lumotlari yangilangan yozuvlarni o'z ichiga oladi.
• upd_ann.dat Oxirgi nashrdan beri bir yoki bir nechta izoh maydonlari yangilangan yozuvlarni o'z ichiga oladi.
TrEMBL uchun oxirgi to'liq nashrdan beri barcha yangi yozuvlarni o'z ichiga olgan fayl (trembl_new.dat) har hafta yangilanadi.
Ushbu fayllar Internet manzillari yuqorida keltirilgan EBI va ExPASy serverlarida mavjud.
Har haftada biz uchta siqilgan faylni (ExPASy FTP serveridagi /databases/sp_tr_nrdb katalogida va EBI serveridagi /pub/databases/sp_tr_nrdb katalogida) taqdim etish orqali to'liq ortiqcha bo'lmagan oqsil ketma-ketligi to'plamini ishlab chiqaramiz: sprot.dat.Z , trembl.dat.Z va trembl_new.dat.Z.
XULOSA
Xulosa qilib shuni aytish mumkinki, Bioinformatikada ma'lumotlar to'plamini ishlab chiqish har qanday tahlil yoki bashorat uchun asosiy rol o'ynaydi. SWISSPROT yordamida aminokislotalar ketma-ketligi ma'lumotlar to'plamini osongina ishlab chiqish mumkin . Misol uchun, "transkripsiya omillari" ma'lumotlarini olish tartibi 1.14a-rasmda ko'rsatilgan . UniProtKB-da "transkripsiya omillari" kalit so'zi bilan qidirish SWISS-PROT va TrEMBL-da saqlangan barcha tegishli yozuvlarni ko'rsatadi.
SWISS-PROT ( Bairoch va Apweiler, 1996 ) 1986-yilda tashkil etilgan va Jeneva universitetining Tibbiy biokimyo kafedrasi va EMBL maʼlumotlar kutubxonasi tomonidan 1987-yildan beri hamkorlikda yuritiladigan izohli oqsil ketma-ketligi maʼlumotlar bazasi. Bu yuqori darajadagi izohlarni (masalan, oqsil funktsiyasining tavsifi, uning domen tuzilishi, translatsiyadan keyingi modifikatsiyalari va variantlari ), minimal ortiqcha ortiqcha va yuqori darajadagi ma'lumotlarni taqdim etishga intiladigan oqsillar ketma-ketligi ma'lumotlar bazasi. boshqa ma'lumotlar bazalari bilan integratsiya. TrEMBL bu EMBL nukleotidlar ketma-ketligining barcha tarjimalarini o'z ichiga olgan SWISS-PROT ning kompyuter izohli qo'shimchasidir.SWISS-PROT-ga hali integratsiyalanmagan yozuvlar. Hozirda SWISS-PROT va TrEMBL mos ravishda 0,5 va 7,6 million ketma-ketlikka ega. Ushbu ma'lumotlar bazalari http://www.expasy.org/sprot/ va http://www.ebi.ac.uk/swissprot/ saytlarida bepul mavjud .
SWISS-PROT oqsilning nomi va kelib chiqishi, oqsil atributlari, umumiy ma'lumotlar, ontologiyalar, ketma-ketlik annotatsiyasi, aminokislotalar ketma-ketligi , bibliografik havolalar, ketma-ketlik bilan o'zaro havolalar, tuzilish va o'zaro ta'sir ma'lumotlar bazalari va kirish ma'lumotlarini o'z ichiga oladi. Bundan tashqari, u ketma-ket qidiruv tizimi (SRS), to'liq matnli qidiruv, kengaytirilgan qidiruv yoki tavsif yoki identifikatsiya raqami bo'yicha bir nechta qidiruv imkoniyatlariga ega.
Dostları ilə paylaş: |