TrEMBL Reference Clusters (UniRef) TrEMBLKB va tanlangan UniParc yozuvlaridan olingan oqsil ketma-ketliklarining klasterli to'plamining uchta ma'lumotlar bazasidan iborat. UniRef100 ma'lumotlar bazasi bir xil ketma-ketliklarni va ketma-ketlik qismlarini (har qanday organizmdan ) yagona UniRef yozuviga birlashtiradi. Vakil oqsilning ketma-ketligi, barcha birlashtirilgan yozuvlarning kirish raqamlari va tegishli TrEMBLKB va UniParc yozuvlariga havolalar ko'rsatiladi. UniRef100 ketma-ketliklari CD-HIT algoritmi yordamida UniRef90 va UniRef50 ni yaratish uchun klasterlangan. [22] [23]Har bir klaster eng uzun ketma-ketlikka mos ravishda kamida 90% yoki 50% ketma-ketlik identifikatsiyasiga ega bo'lgan ketma-ketliklardan iborat. Klasterlash ketma-ketligi ma'lumotlar bazasi hajmini sezilarli darajada kamaytiradi, bu esa ketma-ketlikni tezroq qidirishga imkon beradi.
UniProt haqida.
Universal Protein Resurs (UniProt) oqsil ketma-ketligi va izoh ma'lumotlari uchun keng qamrovli manbadir. UniProt ma'lumotlar bazalari-bu UniProt ma'lumotlar bazasi (UniProtKB), UniProt ma'lumot klasterlari ( UniRef) va UniProt arxivi (UniParc). UniProt konsortsiumi va mezbon institutlar EMBL-EBI, SIB va PIR UniProt ma'lumotlar bazalarini uzoq muddatli saqlashga sodiqdir.
UniProt Yevropa bioinformatika instituti (EMBL-EBI) , SIB Shveytsariya bioinformatika instituti va oqsil axborot resursi (PIR) o'rtasidagi hamkorlikdir . Uchta institut bo'ylab 100 dan ortiq odam ma'lumotlar bazasini qayta ishlash, dasturiy ta'minotni ishlab chiqish va qo'llab-quvvatlash kabi turli vazifalar orqali jalb qilingan.
EMBL-EBI va SIB birgalikda Swiss-Prot va TrEMBL ishlab chiqarish uchun ishlatilgan, PIR esa Proteinlar ketma-ketligi ma'lumotlar bazasini (PIR-PSD) ishlab chiqargan. Ushbu ikkita ma'lumotlar to'plami turli xil proteinlar ketma-ketligi qamrovi va izoh ustuvorliklari bilan birga mavjud edi. TrEMBL (Translated EMBL Nukleotid Sequence Data Library) dastlab ketma-ketlik ma'lumotlari Swiss-Protning ushlab turish qobiliyatidan yuqori tezlikda yaratilganligi sababli yaratilgan. Shu bilan birga, PIR PIR-PSD va tegishli ma'lumotlar bazalarini, shu jumladan iProClass, oqsil ketma-ketliklari ma'lumotlar bazasi va kuratorli oilalarni saqladi. 2002 yilda uchta institut o'z resurslari va tajribalarini birlashtirishga qaror qildi va UniProt konsorsiumini tuzdi.
UniProt konsortsiumi Aleks Beytman, Alan Bridge va Keti Vu tomonidan boshqariladi, asosiy xodimlar tomonidan qo'llab-quvvatlanadi va mustaqil ilmiy maslahat kengashidan qimmatli ma'lumotlarni oladi.
UniProt Milliy Ko'z Instituti (NEI) , Milliy Inson Genomi Tadqiqot Instituti (NHGRI) , Milliy Yurak, O'pka va Qon Instituti (NHLBI), Qarish Milliy Instituti (NIA), Milliy Allergiya va Yuqumli Kasalliklar Instituti (NIAID ) tomonidan qo'llab-quvvatlanadi. Qandli diabet va ovqat hazm qilish va buyrak kasalliklari milliy instituti (NIDDK), Milliy umumiy tibbiyot fanlari instituti (NIGMS), Milliy ruhiy salomatlik instituti (NIMH) va Milliy sog'liqni saqlash institutlarining (NIH) Milliy saraton instituti (NCI )U24HG007822 granti bo'yicha. EMBL-EBI ning UniProt-dagi ishtiroki uchun qo'shimcha yordam Evropa molekulyar biologiya laboratoriyasi (EMBL) asosiy fondlari, Buyuk Britaniyaning Altsgeymer tadqiqotlari (ARUK) granti ARUK-NAS2017A-1, Biotexnologiya va biologik fanlar tadqiqot kengashi (BBSRC) [BB/T010541] tomonidan taqdim etiladi. SIBdagi UniProt faoliyati qo'shimcha ravishda Shveytsariya federal hukumati tomonidan Ta'lim, tadqiqot va innovatsiyalar bo'yicha SERI davlat kotibiyati orqali qo'llab-quvvatlanadi .
Xulosa. Biologik bilimlarning to'liq va dolzarb ma'lumotlar bazalari axborotga bog'liq biologik va biotexnologik tadqiqotlar uchun juda muhimdir. Ko'pgina organizmlar uchun genom ketma-ketliklarining tez to'planishi bilan ushbu genomlar tomonidan kodlangan oqsillarning identifikatsiyasi va funktsiyasiga e'tibor qaratilmoqda. Proteinlar ketma-ketligi va funktsional ma'lumotlarning ortib borayotgan hajmi va xilma-xilligi bilan UniProt zamonaviy biologik tadqiqotlar, ayniqsa proteomika sohasida faol olimlar uchun asos bo'lib, oqsil ketma-ketligi va funktsiyasining markaziy resursi bo'lib xizmat qiladi. Resurs ishonchli avtomatlashtirilgan izohlash yondashuvlarini adabiyotga asoslangan ekspert qo'llanmasi bilan birlashtirib, boy, izchil va ortiqcha bo'lmagan protein ma'lumotlarini taqdim etadi.