TrEMBLKB/TrEMBL.
TrEMBLKB/TrEMBL avtomatik izohlar bilan boyitilgan yuqori sifatli hisob-kitoblar bilan tahlil qilingan yozuvlarni o'z ichiga oladi. TrEMBLKB/Swiss-Prot-ning ko'p vaqt va mehnat talab qiladigan qo'lda izohlash jarayonini barcha mavjud protein ketma-ketliklarini qamrab olish uchun kengaytirib bo'lmagani uchun genom loyihalari natijasida ma'lumotlar oqimining ortishiga javoban joriy etildi. EMBL-Bank/GenBank/DDBJ nukleotidlar ketma-ketligi ma'lumotlar bazasidagi izohli kodlash ketma-ketliklarining tarjimalari avtomatik tarzda qayta ishlanadi va TrEMBLKB/TrEMBL-ga kiritiladi. TrEMBLKB/TrEMBL shuningdek, PDB dan va genlarni bashorat qilishdan, jumladan Ensembl , RefSeq va CCDS dan ketma-ketlikni o'z ichiga oladi. 2021-yil 22-iyuldan boshlab u AlphaFold uchinchi darajali va Alphafold-multimer bilan bashorat qilingan, hatto to'rtlamchi tuzilmalarni amalga oshirishi mumkin.
UniParc.
TrEMBL arxivi (UniParc) keng qamrovli va ortiqcha bo'lmagan ma'lumotlar bazasi bo'lib, u asosiy, ommaviy mavjud bo'lgan oqsillar ketma-ketligi ma'lumotlar bazalaridagi barcha oqsil ketma-ketliklarini o'z ichiga oladi. Proteinlar bir nechta turli xil manba ma'lumotlar bazalarida va bir xil ma'lumotlar bazasida bir nechta nusxada mavjud bo'lishi mumkin. Ortiqchalikni oldini olish uchun UniParc har bir noyob ketma-ketlikni faqat bir marta saqlaydi. Bir xil ketma-ketliklar bir xil yoki boshqa turlardan bo'lishidan qat'i nazar, birlashtiriladi. Har bir ketma-ketlikka barqaror va noyob identifikator (UPI) beriladi, bu turli manba ma'lumotlar bazalaridan bir xil proteinni aniqlash imkonini beradi. UniParc faqat oqsil ketma-ketligini o'z ichiga oladi, izohsiz. UniParc yozuvlaridagi ma'lumotlar bazasining o'zaro bog'liqligi manba ma'lumotlar bazalaridan oqsil haqida qo'shimcha ma'lumot olish imkonini beradi. Manba ma'lumotlar bazasidagi ketma-ketliklar o'zgarganda, bu o'zgarishlar UniParc tomonidan kuzatiladi va barcha o'zgarishlar tarixi arxivlanadi.
Manba ma'lumotlar bazalari.
Hozirda UniParc quyidagi ommaviy ma'lumotlar bazalaridan oqsil ketma-ketligini o'z ichiga oladi:
INSDC EMBL -Bank / DDBJ / GenBank nukleotidlar ketma-ketligi ma'lumotlar bazalari
Ansambl
Evropa patent idorasi (EPO)
FlyBase: Drosophilidae hasharotlar oilasi uchun genetik va molekulyar ma'lumotlarning asosiy ombori (FlyBase)
H-Invitational ma'lumotlar bazasi (H-Inv)
Xalqaro protein indeksi (IPI)
Yaponiya Patent idorasi (JPO)
Protein axborot resursi (PIR-PSD)
Protein ma'lumotlar banki (PDB)
Protein tadqiqot fondi (PRF)
RefSeq
Saxaromits genomlari bazasi (SGD)
Arabidopsis axborot resursi (TAIR)
TROMA
AQSh Patent idorasi (USPTO)
TrEMBLKB/Swiss-Prot, TrEMBLKB/Swiss-Prot protein izoformlari, TrEMBLKB/TrEMBL
Umurtqali hayvonlar va genom annotatsiyalar bazasi (VEGA)
WormBase
UniRef.
TrEMBL Reference Clusters (UniRef) TrEMBLKB va tanlangan UniParc yozuvlaridan olingan oqsil ketma-ketliklarining klasterli to'plamining uchta ma'lumotlar bazasidan iborat. UniRef100 ma'lumotlar bazasi bir xil ketma-ketliklarni va ketma-ketlik qismlarini (har qanday organizmdan ) yagona UniRef yozuviga birlashtiradi. Vakil oqsilning ketma-ketligi, barcha birlashtirilgan yozuvlarning kirish raqamlari va tegishli TrEMBLKB va UniParc yozuvlariga havolalar ko'rsatiladi. UniRef100 ketma-ketliklari CD-HIT algoritmi yordamida UniRef90 va UniRef50 ni yaratish uchun klasterlangan. [22] [23]Har bir klaster eng uzun ketma-ketlikka mos ravishda kamida 90% yoki 50% ketma-ketlik identifikatsiyasiga ega bo'lgan ketma-ketliklardan iborat. Klasterlash ketma-ketligi ma'lumotlar bazasi hajmini sezilarli darajada kamaytiradi, bu esa ketma-ketlikni tezroq qidirishga imkon beradi.
Dostları ilə paylaş: |