Molekulyar biologiya fanidan tayyorlagan



Yüklə 77,67 Kb.
səhifə9/15
tarix13.05.2022
ölçüsü77,67 Kb.
#57774
1   ...   5   6   7   8   9   10   11   12   ...   15
KONOTOKSIN

2.4 Ma'lumotlar to'plami

SVM-Freescore usulini baholash ikkita ma'lumotlar to'plamiga asoslanadi. Birinchi ma'lumotlar to'plami Mondal va boshqalar tomonidan ishlab chiqilgan. [ 8 ] va u ushbu maqolada "DATASET-1" deb nomlanadi. Konotoksin ketma-ketligi Swiss-Prot nashri 47.1 [ 48 ] dan to'plangan . P-konotoksin va S-konotoksin kabi bir nechta ketma-ketlikka ega superfamiliyalar tahlilga kiritilmagan. I-konotoksin super oilasi ham kiritilmagan, chunki u ilgari ikkita alohida gen superoilasiga, ya'ni I1-konotoksin va I2-konotoksinga bo'lingan. Ushbu jarayonning natijasi A ( S A ), M ( S M ), O ( S O ) va T ( S T ) dan 156 ta etuk konotoksin ketma-ketligini o'z ichiga olgan ma'lumotlar to'plami bo'ldi.) superoilalar. Yetuk peptidlar ketma-ketligi ko'pincha signal ketma-ketliklariga qaraganda ancha kam saqlanadi [ 49 ]. CD-HIT dasturida (CD-HIT - yuqori ketma-ketlik identifikatsiya chegarasida katta protein ma'lumotlar bazasini klasterlash uchun dastur) amalga oshirilganidek, ochko'z qo'shimcha algoritm [ 50 ] yordamida ma'lumotlarning ortiqchaligi olib tashlandi . Yakuniy ma'lumotlar to'plami to'rtta konotoksin o'ta oilasidan 116 ta yozuvdan iborat. Manfiy ma'lumotlar to'plami N ( S N ), shu jumladan yuqorida aytib o'tilgan to'rtta super oilaning hech biriga tegishli bo'lmagan ketma-ketliklarni turli funktsiyalarga ega turli eukaryotlardan hosil qilgan. CD-HIT dasturi salbiy to'plamni ko'rish uchun yana bir bor foydalanildi, natijada ketma-ketlik identifikatori 40% dan kam bo'lgan 60 ta ketma-ketlik paydo bo'ldi. Ketma-ketliklarning eksperimental izohlariga ko'ra, 116 ta ketma-ketlikni har bir super oila uchun to'rtta kichik to'plamga bo'lish mumkin. Quyida umumiy S to'plamining bo'limi keltirilgan :

Umumlashtirish maqsadida bizning usulimizni yuqori sifatli ma'lumotlar bazasi asosida baholash kerak edi. Bizga ma'lumki, ConoServer http://www.conoserver.org - bu konopeptidlar ketma-ketligi va uch o'lchovli tuzilmalarga ixtisoslashgan yagona ommaviy ma'lumotlar bazasi [ 3 ]. ConoServer o'n oltita ma'lum bo'lgan gen superfamilyalari haqida so'nggi ma'lumotlarni taqdim etadi. ConoServer-da topilgan ketma-ketliklar va tuzilmalarning aksariyati tengdoshlar tomonidan ko'rib chiqilgan maqolalar bilan bog'langan [ 3 ]]. 2011 yil mart holatiga ko'ra, ConoServer 3660 ta konopeptid ketma-ketligi uchun ma'lumotlarni o'z ichiga oladi. Faqat etuk peptid oqsil darajasida ajratilgan to'liq prekursor ketma-ketliklari olindi. Gen superfamiliyasining aniq identifikatsiyasi to'liq prekursor ketma-ketligini talab qiladi. Arzimas sonli ketma-ketliklarga ega (<15) superoilalar ushbu tadqiqotdan chiqarib tashlandi (G, I3, J, L, P, S va Y). Noma'lum aminokislotalarni o'z ichiga olgan ketma-ketliklar ham chiqarib tashlandi. Nihoyat, biz to'qqizta Superfamiliesdan 858 ta ketma-ketlikni o'z ichiga olgan ma'lumotlar to'plamini oldik. Shunday qilib olingan protein ketma-ketliklarining soni Jadvalda keltirilgan.2-jadval.2. Yakuniy ma'lumotlar to'plami ushbu maqolada "DATASET-2" deb nomlanadi.

DATASET-1 va DATASET-2 benchmark ma'lumotlar to'plamlari yaratilgandan so'ng, keyingi muammo ularni o'rgatish va bashorat qilish uchun oqsil namunalarini taqdim etish uchun samarali prognozlash mexanizmini qanday topishdir.

Birinchi eksperimental ishimizda biz DATASET-1 da SVM-Freescore ishlashini sinab ko'rdik. Jackknife cross validation testi ishlatilgan, chunki u boshqalar orasida eng qat'iy hisoblanadi va shuning uchun u tadqiqotchilar tomonidan keng qo'llanilgan [ 8 , 9 , 51 ]. SVM-Freescore unumdorligi tizim har qanday konotoksin superfamiliyalari a'zolarini qanchalik yaxshi taniy olishi bilan o'lchandi. Baholash chora-tadbirlarini tahlil qilish uchun, birinchi navbatda, jadvalda ko'rsatilganidek, favqulodda vaziyatlar jadvalini tushuntiramiz.3-jadval.3. Favqulodda vaziyatlar jadvalining to'rtta katakchasidagi yozuvlar quyidagicha tavsiflanadi:

• tp : "bog'liq" deb tasniflangan tegishli konotoksin oqsillari ketma-ketligi.

• fn : "bog'liq" sifatida tasniflangan bir-biriga bog'liq bo'lmagan konotoksin oqsillari ketma-ketligi.

• fp : "bog'liq bo'lmagan" deb tasniflangan tegishli konotoksin oqsillari ketma-ketligi.

• tn : "bog'liq bo'lmagan" deb tasniflangan bog'liq bo'lmagan konotoksin oqsillari ketma-ketligi.

• hammasi : konotoksin oqsillari ketma-ketliklarining umumiy soni.

Favqulodda vaziyatlar jadvalida kodlangan ma'lumotlar quyidagi baholash ko'rsatkichlarini hisoblash uchun ishlatilgan: sezgirlik (SN) = tp /( tp + fn ), o'ziga xoslik (SP) = tn / ( tn + fp ) va aniqlik (AC) = ( tp + tn )/ hammasi .

Jek pichoqni o'zaro tekshirish testida qo'llaniladigan protseduradan so'ng biz xatti-harakatlarni tahlil qildik va SVM-Freescore-ning konotoksin oqsillari ketma-ketligi o'rtasidagi o'xshashlikni hisoblash qobiliyatini tasvirlab berdik. Tajribalarning maqsadi tasniflash tizimida haroratning ( T ), maksimal so'z hajmining ( k max ) va o'zgaruvchan oyna o'lchamining (ℓ Vt ) o'zgaruvchan parametrlarining ta'sirini kuzatish edi . Ushbu parametrlar 2-bo'limda keltirilgan. Eslatib o'tamiz, ℓ Vt xususiyat vektor fazosining o'lchamiga bog'liq. SVM parametrlariga kelsak, yadro masshtablash parametri g 0,04 ga va jarima parametri C ga o'rnatildi.100 ga o'rnatildi. O'qitish va test atributlari SVMni qo'llashdan oldin chiziqli ravishda -1 va +1 oralig'ida o'lchagan. Masshtablashning asosiy afzalligi shundaki, kattaroq raqamli diapazonlardagi atributlar kichikroq raqamli diapazonlardagi atributlardan ustun bo'lishidan qochishdir [ 52 ]. Bunday holda, biz kontoksin oqsillarini tasniflash uchun http://www.csie.ntu.edu.tw/~cjlin/libsvm saytida mavjud bo'lgan Vektorli mashinalarni qo'llab-quvvatlash kutubxonasidan [ 53 ] foydalandik .




Yüklə 77,67 Kb.

Dostları ilə paylaş:
1   ...   5   6   7   8   9   10   11   12   ...   15




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin