Standart bo‘yicha to‘g‘ri tuzilgan ikki xil darajadagi XML hujjatlar aniqlangan: To‘g‘ri tuzilgan (Well-formed). To‘g‘ri tuzilgan hujjat XML sintaksisining barcha umumiy qoidalarga mos keladi. Masalan, XML-hujjatning ochilgan tegi o‘ziga mos yopilgan tegiga ega bo‘lmasa, noto‘g‘ri tuzilgan hujjat hisoblanadi. Noto‘g‘ri tuzilgan hujjat XML-hujjat hisoblanmaydi. Bu holatda XML-protsessor fatal xatolikni keltirib chiqarishi kerak. Ishonchli (Valid). Ishonchli hujjat qo‘shimcha yana semantik qoidalarga ham mos kelishi kerak. Bu foydalanuvchi tomonidan oldindan aniqlangan tashqi qoidalarga (masalan, struktura va matni) mos kelishi yanada jiddiyroq tekshiruvdan o‘tkazilgan hujjat. Odatda bunday qoidalar hujjatning strukturasi, elementlari, atributlari va b. aniq yozib chiqilgan maxsus sxema – fayllarda saqlanadi.
XML sintaksisi
Bu bo‘limda faqat to‘g‘ri tuzilgan XML-hujjatlar sintaksisi haqida so‘z yuritiladi. XML – ixtiyoriy ma’lumotni o‘zida saqlashga mo‘ljallangan matn shaklidagi ierarxik struktura. Bunday struktura tashqi ko‘rinishidan elementlar daraxti tarzida tasavvur etilish mumkin. XML elementlari teglar tarzida aniqlanadi. Misol tarzida XML yordamida belgilangan oddiy kulinariya retseptini ko‘rishimiz mumkin: Muka Drojji Tyoplaya voda Sol Smeshat vse ingredientы i tщatelno zamesit. Zakrыt tkanyu i ostavit na odin chas v tyoplom pomeщenii. Zamesit yeщyo raz, polojit na protiven i postavit v duxovku.
XML e’lonlar
XML-hujjatning birinchi satri XML e’lon deyiladi (XML declaration). Bu zarur bo‘lmagan satrda XML standart versiyasi va simvollar kodirovkasi e’lon qilinadi. XML-protsessor albatta UTF-8, UTF-16 yunikod-kodirovkalarni tanishi talab qilinadi. Boshqa keng ishlatiladigan ISO/IEC 8859 standartga asoslangan Windows-1251, KOI-8 ruscha kodirovkalarni ham tanishi mumkin.
Maxsus simvollar
XML-hujjatda maxsus ishlatiladigan simvollar aniqlangan. Maxsus simvollar boshqa simvollardan oldidan ampersend belgisi (&) va ortidan keyin nuqta vergul (;) qo‘yib ajratiladi. Oldindan aniqlangan maxsus simvollar & (&), < ( (>), ' (') i " (") dan iborat. – uzun probelni anglatadi. Ixtiyoriy simvolni uning yunikod kodini (yunikod; tarzida) yozib ham ko‘rsatish mumkin