Molecular Phylogenetics and Evolution 43 (2007) 124-139



Yüklə 292.73 Kb.
PDF просмотр
səhifə1/2
tarix18.08.2017
ölçüsü292.73 Kb.
  1   2

Molecular Phylogenetics and Evolution 43 (2007) 124–139

www.elsevier.com/locate/ympev

1055-7903/$ - see front matter 

© 2006 Elsevier Inc. All rights reserved.

doi:10.1016/j.ympev.2006.08.013

Structural partitioning, paired-sites models and evolution of the ITS 

transcript in Syzygium and Myrtaceae

E. Bi


Yn

a,b,¤


, M.G. Harrington

c

, M.D. Crisp



b

, L.A. Craven

a

, P.A. Gadek



c



Australian National Herbarium, CPBR, CSIRO Plant Industry, GPO Box 1600, Canberra, ACT 2601, Australia



School of Botany and Zoology, The Australian National University, Canberra, ACT 0200, Australia



School of Tropical Biology, James Cook University, Cairns, Qld 4870, Australia

Received 17 March 2006; revised 31 July 2006; accepted 14 August 2006

Available online 22 August 2006



Abstract

The internal transcribed spacers (ITS) of nuclear ribosomal DNA are widely used for phylogenetic inference. Several characteristics,

including the in

Xuence of RNA secondary structure on the mutational dynamics of ITS, may impact on the accuracy of phylogenies esti-

mated from these regions. Here, we develop RNA secondary structure predictions for representatives of the angiosperm family Myrta-

ceae. On this basis, we assess the utility of structural (stem vs. loop) partitioning, and RNA-speci

Wc (paired-sites) models for a 76 taxon

Syzygium alignment, and for a broader, family-wide Myrtaceae ITS data set. We use a permutation approach to demonstrate that struc-

tural partitioning signi

Wcantly improves the likelihood of the data. Similarly, models that account for the non-independence of stem-pairs

in RNA structure have a higher likelihood than those that do not. The best-

Wt RNA models for ITS are those that exclude simultaneous

double substitutions in stem-pairs, which suggests an absence of strong selection against non-canonical (G·U/U·G) base-pairs at a high

proportion of stem-paired sites. We apply the RNA-speci

Wc models to the phylogeny of Syzygium and Myrtaceae and contrast these with

hypotheses derived using standard 4-state models. There is little practical di

Verence amongst relationships inferred for Syzygium although

for Myrtaceae, there are several di

Verences. The RNA-speciWc approach Wnds topologies that are less resolved but are more consistent

with conventional views of myrtaceous relationships, compared with the 4-state models.

© 2006 Elsevier Inc. All rights reserved.



Keywords: ITS1; ITS2; Secondary structure; Stems; Loops; Mutational dynamics; RNA-speci

Wc models; Model selection; Maximum likelihood; Bayesian

analysis

1. Introduction

Sequences of the internal transcribed spacer (ITS)

regions of nuclear ribosomal DNA (rDNA) are a widely

used molecular tool for inferring evolutionary relationships

amongst eukaryotes (e.g., 

Hershkovitz and Lewis, 1996;

Hershkovitz and Zimmer, 1996; Hershkovitz et al., 1998;

Alvarez and Wendel, 2003; Schultz et al., 2005

). Several fac-

tors, such as high copy number, universality of primer

sequences, and the relatively small size of the spacers make

data from these regions relatively easy to obtain. In

addition, the expectation of high inter-speci

Wc and low

intra-genomic variability, and bi-parental mode of inheri-

tance has driven the popularity of ITS sequencing (

Hers-

hkovitz et al., 1998; Alvarez and Wendel, 2003



). While

sequencing of ITS has undoubtedly made substantial con-

tributions to phylogenetics, several factors including vari-

able (incomplete) rates of concerted evolution, the presence

of divergent pseudogene copies, and highly complex pat-

terns of sequence evolution may confound the reconstruc-

tion of historical relationships inferred from these regions

(see 


Alvarez and Wendel, 2003

, and references therein).

A speci

Wc concern is the inXuence of RNA secondary



structure on the mutational dynamics of ITS, which has

important implications for phylogenetic inference (

Alvarez

and Wendel, 2003



). rDNAs encode RNA genes, which are

*

Corresponding author.



E-mail address: 

Ed.Bi


Yn@csiro.au

 (E. Bi


Yn).

E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

125


single stranded but develop secondary structure (helical

regions, or stems, formed by intra-molecular base pairing)

as part of the formation and functioning of ribosomes

(

Noller, 1984



). Many RNA molecules are subject to evolu-

tionary constraint related to the maintenance of speci

Wc

secondary structures that provide functionality. However, it



is frequently observed that homologous stable stem struc-

tures are maintained despite extensive nucleotide diver-

gence, because stem pairing regions of conserved RNAs

evolve via selectively neutral mutations in the form of com-

pensatory (or hemi-compensatory) base pair change (CBC).

Mutations at di

Verent (often–distant) sites in a molecule

can be correlated because a change in one nucleotide in a

stem pair must be compensated by a change in the oppos-

ing member, in order to preserve an energetically stable sec-

ondary structure (

Higgs, 2000

). Most phylogeny

reconstruction methods assume independence amongst

sites and may therefore be unsuitable for RNAs with con-

served secondary structure (

Wheeler and Honeycutt, 1988;

Dixon and Hillis, 1993; Tillier and Collins, 1998; Higgs,

2000; Savill et al., 2001; Telford et al., 2005

). More gener-

ally, there is an expectation that the patterns of evolution

may vary substantially between stem-paired and single

stranded (loop) regions, and for example, helical regions of

RNA molecules tend to be G–C rich suggesting selection to

maintain thermodynamically stable stem structures (

Hers-


hkovitz et al., 1998; Higgs, 2000; Savill et al., 2001

). In sin-

gle stranded regions, there may be a pronounced bias

towards adenine nucleotides, which are associated with sev-

eral well-characterised RNA structural motifs, some of

which are implicated in higher-level (tertiary) structural

interactions (

Gutell et al., 2000

).

The secondary structure of the ITS regions has been



estimated for a number of phylogenetic studies, although

the focus, primarily, has been the potential of structural

information to facilitate homology-based sequence align-

ment amongst divergent sequences (e.g., 

Gottschling et al.,

2001; Goertzen et al., 2003

) or the identi

Wcation of puta-

tive pseudogene copies of the ITS transcript (e.g., 

Buckler


and Holtsford, 1996; Bailey et al., 2003

). However, there

are no ITS-based studies to date which have attempted to

directly incorporate secondary structure information into

models of RNA sequence evolution, perhaps in part

re

Xecting the widespread assumption that the ITS are



under low functional constraint, and therefore approxi-

mate a neutral evolutionary model. Furthermore, and in

contrast to rDNA coding regions (such as the 5.8S rDNA

gene, see 

Hershkovitz and Zimmer, 1996

), the ITS lack a

broad conservation of sequence (e.g., 

Baldwin, 1992;

Hershkovitz and Zimmer, 1996; Hershkovitz et al., 1998

)

and this is believed to limit the accuracy of conventional



approaches to RNA structure prediction (

Alvarez and

Wendel, 2003

). Nevertheless, there is strong evidence for a

generally conserved functional role for ITS that is medi-

ated at the sequence and structural level (e.g., 

Joseph

et al., 1999; Côté and Peculis, 2001; Lalev and Nazar,



1999, 2001

). The ITS are sequentially cleaved from the

large precursor (pre-RNA) molecule (80-90S nucleolar

particle) and digested. However, there are close interde-

pendencies in the cleavage pathway, re

Xecting the need for

higher order structure in the pre-RNA, including the ITS,

that may be necessary to organise the cleavage sites in

close spatial proximity (

Lalev et al., 2000

). Key structural

elements, including cleavage sites and binding sites for

nucleolar proteins (including those associated with the

spliceosome-like protein complex referred to as the ribo-

some assembly chaperone, see 

Lalev et al., 2000

), may be

essentially conserved across eukaryotes (e.g., 

van Nues

et al., 1994; Mai and Coleman, 1997; Joseph et al., 1999;

Lalev and Nazar, 1999; Coleman, 2003; Schultz et al.,

2005


). Therefore, the concerns relating RNA secondary

structural constraints to phylogenetic analysis could rea-

sonably apply to sequences of the ITS regions.

The study of 

Harrington and Gadek (2004)

 used ITS

sequences to infer evolutionary relationships within the

angiosperm genus Syzygium and its allies (Myrtaceae)

although the hypothesis they present is based upon rela-

tively simple evolutionary models, including maximum

parsimony, and a Bayesian analysis employing a model

that allows for di

Verential rates of transitions and trans-

versions (HKY85). Phylogenetic studies have demon-

strated that structural partitioning and the use of

complex evolutionary models may better account for the

mutational processes occurring in RNA sequences (

Wil-


genbusch and De Querioz, 2000; Savill et al., 2001; Jow

et al., 2002; Hudelot et al., 2003; Kjer, 2004; Telford et al.,

2005

). In particular, maximum likelihood (ML)



approaches to phylogeny reconstruction have facilitated

the development of models of RNA sequence evolution

which treat stem nucleotides as paired sites, and thus

account for the possible non-independence of sites within

stem-pairing regions (e.g., 

Tillier and Collins, 1998;

Schöniger and von Haeseler, 1999; Higgs, 2000; Savill

et al., 2001; Jow et al., 2002

). Three classes of models

(RNA16, RNA7, and RNA6, in the terminology of 

Savill

et al., 2001



) provide rates for the commonly observed

base-pairs in secondary structure (i.e., Watson–Crick,

G·C/C·G/A·U/U·A, and ‘wobble’, G·U/U·G, pairs) but

di

Ver in the treatment of mismatch pairs. RNA16



includes a rate class for each of the possible mismatch

pairings (i.e., 16 £ 16 rate matrix), RNA7 includes a sin-

gle mismatch class (i.e., 7 £ 7 rate matrix; RNA7) while

for RNA6, mismatches are completely excluded (i.e.,

6 £ 6 rate matrix) from the analysis. Restrictions of these

generalised models include those that exclude the possi-

bility of double substitutions (i.e., all double transitions

pass through a GU intermediate, and all double transver-

sions pass through a mismatch pair) or enforce base-pair

reversal symmetry (e.g., the rate for AU is equal to the

rate for UA). Recently, 

Savill et al. (2001)

 compared the

variants for each class of RNA model for a small-subunit

(SSU) rRNA alignment and concluded that the most gen-

eralised model from each class best re

Xects the complex-

ity of RNA evolution.



126

E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

In the present study, we derive predictions of ITS rRNA

secondary structure for Syzygium and the Myrtaceae. Sub-

sequently, we explore the utility of structural partitioning

and RNA-speci

Wc evolutionary models, which treat stem

nucleotides as paired sites, for the phylogenetic analysis of

the ITS sequence data.



2. Methods

2.1. Sequence data

We assembled a ‘Syzygium’ data set, including 76 ITS

sequences, these being representative of key syzygioid lin-

eages identi

Wed by 

Harrington and Gadek (2004)



, and by

Bi

Yn et al. (2006)



 in their phylogenetic analysis of chloro-

plast DNA sequence data (cpDNA). A broader ‘Myrta-

ceae’ alignment was developed to include a representation

of the major lineages in the family, to assist with secondary

structure prediction for the Syzygium group, but also to

explore patterns of evolution amongst more divergent

sequences. Relative to the recent tribal classi

Wcation of

Myrtaceae (

Wilson et al., 2005

 , based upon cpDNA matK

sequences), the 45 taxon ‘Myrtaceae’ sample includes repre-

sentatives of the sub-family Myrtoideae tribes Syzygieae

(AcmenaAcmenospermaPiliocalyx, and Syzygium); Trist-

anieae (Tristania,  Thaleropia, and Xanthomyrtus); Metro-

sidereae (Metrosideros); Myrteae (Myrtus, Eugenia, Luma,



Calyptranthes, Decaspermum, Psidium, Rhodamnia, Rhodo-

myrtus, and Myrciaria); Backhousieae (Backhousia and

Choricarpia); Kanieae (Tristaniopsis); Eucalypteae (Euca-

lyptus, Corymbia, Eucalyptopsis, Angophora, Arillastrum,

and 


Allosyncarpia); Chamelaucieae (Chamelaucium);

Leptospermeae (Leptospermum, Kunzea, Asteromyrtus, and



Pericalymma); Melaleuceae (Melaleuca, Calothamnus, and

Callistemon); Osbornieae (Osbornia); Lophostemoneae

(Lophostemon); and Xanthostemoneae (Xanthostemon).



Psiloxylon is included as a representative of Myrtaceae sub-

family Psiloxyloideae (

Table 1

).

For the novel sequences, ampli



Wcation and sequencing

primers used were ITS5M (

Liston et al., 1996

), ITS25R

(

Nickrent et al., 1994



) and ITS2/3/4/5 (

White et al., 1990

).

DNA extraction used the hot CTAB protocol of 



Doyle and

Doyle (1990)

. PCR ampli

Wcations were performed using a

Hybaid PCR Express thermocycler, under standard reac-

tion conditions with an annealing temperature of 55 °C.

The ampli

Wed double-stranded template puriWed using a

Qiaquick PCR cleanup kit (Qiagen). Sequences were

obtained using 

Xuorescent dye-labelled terminators (Big-

Dye v.2.0, 2.1, 3.1; Perkin-Elmer) on an ABI Prism 377

DNA sequencer. In all cases forward and reverse strands

were sequenced, so as to check for possible sequence mis-

reads. Electropherograms were processed using Sequen-

cher™ (Gene Codes Corporation).

The data sets developed here are derived entirely from

direct sequencing of PCR products. The electrophero-

grams were screened for potential paralogues, as indicated

by multiple peaks of equal strength (occasional polymor-

phic sites were found). We used secondary structural crite-

ria to screen for potential pseudogenes. Speci

Wcally, the

conservation of well-characterised ‘core’ structural motifs

is theoretically consistent with the maintenance of func-

tion (e.g., 

Buckler and Holtsford, 1996; Bailey et al., 2003

).

In the absence of pseudogenes, paralogy is unlikely to



impact upon the Myrtaceae-wide analyses because the

sampling is above species level and paralogues are

unlikely to be su

Yciently diVerentiated to support incor-

rect topologies (e.g., 

Hershkovitz et al., 1998

). For the

Syzygium alignment, we have compared topologies from

ITS with those from unlinked data (chloroplast DNA, see

Bi

Yn et al., 2006



), which suggests a level of con

Xict that is

consistent with ‘noise’ and sampling error, i.e., there is no

evidence of strong, con

Xicting resolution of taxa amongst

the independent sources of data (E. Bi

Yn, unpublished

results).



2.2. Sequence alignment and secondary structure prediction

We performed a multiple sequence alignment ‘by-eye’

for  Syzygium and outgroups, and separately for the

broader comparison of Myrtaceae. The alignment was sub-

sequently adjusted with reference to secondary structural

information. Sequence alignment was not problematic for



Syzygium and, in most instances, was readily achievable for

the included sample of myrtaceous sequences. However, a

few regions associated with length-mutation could not be

meaningfully aligned across all taxa and were therefore

excluded from the multiple sequence alignment. These

include the hairpin loop of ITS1 stem I, the central portion

(proximal and distal strands) of ITS1 stem II, and the hair-

pin loop of ITS2 stem I (see Results). The alignment has

been supplied to the journal as 

Supplementary data

.

The Pfold algorithm (



Knudsen and Hein, 2003

http://



www.daimi.au.dk/~compbio/pfold

) was used to de

Wne a set

of reasonable starting constraints for input to minimum

free energy (MFE) folding. Pfold uses a ‘stochastic context

free grammar’ approach to produce a ‘prior probability

distribution of RNA structures’ for an input RNA align-

ment (


Knudsen and Hein, 2003

). In a practical sense, Pfold

returns an alignment which indicates bases with a high

probability either of pairing or of occurring in an unpaired

state (here, the signi

Wcance level was set at 0.95). In a recent

comparison of RNA folding algorithms, Pfold was found

to be generally accurate (as determined by the ability to

predict experimentally veri

Wed secondary structures from

several RNA alignments), particularly with respect to rela-

tively short, well-aligned sequences (

Gardner and Giege-

rich, 2004

), as is the case for the ITS alignments considered

here.


The RNAstructure software (version 4.2, 

Mathews


et al., 2004

) was used for MFE structure prediction, using

default parameters, with and without input constraints,

as determined by the Pfold approach (above). MFE pre-

dictions were performed for the majority of included

sequences. Highly similar sequences were not subject to



E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

127


Table 1

Taxon, voucher details and GenBank accession numbers for Myrtaceae ITS sequences

Species

GenBank Accession No.



Voucher

Acmena acuminatissima (Blume) Merr. & Perry

EF026611


Gadek s.n.-JCT

Acmena divaricata Merr. & Perry

AY187160


Acmena graveolens (F.M. Bail.) L.S. Smith

AY187163


Acmena ingens (F. Muell ex C. Moore) Guymer & B. Hyland

EF026611


Beasley and Ollerenshaw 1018-CANB

Acmena mackinnoniana B. Hyland

AY187165


Acmena smithii (Poir.) Merr. & Perry

AY187168


Acmenosperma clavi

Xorum (Roxb.) E. Kausel

AY187169


Allosyncarpia ternata S.T. Blake

AFO58453


Anetholea anisata (Vickery) P.G. Wilson

AY187225


Angophora costata (Gaertn.) Britten

AF058455


Arillastrum gummiferum Pancher ex. Bail.

AF058454


Asteromyrtus arnhemica (Byrnes) Craven

EF026603


Asteromyrtus symphyocarpa (F.Muell.) Craven

EF041509


C.Chong s.n.-JCT

Backhousia myrtifolia Hook.

EF026609


CBG8501263-CANB

Blepharocalyx salicifolia O.Berg

AM234084


Callistemon viminalis (Sol. ex Gaertn.) G.Don

EF041510


C.Chong s.n.-JCT

Calothamnus quadri

Wdus R.Br.

EF041511


C.Chong s.n.-JCT

Calyptranthes concinna DC.

AM234103


Chamelaucium uncinatum Schauer

EF026605


Choricarpia subargentea (C.T. White) L. Johnson

EF026610


Telford and Butler 9041-CANB

Cleistocalyx seemanii (A.C. Sm.) Merr. & Perry

EF026613


Bi

Yn and Craven 65-CANB



Cleistocalyx sp. EBC58

EF026614


Bi

Yn and Craven 58-CANB



Corymbia maculata Hook.

AF058461


Decaspermum humile (G. Don) A.J. Scott

AM234128


Eucalyptopsis papuana C.T.White

AF190354


Eucalyptus gunnii Hook.f.

AF058469


Eucalyptus urophylla S.T.Blake

AF390492


Eugenia reinwardtiana (Blume) D.C.

AY487201


Eugenia uni

Xora L.

AY487284


Kunzea sinclairii (Kirk) W.Harris

AY772399


Leptospermum scoparium J.R.Forst & G.Forst

AY772398


Lophostemon confertus (R.Br.) Peter G.Wilson & J.T.Waterh.

AF390444


Luma apiculata (DC.) Burret

AM234101


Melaleuca citrolens Barlow

EF041512


C.Chong s.n.-JCT

Melaleuca deanei F.Muell.

EF041513


C.Chong s.n.-JCT

Metrosideros di

Vusa (G. Forst.) Sm.

AF211500


Metrosideros nervulosa C. Moore & F. Muell.

EF026607


Bi

Yn 34-CANB



Myrciaria cauli

Xora O.Berg

AM234093


Myrtus communis L.

AM234101


Osbornia octadonta F. Muell.

EF041844


Lyne 36-CANB

Pericalymma ellipticum (Endl.) Schauer

EF026604


Pilioclayx bullatus

 Brong. & Gris

EF026617

Bi

Yn and Craven 121-CANB



Piliocalyx concinnus A.C. Sm.

EF026615


Bi

Yn and Craven 61-CANB



Piliocalyx francii Guillaumin

EF026616


Bi

Yn and Craven 114-CANB



Piliocalyx robustus Brongn. & Gris

EF026618


Bi

Yn and Craven 133-CANB



Pimenta racemosa (Mill.) J.W. Moore

Psidium cattelianum Mart. ex DC.

AM234080


De Silva & Farias 4535-K

Psiloxylon mauritanium Baill.

EF026606


Rhodamnia argentea Benth.

AY487302


Rhodomyrtus psidioides (G.Don) Benth.

AM234134


Syzygium acre (Pancher ex Guillaumin) J.W. Dawson

EF026619


Bi

Yn and Craven 107-CANB



Syzygium amplifolium Perry

EF026620


Bi

Yn and Craven 1-CANB



Syzygium angophoroides (F. Muell.) B. Hyland

AY187172


Syzygium apodophyllum (F. Muell.) B. Hyland

AY187173


Syzygium aqueum (Burm. f.) Alston

AY187174


Syzygium arboreum (Baker f.) J.W. Dawson

EF026621


Bi

Yn and Craven 111-CANB



Syzygium aromaticum (L.) Merr. & Perry

EF026622


Brown and Craven 130-CANB

Syzygium australe (Wendl. ex Link) B. Hyland

AY187177


Syzygium austrocaledonicum (Seem.) Guillaumin

EF026623


Percy s.n.-CANB

Syzygium bamagense B.Hyland

AY187178


Syzygium branderhorstii Lauterb.

AY187181


Syzygium bungadinnia (F.M. Bail.) B. Hyland

AY187182


Syzygium buxifolium Hook. & Arn.

EF026624


Brown and Craven 134-CANB

(continued on next page)



128

E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

separate MFE predictions. In all instances, there were

multiple sub-optimal structures, although the constrained

set was generally nested within the set of structures

returned from the unconstrained predictions. Sub-opti-

mal structures were searched for commonly occurring

helices, which were considered well determined when

found at high frequency for predictions of each individ-

ual sequence (as a guideline, 80% of structures within 2%

of the thermodynamic stability of the MFE prediction;

Zuker and Jacobson, 1995

), but also found in the major-

ity of sequences for which MFE predictions were

performed.

Table 1 (continued)

Location of vouchers: CANB Australian National Herbarium; JCT James Cook University Herbarium; PRU Pretoria University Herbarium.

Species

GenBank Accession No.



Voucher

Syzygium canicortex B. Hyland

AY187183


Syzygium cordatum Hochst. ex C. Krauss

EF026625


van der Merwe 500-PRU

Syzygium cormi

Xorum (F. Muell.) B. Hyland

AY187184


Syzygium corynanthum (F. Muell.) B. Hyland

EF026626


Bi

Yn 39-CANB



Syzygium crebrinerve (C.T. White) L. Johnson

EF026627


Bi

Yn 40-CANB



Syzygium erythrocalyx (C.T. White) B. Hyland

AY187187


Syzygium 

Wbrosum (F.M. Bail.) Hartley & Perry

AY187189


Syzygium francisii (F.M. Bail.) L. Johnson

AY187182


Syzygium fullagarii (F. Muell.) Craven

AY187193


Syzygium glenum Craven

AY187162


Syzygium guineense Guill. & Perr.

EF026628


van der Merwe 501-PRU

Syzygium gustavioides (F.M. Bail.) B. Hyland

AY187194


Syzygium jambos (L.) Alston

EF026629


Bi

Yn 42-CANB



Syzygium lateri

Xorum Brong. & Gris

EF026630


Bi

Yn and Craven 110-CANB



Syzygium laxeracemosum (Guillaumin) J.W. Dawson

EF026631


Bi

Yn and Craven 148-CANB



Syzygium leuhmannii (F.Muell.) L. Johnson

AY187197


Syzygium macilwraithianum B. Hyland

AY187198


Syzygium maire (A. Cunn.) Sykes & P.J. Garnock-Jones

EF026632


Gardner 8470-CANB

Syzygium malaccense (L.) Merr. & Perry

AY187199


Syzygium monimioides Craven

AY187166


Syzygium moorei (F. Muell.) L. Johnson

EF026632


Bi

Yn 50-CANB



Syzygium muellerii Miq.

EF026634


Brown and Craven 136-CANB

Syzygium multipetalum Pancher ex Brongn. & Gris

EF026635


Bi

Yn and Craven 75-CANB



Syzygium nervosum D.C.

EF026636


Slee et al 2386-CANB

Syzygium ngyonense (Schltr.) Guillaumin

EF026637


Percy s.n.-CANB

Syzygium oleosum (F. Muell.) B. Hyland

AY187203


Syzygium paniculatum Gaertn.

AY187204


Syzygium pondoense Engl.

EF026638


van der Merwe 502-PRU

Syzygium psuedofastigiatum B. Hyland

AY187206


Syzygium puberulum Hartley & Perry

AY187207


Syzygium purpureum (Perr.) A.C. Sm.

EF026639


Bi

Yn and Craven 19-CANB



Syzygium pycnanthum Merr. & Perry

EF026640


Brown and Craven 139-CANB

Syzygium racemosum D.C.

EF026641


Brown and Craven 138-CANB

Syzygium sayeri (F. Muell.) B. Hyland

AY187209


Syzygium seemannianum Merr. & Perry

EF026642


Bi

Yn and Craven 32-CANB



Syzygium sexangulatum (Miq.) Amsho

V

EF026643



Brown and Craven 141-CANB

Syzygium sp. ‘Sulawesi 1’

EF026644


Brown and Craven 8-CANB

Syzygium sp. ‘Sulawesi 2’

EF026645


Brown and Craven 90-CANB

Syzygium sp. ‘Sulawesi 3’

EF026646


Brown and Craven 92-CANB

Syzygium sp. ‘Sumatra 1’

EF026647


Brown and Craven 140-CANB

Syzygium tenui

Xorum Brong. & Gris

EF026648


Bi

Yn and Craven 121-CANB



Syzygium tetrapterum (Miq.) Chantaranothai & J. Parn.

EF026649


Brown and Craven 135-CANB

Syzygium tierneyanum (F. Muell.) Hartley & Perry

AY187213


Syzygium wesa B. Hyland

AY187216


Syzygium wilsonii (F. Muell.) B. Hyland subsp. wilsonii

AY187217


Syzygium zeylanicum D.C.

EF026650


SBG 5-CANB

Thaleropia queenslandica P.G. Wilson

AY264945


C.Chong s.n.-JCT

Tristania neriifolia (Sims) R. Br.

EF026608


Telford 10900-CANB

Tristaniopsis laurina (Sm.) Peter G.Wilson & J.T.Waterh.

EF041514


C.Chong s.n.-JCT

Waterhousea 

Xoribunda (F. Muell.) B. Hyland

AY187221


Waterhousea hedraiophylla (F. Muell.) B. Hyland

AY187222


Waterhousea mulgraveana B. Hyland

AY187223


Waterhousea unipunctata B. Hyland

AY187224


Xanthomyrtus motivaga A.J. Scott

AM234147


Xanthostemon chrysanthus (F.Muell.)Benth.

EF041515


C.Chong s.n.-JCT

E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

129


The well-determined structures were included in the

multiple sequence alignment, and we used covariation anal-

ysis (e.g., 

Juan and Wilson, 1999; Gutell et al., 2002; Cole-

man, 2003

) to strengthen MFE predictions. Well-

determined helices were considered ‘proven’ when sup-

ported by one or more full CBC and the alignment was thus

partitioned into ‘stems’ and ‘loops’. While noting that the

latter could be reasonably partitioned into various classes

of non-pairing bases (e.g., hairpin loops vs. internal bulges)

this was not attempted, given the relatively small sequence

length, and the potential for high variance in model param-

eter estimates associated with several small data partitions.

Mismatch base-pairs occurring at high frequencies (within

7

50% of sequences, for the alignment of Myrtaceae), were



considered e

Vectively non-pairing, and were therefore

included in the ‘loop’ partition for subsequent analyses.

This approach is consistent with the derivation of a 50%

majority-rule consensus structure (e.g., 

Gardner and Giege-

rich, 2004

), which, although somewhat arbitrary, provides

an estimate of the relatively conserved elements of the

RNA structure.



2.3. Phylogenetic analysis

2.3.1. Partitioning strategy

A key question to be addressed in the present study is

whether secondary structural information can contribute,

in a practical sense, to the analysis of ITS sequence data.

The likelihood function was used to explore this issue, and

we adopted the methods recently implemented by 

Telford

et al. (2005)



 to test the utility of structural partitioning for

an SSU-rRNA alignment.

The approach was to compare likelihood scores for an

un-partitioned, versus structurally partitioned, versus ran-

domly repartitioned data, the null hypothesis being that

structural partitioning does not signi

Wcantly improve the

likelihood of the data. The best-

Wt model (from the set of

models included in Mr.AIC 1.4; 

Nylander, 2004

) for the un-

partitioned  Syzygium ITS data was selected using the sec-

ond-order Akaike Information Criterion (AICc; 

Sugiura,

1978


). An ML estimate of phylogeny was derived in

PhyML (


Guindon and Gascuel, 2003

) using a pro

Wle of

parsimony trees (estimated in the Phylip-3.5 (



Felsenstein,

1993


) software module DNAPars) as starting trees. The

PhyML topology was used as an input into the Optimizer

module included in the Phase software package (Phase ver-

sion 2.0b, 

http://www.bioinf.man.ac.uk/resources/phase

,

hereafter referred to as Phase). Given a sequence alignment,



an evolutionary model, and a starting tree, Optimizer

returns an estimate of the ML score and model parameter

values.

The ML score for the un-partitioned alignment was



compared (using the AICc and the hierarchical likelihood

ratio test, hLRT) to the likelihood estimated on the same

topology, using the best 

Wt model as selected above, with

model parameters estimated separately for each data parti-

tion under the structural partitioning scheme. To determine

whether the ML scores for the latter signi

Wcantly exceeded

those which could be expected by chance, the maximum

likelihood was estimated for 100 randomly repartitioned

data sets (i.e., nucleotide positions were randomly reparti-

tioned, without disrupting the alignment), with two parti-

tions of equal size relative to the structurally partitioned

data.


2.3.2. Model selection-RNA-speci

Wc models

We explored the utility of several RNA-speci

Wc (paired-

sites) models, as implemented in Phase. Speci

Wcally, the

focus was the RNA7 and RNA16 class of models, which

have the advantage of including all of the data (RNA6

models exclude mismatch pairs). The RNA16 models pro-

vide separate frequencies for each of the possible mismatch

pairs, while the RNA7 models treat mismatch pairs as a

single state.

The speci

Wc models considered are RNA7A, RNA7C,

and RNA7D (RNA7 class), and R16A, RNA16I, and

RNA16K (RNA16 class). Of these, RNA7A and 16A are

the most generalised models in their class and we included

the other variants because we wished to determine whether

simpler models could 

Wt the data equally well. Only

RNA7A, 7D and 16A permit simultaneous substitutions

(e.g., G·C M A·U) while for the RNA7C, RNA16I and 16K

double substitutions must 

Wrst pass through a mismatch

state (i.e., rates are modeled for single nucleotides within

stem-pairs). Of the RNA16 models, 16A has a separate rate

parameter for each of double transitions, double transver-

sions, single site changes, substitutions to and from a mis-

match state, and changes between mismatch pairs. The16I

model has a GTR-like rate matrix (including a rate for each

possible single site nucleotide change) and 16K has an

HKY85-like rate matrix (grouping single site rates for each

of transitions and transversions). RNA7A includes rates to

and from each of the commonly occurring (i.e., Watson–

Crick, and wobble) stem-pairs, and to and from a mismatch

state. For RNA7C, the rate of double substitutions is set to

zero, and for RNA7D double transitions, double transver-

sions, single site changes, and substitutions to and from the

mismatch state are ‘lumped’ The reader is referred to 

Higgs

(2000), Savill et al. (2001)



, and the Phase v.2.0b manual, for

further details of RNA-speci

Wc models. We estimated

gamma distributed rate variation ( ) and the proportion of

invariant sites (I) for all of the models considered.

For a Myrtaceae ‘stems only’ alignment, the likelihood

score for each of these models was estimated on a test tree

constrained to the ML topology of 

Sytsma et al. (2004, S93)

which is, arguably, the current best estimate of higher level

relationships for the Myrtaceae. For the Syzygium alignment

(stems only), RNA model likelihoods were estimated on the

PhyML tree (above). For each analysis, the best-

Wt model,

from the set of included models, was determined using the

AICc, noting that valid comparisons can be made only

amongst the RNA7 models, and between RNA16I and 16K.

By contrast, log-likelihoods cannot be compared between

RNA7 and RNA16 models, or between RNA16A and 16I or


130

E. Bi

Yn et al. / Molecular Phylogenetics and Evolution 43 (2007) 124–139

16K, because the parameters are di

Verent, and the likeli-

hoods are thus, derived in a di

Verent fashion (

Savill et al.,

2001

). For the nested models, the hLRT was also performed.



While it is invalid to compare likelihoods between RNA-

speci


Wc and standard 4-state models, 

Telford et al. (2005)

describe a permutation approach which can be used to deter-

mine whether a correlation between paired sites signi

Wcantly

improves the likelihood of the data. The test is achieved by



randomly re-ordering the characters (columns) in the struc-

tural alignment, while maintaining the number, and relative

position of stem-pairs, thereby removing any correlation

between the nucleotides that form a stem pair. The estimated

likelihoods of the permuted data are then compared with

that for the intact structural alignment with likelihood

scores, in both cases, estimated for the same RNA-speci

Wc

model. In order to perform this test likelihood scores were



estimated for 100 permuted matrices and compared with the

likelihood for the original alignment, using the best-

Wt

RNA16 model. Likelihood estimates were obtained using the



Phase software for a stems only alignment of the Syzygium

data set. Note that of the various classes of RNA models,

only RNA16, in providing separate rates for each mismatch

category, is appropriate for this permutation test.



2.3.3. ITS phylogeny

Bayesian phylogenies for the structurally partitioned



Syzygium and ‘Myrtaceae’ ITS data sets were constructed

under the best-

Wt RNA7 (stems) and 4-state (loops) substitu-

tion model using the MCMCPhase module in the Phase soft-

ware package. Parameter values were estimated directly from

the data. The analysis was run over 1,200,000 generations,

sampling every 150 generations, with the 

Wrst 200,000 genera-

tions discarded as burn-in, which was su

Ycient to allow log-

likelihoods to plateau. We used three independent runs in

order to check for convergence in topology and parameter

estimates. A 50% majority rule consensus topology was con-

structed from the 20,001 (6667 samples from each of three

runs) sampled topologies using Paup

¤

4.08b (



Swo

Vord, 1998

).

By way of comparison with the RNA-speci



Wc models, each

data set was analysed under the best-

Wt 4-state model using

the Bayesian inference approach just described.


  1   2


Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2016
rəhbərliyinə müraciət

    Ana səhifə