Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə19/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   15   16   17   18   19   20   21   22   ...   57

start, signaling the start of an instance,

intern, indicating all tokens within an instance following the begin label, and

not, indicating all text that is not included in the instance.
Note that with these three labels are enough to distinguish separate instances in
a text. An explicit
end label is not required, as the last word or punctuation mark
can be derived implicitly. The distinction between
begin and intern is needed to
separate and recognize two subsequent instances in one sentence.
Now, given an annotated sentence, we describe each of the tokens using a fea-
ture vector. Each vector describes a
focus word in the sentence, i.e. the token to be
labeled and its context. In each vector, the label is associated with the focus word.
Table 3.12 gives a collection of vectors representing one sentence, i.e. one vector
per focus word. We use a window of fixed size (in the given example = 1) to
represent the left and right context of the focus word.


3.2 Identifying Instances
49
LEFT CONTEXT
RIGHT CONTEXT
FOCUS WORD
LABEL
is
Afghanistan
start
Afghanistan
a
is
not
is
conservative
a
not
a
Islamic
conservative
not
conservative
country
Islamic
not
Islamic
and
country
not
country
99
and
not
and
per
99
not
99
cent
per
not
Table 3.12. Feature vectors for
... Afghanistan is a conservative Islamitic country
and 90 per cent of its population is Muslim ...
representing the focus word and the
context window of one token.
As we choose to opt for an approach solely based on the syntax, the features
that can be extracted to describe the focus word are limited. We concentrate on the
presence of capitals, as their use is common in many named entities. We distinguish
the features
numeric (to abstract from numbers), no word (to abstract from other
tokens without letters),
capitalized (for tokens starting with a capital) and no caps.
For each focus word, we create a vector of length 4+ 3. For a window size of
n, we consider the tokens preceding and following the focus word. Each of these
tokens is represented by 2 features: the token itself and its abstraction. Hence, the
context of the focus word is described by 4features. The focus word itself, its
abstraction and its class are the other three features in the vector.
Having constructed a set of training vectors, we translate query results into a
set of test vectors in a similar fashion. The task is to classify the vectors into the
classes
not, start and intern. The goal is to recognize instances at the placeholder,
by observing similarities in structure and context with respect to vectors in the
training set.
We choose to use Memory-based learning (
MBL
) to classify the vectors [Daele-
mans & Bosch, 2005]
1
. Contrary to other popular machine learning approaches,
memory-based learning does not abstract from the data processed. This character-
istic has proven to be successful in natural language processing, as irregularities
and various exceptions are typical for natural language.
MBL
has also shown to be
well usable for cases with a limited context. As we are interested in information
extraction from snippets, this property is of high importance.
1
In our experiments, we use TiMBL (version6.1, http://ilk.uvt.nl/timbl/) with the
standard parameter settings.


50
MBL
is based on k-nearest neighbors classification. Suppose we have a set of
vectors in the training set. A distance measure ∆(v,t) between two vectors is used.
This measure is a weighted sum over the distances of the features. The weight is
used to express the importance of a feature. Typically, features representing tokens
with a large distance to the focus word are less important than features representing
closer ones.
∆(v,t) =


Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   15   16   17   18   19   20   21   22   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin