Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə20/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   16   17   18   19   20   21   22   23   ...   57
i
w
i
· δ(v
i
,t
i
)
As the features are non-numerical, δ(v
i
,t
i
) has been simply defined as follows.
δ(v
i
,t
i
) =
½
1 if the strings v
i
and t
i
are equal
0 otherwise
The training set is used to compute weights for each of the features, based on
the information gain of the features with respect to the class labels [Duda, Hart, &
Stork, 2000]. For a given k, the label is selected using majority voting among the k
closest vectors in the training set.
In cases with a small training set, it is likely that a high weight is assigned to
the focus word itself. In such cases the classifier is overfitted. This may lead to a
situation where only known instances are recognized. To avoid this situation, we
can alternatively leave out the focus word itself from the feature vector. In that
case, the classification is solely based on the context and the abstraction of the
focus word. We will return to this topic in the next chapter.
Having classified the individual vectors, we have to extract the instances from
the data. From each vector classified as
start, the focus term is identified. If the
focus term is obscured, we look it up from the original search results. For all
following vectors classified as
intern, we extract the focus terms as well. The
extracted focus terms are combined into one term and added to the ontology as an
instance. Note that we ignore vectors classified as
intern that are not preceded by a
vector labeled
start.
Returning to the example of
Alan Turing’s year of birth, to recognize instances
of the class
Year the choice for a data-oriented approach is less obvious. The
instances can easily be described using a rule, and a complete set of instances can
be generated. However, constructing rules to recognize instances of other classes
(e.g.
Pop Artist, City, Movie) can be less straightforward.
In the next chapter, we present case-studies where we compare methods us-
ing rule-based instance identification approaches with instance identification using
memory-based learning.


4
Evaluation: Extracting Factual Information
From the Web
In the previous chapters, we discussed methods to populate an ontology using texts
found with a search engine, in this chapter we present case-studies to illustrate the
applicability of these methods. We compare the various alternatives in instance
identification. For evaluation purposes, we choose to populate ontologies on do-
mains that are verifiable. For each of the populated ontologies, the precision can
be determined and recall can be analyzed. In all case-studies we solely make use
of the document titles and snippets returned by the search engine. The documents
themselves are thus not accessed.
Section 4.1 focusses on the population of an ontology using manually identified
patterns, where the instances are recognized using rules.
In Section 4.2, we focus on the identification of effective patterns. Using a
small training set, we are interested whether the patterns found can be used in an
information extraction task. In Section 4.3 we identify a list of effective hyponym
patterns and compare this list with commonly used ones in the literature. The
learned patterns are used in an experiment where we investigate the applicability
of memory-based learning (
MBL
) in our web information extraction setting.
Section 4.4 focusses on the identification of instances and the effect of the
bootstrapping mechanisms. We compare a rule-based approach with an approach
51


52
using
MBL
in finding all presidents of the US and their order.
Finally, in Section 4.5 we focus on an extensive case-study: the identification
of a list of historical persons with their biographies.
4.1 Populating a Movie Ontology
For our first case study, we have constructed a small initial ontology on the movie
domain. It is defined as = (C, R) where

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   16   17   18   19   20   21   22   23   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin