Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə9/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   5   6   7   8   9   10   11   12   ...   57
r
a
, we use short text fragments that are commonly used to express the relation of
interest. For example, the text fragment
was born in is an often used expression
to express the relation between a person and his place of birth. We refer to these
frequently occurring text fragments as patterns.
Design Constraint.
We recognize a relation between two instances if and
only if the two instances are connected by one of the predefined text fragments. 2
Of course, a relation between two instances can be formulated in numerous man-
ners and such formulations can be found in various other ways, e.g. using anaphora,
in multiple sentences etc. Hence, if we would be interested to find each and every
occurrence of an expression of the intended relation, this method might not be the
best possible choice. However, as we use the web as a corpus, we make use of
the
redundancy of information. We expect that important concepts and relations
occur in various formulations on the Web. As we are interested to find
at least one


2.2 Extraction Information from the Web using Patterns
27
formulation of a subject – relation – object triplet on the Web, we do not have to
recognize
every relevant statement encountered.
Making use of the redundancy of information, the chosen language model is a
powerful mechanism to formulate precise and effective queries. By combining an
instances and a pattern into a query (e.g.
John F. Kennedy was born in, we generate
very relevant search results. The locations extracted in the search results are used
to simultaneously populate the class and the relation.
In related work, Etzioni et al. [2005] propose a method to combine pat-
terns with class names into queries to populate the given classes. The identifica-
tion of hyponyms using combined instance-pattern queries is discussed in [Tjong
Kim Sang & Hofmann, 2007].
We combine a pattern and a known instance into a search engine query. The
patterns are stored with placeholders for instances of the classes. For example,
for the relation
born in with classes Person and Location, the following subject
- pattern - object triplets can be identified:
[Person] was born in [Location] and
[Location] is the place of birth of [Person]. In the given examples, [Location] and
[Person] serve as placeholders for the instances of the corresponding classes. When
querying the pattern in combination with a subject instance, the object instance is
to be recognized in the position of the object class placeholder and vice versa.
Hearst [1992] coined a simple technique to identify the relations between two
terms in a text. She identified a number of frequently used text fragments – patterns
– that connect a word and its hyponym. The running example in this paper is the
following sentence.
The bow lute, such as the Bambara ndag, is plucked and has an individual
curved neck for each string.
From this example sentence, we learn that a
Bambara ndag is a kind of bow
lute. Hence, to extract the hyponym relation between bow lute and Bambara ndag
no context is required but the text fragment in between the two terms. Moreover, no
knowledge or any other background information on Bambara ndags or bow lutes is
required to identify the relation between the two. Hearst identified the six patterns
as given in Table 2.1.
The preselected patterns in [Hearst, 1992] are used in various web information
extraction systems, for example [Ciravegna, Chapman, Dingli, & Wilks, 2004;
Etzioni et al., 2005; Sumida et al., 2006; McDowell & Cafarella, 2006; Pantel
& Pennacchiotti, 2006].
We expect information to occur redundantly on the web. Although we do not
need to recognize every formulation of a given fact, we can expect to extract in-
stances and relation instances from multiple different texts. We can use the re-
dundancy of information on the web to filter the extracted data. Not all extracted


28
[hypernym] such as [hyponym]
such [hypernym] as [hyponym]
[hyponym] or other [hypernym]
[hyponym] and other [hypernym]
[hypernym] including [hyponym]
[hypernym] especially [hyponym]
Table 2.1. Patterns for instance-class relation.
data can be assumed to be correct. Extracted statements can be erroneous for two
reasons. On the one hand because the context influences the semantics of the
in-
stance - pattern - instance phrase. For example, consider the sentence Some people
think that Sydney is the capital of Australia, where the context suggests that the
triple
Sydney - is the capital of - Australia is not a true fact. On the other hand, the
information provided can simply be false.
As a consequence of the redundancy of information on the web, we assume
that a
instance - pattern - instance phrase will most often express the corresponding
relation in the ontology. However, as we ignore the context of the subject - pattern
- object phrase, erroneous or misinterpreted data can be extracted. For example,
suppose we would extract
Canberra to be Australia’s capital from 30 documents
on the web, while
Sydney, Wellington and Canbera are identified only a couple of
times as such. Based on these figures, we filter out the erroneously extracted data.
Sketch of Algorithm. Given is an initial ontology describing the domain of in-
terest. For each relation r ∈ R in the ontology we assume given a non-empty set

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   5   6   7   8   9   10   11   12   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin