Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə11/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   7   8   9   10   11   12   13   14   ...   57
• The instances extracted for relation r
a
are used as queries to populate other
relations. For example, using the ontology in Figure 2.1, we can find in-
stances in class Person after querying phrases containing instances of pe-
riod. We use the persons found, to identify relations between person and
profession and potentially find new professions.
• The extracted relation instances can be used to find new relation patterns.
In Section 3.1 we present a mechanism to identify patterns using a set of
relation instances. When we expand the set of relation instances, we can find
other or more reliable relation patterns. These patterns can then be used to
populate the ontology.
• The texts can be used to identify new instances. Using queried texts contain-
ing known instances, we can learn to recognize the morphology and context
of instances. We focus on this task in Section 3.2.
Hence, we created a framework, where starting with only few instances we can
populate a full ontology on a domain of interest. The approach as discussed in this
section, leaves two issues unresolved: the identification of instances from text and
the identification of patterns. These topics are the focus of the next chapter.


3
Two Subproblems in Extracting
Information from the Web using Patterns
In the previous chapter, we proposed a pattern-based method to extract information
from the web using a search engine. After having presented a global outline, we
identified two subproblems to be resolved. In this chapter, we study these prob-
lems in isolation. We first focus on the automatic identification of relation patterns
in Section 3.1. Section 3.2 focusses on several alternative approaches to identify
instances from text.
3.1 Identifying Effective Patterns
Ravichandran and Hovy [2002] present a method to automatically identify surface
text patterns expressing relations between pairs of terms using a search engine.
Based on a training set of relation instances, their method identifies natural lan-
guage patterns that express some relation between two instances. For example,
“was born in” showed to be a one of the patterns expressing the relation between
instances Mozart (of class
Person) and 1756 (of class Year). This pattern proved to
be precise as many of the search results for the query
Mozart was born in showed
to contain the instance
1756.
Using the terminology defined in the previous chapter, the algorithm proposed
by Ravichandran and Hovy can be sketched as follows. Given is an ontology =
31


32
for (i, i
0
∈ J →
combine the two terms as a search engine query: i
0
;
collect the sentences in the search results containing both and i
0
;
replace instances by placeholders for the corresponding classes ;
store the text fragments in a set ;
rof
initialize c(S) and n(S) to 0 for all S ∈ P ;
for (i, i
0
∈ J →
query ;
collect all sentences in the search results that contain both instances ;
for S ∈ P →
c(S) = c(S) + number of occurrences of with i
0
;
n(S) = n(S) + the total number of occurrences of ;
rof
rof
for S ∈ P →
compute precision f
pr
(S) =
c(S)
n(S)
;
rof
select the most precise ones using the scores f
pr
such that c(S≥ 5;
Table 3.1. Sketch of the pattern identification algorithm proposed by Ravichan-
dran and Hovy.
({c

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   7   8   9   10   11   12   13   14   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin