Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə17/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   13   14   15   16   17   18   19   20   ...   57
l
) and a right context (c
r
). The
∗ is a wildcard symbol matching any string. If we encounter a substring that is
described by c
l
· M · c
r
, we isolate the string of maximum length matching M.
Apart from the structure and context, in general information extraction tasks
there is a third method that is used to identify instances in texts. Using a part-of-
speech tagger [Brill, 1992] the roles (e.g. subject) in the sentence and word groups
(e.g. noun phrases) can be identified. These techniques are useful to identify terms
in text [Frantzi, Ananiado, & Mima, 2000; Etzioni et al., 2005]. An alternative


3.2 Identifying Instances
45
is the set of sentences containing the queried expression ;
“select the parts of the sentences matching the placeholder” ;
for all fragments q ∈ Q →
re = c
l
· · c
r
·∗ ;
= match(re,q) ;
do (¬b ∧ length(q0) 
“remove
first word or punctuation mark from q” ;
= match(re,q) ;
od
if (b
re = c
l
· M ;
= match(re,q) ;
do (¬b
“remove
last word or punctuation mark from q” ;
= match(re,q) ;
od
re = M ;
= match(re,q) ;
do (¬b
“remove
first word or punctuation mark from q” ;
= match(re,q) ;
od
fi
rof
Table 3.9. Identifying instances using rules.
approach is the use of N-gram statistics to identify named entities [Downey et al.,
2007].
Acceptance functions. After extracting a term, we can perform an additional
check to find out whether the extracted term is really an instance of the concerning
class. We perform this check with the use of a search engine. We query phrases
that express the term-class relation. Again, these phrases can be constructed semi-
automatically. Hyponym patterns are candidates as well for this purpose [Hearst,
1992, 1998; Cimiano & Staab, 2004]. A term is to be accepted as instance, when
the number of hits of the queried phrase is at least a certain threshold. For example,
we query the phrase
‘Cities such as Eindhoven and’ to check whether ‘Eindhoven’


46
is indeed an instance of the class
City.
Using a set of patterns expressing relation r, we formulate the following
acceptance function:
accept
c
s
(t) =
½
true
if ∑
S∈R
h(S, c
s
,t≥ n
false otherwise
where h(S, c
s
,t) is the number of hits for query with pattern combined with
term and the plural form of the name of class c
s
. The threshold has to be
chosen beforehand. We can do so, by calculating the sum of hits for queries with
known instances of the class. Based on these figures, a threshold can be chosen
e.g. the minimum of these sums. When the instances in the initial ontology are
well-known, the sum of hits for these instances can be expected to be large. Hence,
setting a threshold based on such instances will lead to a threshold (and acceptance
function) that will filter out correct, but less well-known, instances.
When we use such an acceptance function, we can allow ourselves to formulate
less strict recognition rules. That is, false instances that are at first accepted, are
still rejected as an instance by the use of the acceptance function.
As an alternative, a term can be checked using
Google’s define functionality.
If the name of c

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   13   14   15   16   17   18   19   20   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin