Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə16/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   12   13   14   15   16   17   18   19   ...   57
a
is the intended meaning of the term. We
investigate the following two alternatives to estimate p(i).
• uniform. As we do not know anything about the distributions of the use of
the definitions for term i, we estimate that each definition has a equal proba-
bility to be used and that only one of the definitions reflects the instance.


42
Definitions of Boston on the Web:

state capital and largest city of Massachusetts; a major center
for banking and financial services
wordnet.princeton.edu/perl/webwn

Boston is an American rock band that achieved its most no-
table successes during the 1970s and 1980s. Centered on gui-
tarist, songwriter, and producer Tom Scholz, the band is a staple
of classic rock radio playlists. ...
en.wikipedia.org/wiki/Boston(band)

”Boston” is a song by Augustana.
en.wikipedia.org/wiki/Boston(song)

Boston is the self-titled debut album by American rock band
Boston. The album broke fast, with several blockbuster hard
rock hits. All eight of the songs on the album still receive regular
airplay on classic rock radio. ...
en.wikipedia.org/wiki/Boston(album)

Boston (1833-1850), a chestnut with a white nose (and often
called ”Damn his eyes” because no one could beat him), was
born in Richmond, Virginia. ...
en.wikipedia.org/wiki/Boston(horse)

Boston is a local government district with borough status
in Lincolnshire, England. Its council is based in the town of
Boston. It lies around N530’0” W00’0”.
en.wikipedia.org/wiki/Boston(borough)
Table 3.6. Top results (of 12 in total) for the
Google
query ‘define: Boston’ as
retrieved on March 12, 2008.


3.2 Identifying Instances
43
Definitions of Right Said Fred on the Web:

Right Said Fred is the name of a British pop band, which was
founded in 1989 by brothers Richard Fairbrass and Fred Fair-
brass from East Grinstead. ...
en.wikipedia.org/wiki/RightSaidFred
Table 3.7. All results for the
Google
query ‘define: Right Said Fred’ as retrieved
on March 12, 2008.
p
lin
(i) =
1
n(i)
(3.3)
• square root. Especially for terms with many definitions, we observe some
overlap between the definitions. Moreover, two distinct definitions can be
closely related. For example,
Red Hot Chili Peppers is the name of a band
and the name of their debut album. We therefore investigate a second method
to estimate p(a) by using the square root of the number of definitions found.
p
sqrt
(i) =
1
p
n(i)
(3.4)
We determine a confidence score p
i
for the class membership of an instance of c
a
,
we multiply the estimates p(i) with the number of occurrences oc(i) of the instance
in the search results.
p
i
=
oc(i· p(i)

i
0
∈I
a
oc(i
0
· p(i
0
)
(3.5)
We use these estimates to obtain a sorted list of instances for the class c
a
. In
Chapter 6 we use these estimators to score relations between ambiguous terms.
3.2.2 Instance Identification for Incomplete Classes
To recognize instances in incomplete classes, the strategies described for the com-
plete class case may be applied to recognize already known instances. In this part of
the chapter, we focus on the recognition of instances that are not already included
in the ontology. Here, we focus on both knowledge- and data-driven approaches.
Knowledge-Driven Approach
A commonly used strategy to recognize instances in a text, is to formulate recog-
nition rules [Chinchor, 1995; Etzioni et al., 2005; Sumida et al., 2006; Schedl &


44
Class
Regular Expression
examples
Year
(1|2) · (0 − 9)
3
1992, 2345
Gender
he|she|son|..
male, female
Person
((A-Z)·(a-z)
+
)
2
Johnny Cash, George Baker
Person
(A-Z)·(a-z)
+
(A-Z). (A-Z)·(a-z)
+
George W. Bush, Anton F. Philips
Table 3.8. Classes and possible recognition rules
Widmer, 2007]. It is notable that such a knowledge-driven approach to recognize
instances is class-dependent. For example, recognizing instances of
Movie is done
differently from recognizing instances of the class
Year.
When designing rules to recognize instances at the placeholders in the search
results, we focus on the structure of the instances and their context [De Meulder &
Daelemans, 2003].
- Context. The left and right context for a term can be expressed as regular
expressions. For example, a term in an enumeration may have a comma as
its left context and the word
and as its right context.
- Structure. Rules describing the structure focus on the number of words and
the use of capitals and punctuation marks. For example, a person’s name can
be recognized as two or three capitalized words.
The rules describing the structure of instances can be described using a reg-
ular expression.
We formulate regular expressions and a maximum distance from the queried
expression to identify instances from texts. Table 3.8 gives example regular ex-
pressions to recognize the structure of instances. Instances of the class
Year is for
example specified as a four digit term preceded by the name of a month. For in-
stances of the class
Gender, the instances are indirectly recognized. The text is for
example scanned for the word
son, which corresponds to the instance male.
The algorithm to identify instances using such a rule-based approach is
sketched in Table 3.9. We first scan the text for an occurrence of the instance
(described by M) encapsulated by a left context (c

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   12   13   14   15   16   17   18   19   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin