Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə23/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   19   20   21   22   23   24   25   26   ...   57
p∈H
h(p,t≥ n,
where h(p,t) is the number of search engine
hits for query with pattern combined
with term t. Based on experiments with the two known restaurant chains, we set
the threshold to = 50.
Evaluation We selected the 20 best scoring patterns and use them in the ontology
population algorithm with the given ontology. The first task is to identify
Burger
King as a restaurant using the given patterns. If this instance is found, it can be used
– in combination with the same patterns – to identify the countries it is located in.
Using the 20 learned patterns, 53 terms were accepted as instances of restaurant
(Table 4.4)
4
. The reader may recognize a number of restaurant, coffee and fast food
chains, among which
Burger King. Less expected are the names of geographic
locations and names of famous cuisines such as ‘Chinese’ and ‘French’. The last
category of false instances found that have not been filtered out, are a number of
very common words (e.g. ‘It’ and ‘There’).
4
Experiment conducted in November 2005 using Google.


4.2 Identifying Burger King and its Empire
57
Chinese
Bank
Outback Steakhouse
Denny’s
Pizza Hut
Kentucky Fried Chicken
Subway
Taco Bell
Continental
Holywood
Wendy’s
Long John Silver’s
HOTEL OR
This
Burger King
Japanese
West
Keg Steakhouse
You
BP
Outback
World
Brazil
San Francisco
Leo
Victoria
New York
These
Lyons
Starbucks
FELIX
Roy
California Pizza Kitchen
Marks
Cities
Emperor
Friendly
Harvest
Friday
Tim Hortons
Vienna
Montana
Louis XV
Greens
Red Lobster
Good
It
There
That
Mark
Dunkin Donuts
Italia
French
Table 4.4. Extracted instances for restaurant using Google, December 2005.
In Table 4.5 the 53 extracted terms can be found, together with the acceptance
scores ∑
p∈H
h(p,t) as found with the
Yahoo!
API
in June 2008. As
OR is an
special query operator, the hits for
HOTEL OR will not reflect the actual number
of occurrences for the corresponding phrases. The high scoring terms – except for
HOTEL OR – correspond to large chains. Where Keg Steakhouse was accepted
as an instance in 2005, no hits were found for any of the four acceptance function
queries.
The algorithm returned 69 instance-pairs with countries related to
Burger King.
On the Burger King website
5
a list of the 65 countries can be found in which the
hamburger chain operates. Of these 65 countries, we identified 55. This implies
that our results have a precision of
55
69
= 0.80 and recall of
55
65
= 0.85. Many of the
falsely related countries – mostly in Eastern Europe – are locations where Burger
King is said to have plans to expand its ‘empire’.
Using post-processing, we can filter out common words (e.g.
Good, It) which
is likely to improve the results. The geographic locations can be recognized and
filtered out using a gazetteer [Cunningham, Maynard, Bontcheva, & Tablan, 2002;
Zong, Wu, Sun, Lim, & Goh, 2005].
We hence can conclude that learning patterns using only a small set of known
5
http://www.whopper.com


58
Outback Steakhouse
1748
HOTEL OR
821
Burger King
506
Starbucks
489
Red Lobster
488
Pizza Hut
463
Taco Bell
392
Subway
375
Denny’s
332
Long John Silver’s
302
Chinese
288
Wendy’s
240
This
166
Japanese
149
French
144
Outback
135
California Pizza Kitchen
111
Dunkin Donuts
104
That
103
Roy
90
These
48
Victoria
47
Kentucky Fried Chicken
46
Greens
30
Friendly
29
It
28
FELIX
25
Friday
25
Harvest
24
Louis XV
23
Marks
22
Tim Hortons
22
You
21
West
18
New York
17
Bank
12
Vienna
12
Montana
12
Good
11
Lyons
10
Continental
7
Mark
5
Italia
5
Emperor
4
Cities
3
San Francisco
2
BP
1
Leo
1
Holywood
0
Keg Steakhouse
0
World
0
Brazil
0
There
0
Hotel Or
0
Table 4.5. The 53 instances found for restaurant and their scores for the accep-
tance function as found with the
Yahoo!
API
in June 2008.
instances leads to good results in this case-study. The learned patterns are quite
specific, but recognizable as strings relating the instances of the two classes. The
extraction of the instances of the class
Restaurant is done using simple rules. A
number of irrelevant terms are falsely identified, but additional filtering steps may
lead to improvements.
4.3 Identifying Countries
In this case-study, we focus on two tasks. First, we automatically identify hyponym
patterns and compare the results with the patterns identified by Hearst [1992]. Con-
trary to the previous case-study, we will use a relatively large training set of relation


4.3 Identifying Countries
59
instances to identify a set of effective patterns. The learned patterns are used in the
second part of this experiment to extract instances using memory-based learning.
4.3.1 Learning Effective Hyponym Patterns
We are interested whether the effective text patterns are indeed intuitive formula-
tions of the given relation. As a test-case, we compute the most effective patterns
for the hyponym relation using a test set with names of all countries. Taking the
terms
country and countries as hypernyms, we are interested which text fragments
connect the names of countries with these words. Much pattern-based information
extraction research (e.g. [Caraballo, 1999; Cimiano & Staab, 2004; Etzioni et al.,
2005; Snow, Jurafsky, & Ng, 2006; Tjong Kim Sang & Hofmann, 2007]) is based
on hyponym patterns manually identified by Hearst in [1992]. We are interested in
the overlap of the automatically found hyponym patterns with the commonly used
ones.
This experiment was set up as follows. We again use the collected list of coun-
tries (see Section 4.2). Let I

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   19   20   21   22   23   24   25   26   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin