Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə22/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   18   19   20   21   22   23   24   25   ...   57
c
o
restaurants of c
s
0.24
15
21
c
o
restaurants in c
s
0.07
19
9
c
o
hamburger chain that occupies
villages throughout modern day c
s
1.0
1
7
c
o
restaurant in c
s
0.06
16
6
c
o
restaurants in the c
s
0.13
16
2
c
o
hamburger restaurant in southern c
s
1.0
1
4
c
o
en co in de verenigde staten c
s
1.0
1
3
c
s
concurrenc¸ant kfc et c
o
1.0
1
3
c
o
boycott over us c
s
0.92
1
3
c
o
hamburger even in c
s
0.66
1
3
c
s
we have mcdonald’s burger king pizza hut and c
o
1.0
2
1
c
o
hamburger spokesman throughout c
s
1.0
1
2
c
o
new mcveggie burger in c
s
1.0
1
2
c
o
has 1320 restaurants in c
s
1.0
1
2
Table 4.2. Top learned patterns for the restaurant (c
o
) -country (c
s
) relation.
countries in which they operate. We identify the classes c
s
for
country and c
o
restaurant and the relation located in between the two classes.
In this case-study we aim for the population of an ontology with names of
restaurant chains and their locations. For the given task, we define the ontology O
as follows: = ({c
s
, c
o
}, {r}). Here, c
s
is the
complete class with all countries in
the world
3
. The relation expresses the non-functional
is located in relation. We
have added no patterns to r= (is located in, c
s
, c
o
false, J), but instead included
a small set of relation instances. The goal is therefore to first identify a set of
effective patterns, that can subsequently be used to populate the ontology.
We assign the instances
McDonald’s and KFC to the incomplete class c
o
, as
well as a handful of relation instances: {
(China,McDonald’s), (United States,
McDonald’s), (Canada, McDonald’s), (France, McDonald’s), (Australia, McDon-
ald’s), (Netherlands,McDonald’s), (Germany, KFC), (Netherlands,KFC) }.
Identifying Patterns. The patterns are identified using the eight relation in-
stances provided in the initial ontology. Using this small set, we identified a list of
170 patterns. These patterns are validated and ranked using the two instances of
the restaurant class. The total number of queries used is thus very limited: 8 for
the identification phase and 2 for the validation phase.
3
The
conventional short forms taken from the CIA World Factbook http://www.cia.gov/
cia/publications/factbook


56
”restaurants including and”
”restaurants for example and”
”restaurants like and”
”restaurants such as and”
Table 4.3. Hyponym patterns for instance-class relation.
The learned patterns with the highest scores are given in Table 4.2. We note
that the numbers for
spr and freq are low due to the limited number of queries used.
Many of the patterns are recognizable as typical for the given relation. However,
the vast majority of the patterns has a value for pspr = 1. Hence, the use of such a
pattern in combination with either
KFC or Burger King led only to a single country
name. These patterns may therefore be too specific.
Recognizing Instances. The country names are recognized using the collected
list of countries. We assume the country names to be unambiguous. We extract the
longest terms consisting of at most 4 capitalized words at the placeholder, directly
preceding or following the queried expression.
As this extraction rule is likely to not only cover restaurants but a wide range of
terms, we use a check function to filter out erroneously extracted terms. Hereto, we
use the set of hyponym patterns in table 4.3 in the following acceptance function
accept(t) =


Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   18   19   20   21   22   23   24   25   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin