Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə13/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   9   10   11   12   13   14   15   16   ...   57
s
that is used to check the identified patterns for
effectiveness.
The set should be chosen such the instance-pairs are typical for relation r. We
do so by selecting the instance-pairs that are found most frequently in a previous
iteration of the ontology population algorithm (Section 2.2).
To identify a (new) set of effective patterns that represent r, we first discover
how relation is expressed in natural language texts on the web. Subsequently
we address the problem of selecting effective patterns from the total set of patterns
found.
Identifying Relation Patterns
We first generate a set of patterns with the use of the following algorithm. For
evaluation purposes, we also compute the frequency of each pattern found.
In the first part of the algorithm, the identification phase, we collect a set of
patterns by querying both instances and i
0
of the pairs in . We query both " *
i
0
" and " i
0
". The * is a regular expression operator, serving as a placeholder
for zero or more words. Table 3.2 gives example search results.
Having collected the search results for the given queries, we collect the inner-
sentence text fragments in between the two queried instances. The collected text
fragments are subsequently normalized by removing all mark-up that is ignored
by the search engine. Since popular search engines are case-insensitive and ig-
nore punctuation, we translate all phrases found to a normal form: the simplest
expression that we can query that leads to the document retrieved.
For each of the normalized phrases, we compute the frequency p
freq
. A sketch
of the identification phase of the effective pattern extraction algorithm can be found
in Table 3.3.
We now have generated a set with patterns and their frequencies within the
retrieved snippets.


3.1 Identifying Effective Patterns
35
Leo Tolstoy’s masterpiece, War and Peace.
Leo Tolstoy, War and Peace - eSnips, share anything
Leo Tolstoy’s major work, War and Peace, is
Leo Tolstoy: His Own War and Peace (Path I) By Ekaterina Chel-
panova. Published: 1st June 05
Leo Tolstoy. Then novel War and Peace was written by a famous
Leo Tolstoy?s novel, War and Peace, contains three kinds of material, a
historical
Leo Tolstoy/Tolstoi — Download War and Peace
Leo Tolstoy name his book ”War and Peace” and not ”Peace and War”,
when
Leo Tolstoy fictionalized him in ”War and Peace’
Leo Tolstoy that is not War and Peace? Anna Karenin
Leo Tolstoy to devote a War and Peace to the period of the
Leo Tolstoy’s most celebrated novel War and Peace, the vast epic of
Leo Tolstoy, author of ”War and Peace” and ”Anna Karenina.
Leo Tolstoy’s classic work, War and Peace.
Leo Tolstoy’s monumental epic War and Peace
Table 3.2. Example search results for the
allintext
-query
Leo Tolstoy

War and
Peace
.
for each (i, i
0
∈ T →
query the expressions " i
0
" and " i
0
" ;
extract all phrases matching the queried expressions ;
replace and i
0
in by placeholders for the classes ;
normalize ;
store and update its frequency p
freq
(S) ;
rof
Table 3.3. Sketch of the pattern identification phase.


36
Selecting Relation Patterns
From the list of relation patterns found, we are interested in the most effective ones.
Precision is not the only criterion for effectiveness. For example, the retrieved pat-
tern
f¨odd 30 mars 1853 i proved to a 100% precise pattern expressing the relation
between a person (
Vincent van Gogh) and his place of birth (Zundert). Clearly,
this rare phrase is unsuited to mine instance-pairs of this relation in general. On
the other hand, high frequency of some pattern is no guarantee for effectiveness
either. The frequently occurring pattern “was born in London” (found when query-
ing for
Thomas Bayes * England) is well-suited to be used to find London-born
persons, but in general the pattern is unsuited – since too narrow – to express the
relation between a person and his or her country of origin.
Taking these observations into account, we formulate three criteria for selecting
effective relation patterns.
1. The patterns should frequently occur on the web, to increase the probabil-
ity of getting any results when querying the pattern in combination with an
instance.
2. The pattern should be precise. When we query a pattern in combination with
an instance in I

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   9   10   11   12   13   14   15   16   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin