Information extraction from the web using a search engine Citation for published version (apa)



Yüklə 0,9 Mb.
Pdf görüntüsü
səhifə45/57
tarix09.02.2022
ölçüsü0,9 Mb.
#52298
1   ...   41   42   43   44   45   46   47   48   ...   57
= 0
best
(corresponding k)
PCM
0.71
0.81
(13)
PM
0.72
0.89
( 8)
DM
0.84
0.87
( 5)
Table 6.13. Precision without related artists and best precision per method.
and a relatively large training set. In [Schedl et al., 2005] a precision of up to
85% precision was obtained using O(|I
a
|
2
) queries. We can conclude that our
simple and unsupervised method produces similar results. Moreover, we compute
a categorization of artists into genres instead of clusters of artists.
We also conducted this experiment using
Last.fm data. For each artist, we
initially selected the genre that gets the highest score. In this case, we thus select
the genre that is mentioned as the highest ranked tag. If no genre is mentioned for
an artist, initially no genre is assigned.
For the experiment with the
Last.fm data, we retrieved for each artist of the 224
artist set the list of the (at most) 100 most similar artists. Having obtained an initial
mapping between each of the 224 artists and a genre, we use the nearest neighbors
to compute a final mapping. Alike the three web-based methods, we compute a
majority voting among the initial genre for each artist and its nearest neighbors
using
PM
,
DM
and the
Last.fm data.
We compare the results of the
Last.fm-based artist categorization with the best
two results from [Geleijnse & Korst, 2006c] in Figure 6.12. For the method
DM
co-occurrences between artists and genres within full web documents are
used to compute the initial mapping. To compute artist similarity using
DM
, we
use co-occurrences of artist names within documents. The method
PM
uses co-
occurrences within phrases that express the relations of interest.
The results for artist categorization using the
Last.fm data are similar to the
ones gained using web-data collected with a search engine. The results for
Last.fm
are best when incorporating the tags of the 3 nearest neighbors of every artist.
Since an average number of 14 similar artists (out of the set of 224) is identified,
the performance deteriorates for larger values of k.
It is notable that for all three methods most misclassifications were made in the
Folk, Heavy and Rock ’n Roll genres, where often the genre Indie/Alternative was
assigned to the artist.
When we classify the artists using the
Last.fm data after track filtering (see
page 123), the initial mapping (= 0) improves slightly as
Chubby Checker is now


140
 0.7
 0.72
 0.74
 0.76
 0.78
 0.8
 0.82
 0.84
 0.86
 0.88
 0.9
 0
 5
 10
 15
 20
 25
 30
 35
 40
precision
k
Precision for Artist Categorization of 224 test set
last.fm data
dm
pm
Figure 6.12. Precision of the 224 artist categorization for k-NN using Last.fm and
the two best web-based methods.
correctly classified. For values of larger than 1, the performance using the track
filtered data is equal to the one using either the raw or the normalized
Last.fm data.
As the results of the genre categorization using the
Last.fm data are equally
good as those gained with the best methods using arbitrary web-data, we conclude
that
DM
and
PM
are reliable methods for this classification task. We also observe
that there is no complete overlap with the data extracted from
Last.fm and the
ground truth composed by experts in the field. This on the one hand gives confi-
dence in our methods, but on the other hand raises questions on the fact that not
all artist-genre combinations are recognized by the general public. We therefore
investigate the use of
Last.fm data as a ground truth in the last part of this section.
Categorizing Painters into Movements
For this experiment, we constructed a list of painters I

Yüklə 0,9 Mb.

Dostları ilə paylaş:
1   ...   41   42   43   44   45   46   47   48   ...   57




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin