Non-iid data and Continual Learning processes in Federated Learning: a long road ahead



Yüklə 1,96 Mb.
Pdf görüntüsü
səhifə17/31
tarix11.06.2023
ölçüsü1,96 Mb.
#128584
1   ...   13   14   15   16   17   18   19   20   ...   31
1-s2.0-S1566253522000884-main

Fig. 4. Representation of Concept drifts in a two-dimensional input space 𝑋 with two possible labels 𝑌 = {◦▵}. On the left of the doted line, we find the data samples received
before time 𝐭, and on the right there are three possible time-evolving situations. (1): the new data samples observed are situated in new regions, previously unseen. However,
data labels correspond with the split made by the classifier from (0). (2): the new instances appear in already known regions of the input space, but they are incorrectly classified
using the model from (0). (3): the two previous situations are combined.
alternative is applying a mapping 𝐿 from the class of linear functions
and then determine the value of 𝑓 depending on the resulting norm of
𝐿
. Let 𝐴 ∈ R be a fixed value. Then:
𝐿
∶ 𝑋 ⟶ R
𝑚
𝑥 ⟼ 𝑤
𝑇
𝑥,
𝑥
∈ 𝑋, 𝑤 ∈ [01]
𝑚
.
𝑓
(𝑥) =
{
1
If
𝐿(𝑥)‖ ⩾ 𝐴
−1
Otherwise
defines a mapping that presents all the required properties. The value
of 𝐴 is chosen according to the values of the features. There are more
kinds of possible mappings with good qualities, but these are the sim-
plest ones. To adapt methods like this one to a federated framework the
only additional requirement is that all of the clients employ the same
map 𝑓 to perform their calculations, in order to keep the sensibility of
the drift detection method equal among the devices.
Another recurrent strategy for the detection of virtual drifts consists
of using sliding windows to keep track of the samples received in the
past and compare them to the current data stream [
8
,
127

129
]. In
this kind of method, datasets are split in two according to the time
they were collected in, and then the two groups of data samples are
compared using different metrics and statistical properties, such as their
mean and standard deviation, distances calculated between two sam-
ples of the same group, or one sample from each group, etc. Analogous
to the previous method, all clients should employ the same metric or
statistical parameters to determine whether their data presents shifts or
not. However, they do not necessarily have to split their data samples
according to the same timestamp, as each client could experience drift
in a different moment. This is the strategy developed in [
8
] in a
federated environment.
The other work that presents a strategy to detect virtual drifts in
FL frameworks is [
130
]. This work assumes that for the first stage of
training there are no concept drifts, and keeps statistical and numerical
information about the updates sent by each client in this stage. After
that, the same information is calculated from the next updates of the
clients, and the results are compared to the previous ones to determine
whether there is a drift.
On the other hand, Error Rate-based methods focus on detecting
real concept drift. They present more of a challenge in contrast with
virtual concept drift detection. In the first place, the virtual concept
drift strategies we just presented can be deployed in unsupervised
settings since they do not need any label information, whereas real drift
detection methods need it because the main variable involved when
trying to detect changes in conditional probabilities, 𝑃 (𝑦
|𝑥), is the error
in the predictions. Some of these works also employ sliding windows
to perform the drift detection [
131
,
132
], although in this case the
metrics considered must give an especial role to the label information.
When the error of the model increases abruptly, a real concept drift
is detected. Hence, techniques aiming to detect this kind of variations
are highly dependent on how the model inaccuracy is measured [
133
].
There are different ways of accounting for the model loss. One of the
most extended functions for measuring the error in machine learning
models is the well-known cross-entropy loss. A lot of research has been
made to determine whether this is an appropriate measure of the con-
ducted error [
134
,
135
]. In addition, different authors have proposed
many other loss functions based on the cross-entropy loss [
136

138
].
Despite the good results achieved, all of these alternatives present some
limitations, such as weaknesses against skew labelled data, or the fact
that errors are untraceable. These kinds of properties are very desirable
when facing real drift, as they provide important information about the
origin of the error.

Yüklə 1,96 Mb.

Dostları ilə paylaş:
1   ...   13   14   15   16   17   18   19   20   ...   31




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin