3
Veri Madenciliği Nedir?
Basit bir tanım yapmak gerekir ise veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi
madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecek ile ilgili tahminde
bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği
deyimi yanlış kullanılan bir deyim olabileceğinden buna eş değer başka kullanımlar da literatüre
geçmiştir. Veritabanlarında bilgi madenciliği (knowledge mining from databases), Bilgi çıkarımı
(knowledge extraction), data/pattern anaysis (veri ve örüntü analizi), veri arkeolojisi gibi.
Bunların arasındaki en popüler kullanım Veritabanlarında Bilgi Keşfi (VBK – Knowledge Discovery From
Databases – KDD) ‘dir. Alternatif olarak veri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde
kabul görmektedir. Bu adımlar:
1-) Veri Temizleme (gürültülü ve tutarsız verileri çıkarmak)
2-) Veri Bütünleştirme (birçok veri kaynağını birleştirebilmek)
3-) Veri Seçme (Yapılacak olan analiz ile ilgili olan verileri belirlemek )
4-) Veri Dönüşümü (Verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü
gerçekleştirmek)
5-) Veri Madenciliği (Veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
6-) Örüntü Değerlendirme (Bazı ölçümlere göre elde edilmiş bilgiyi temsil
eden ilginç örüntüleri
tanımlamak)
7-) Bilgi Sunumu (Madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek),
Veri madenciliği adımı, kullanıcı ve bilgi tabanı ile etkileşim halindedir. İlginç örüntüler kullanıcıya
gösterilir, ve bunun ötesinde istenir ise bilgi tabanına da kaydedilebilir. Buna göre, veri madenciliği
işlemi, gizli kalmış örüntüler bulunana kadar devam eder. Bir veri madenciliği sistemi, aşağıdaki temel
bileşenlere sahiptir:
Veritabanı, veri ambarı ve diğer depolama teknikleri
4
Veritabanı ya da veri ambarı Sunucusu
Bilgi Tabanı
Veri Madenciliği Motoru
Örüntü Değerlendirme
Kullanıcı Arayüzü
Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel
olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların
tespiti gibi belirli sayıda teknik yaklaşımları içerir.
Başka bir deyişle,
veri madenciliği, verilerin içerisindeki desenlerin, ilişkilerin, değişimlerin,
düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı
otomatik olarak
keşfedilmesidir.
Temel olarak veri madenciliği, veri setleri arasındaki desenlerin ya da düzenin, verinin analizi ve yazılım
tekniklerinin kullanılması ile ilgilidir. Veriler arasındaki ilişkiyi, kuralları ve özellikleri belirlemekten
bilgisayar sorumludur. Amaç, daha önceden fark edilmemiş veri desenlerini tespit edebilmektir.
Veri madenciliğini istatistiksel bir yöntemler serisi olarak görmek mümkün olabilir. Ancak veri
madenciliği, geleneksel istatistikten birkaç yönde farklılık gösterir. Veri madenciliğinde amaç, kolaylıkla
mantıksal kurallara ya da görsel sunumlara çevrilebilecek nitel modellerin çıkarılmasıdır. Bu bağlamda,
veri madenciliği insan merkezlidir ve bazen insan – bilgisayar arayüzü birleştirilir. Veri madenciliği sahası,
istatistik, makine bilgisi, veritabanları ve yüksek performanslı işlem gibi temelleri de içerir.
Veri madenciliği konusunda bahsi geçen geniş verideki geniş kelimesi, tek bir iş istasyonunun belleğine
sığamayacak kadar büyük veri kümelerini ifade etmektedir.
Yüksek hacimli veri ise, tek bir iş
istasyonundaki ya da bir grup iş istasyonundaki disklere sığamayacak kadar fazla veri anlamındadır.
Dağıtık veri ise, farklı coğrafi konumlarda bulunan verileri anlatır.
Veri herhangi bir işleme tabi tutulmadan, gözlem veya ölçüm yöntemleri ile ortamdan elde edilen her
türlü değerdir [1]. Veri ambarı zaman içerisinde olabildiğince birikmiş verilerin oluşturduğu bir veri
yığınıdır. Veri ambarı bir zaman boyutu içinde analitik işlemlerin yapılmasını sağlamak için gerekli bilgi
temelini sağlar [2]. Veri tabanı, belirli bir amaç için ya da son kullanıcıların belirli bir kümesi için verilerin
bilgi alanları ile organize edilerek gruplanmasını ve verinin saklama, gruplama, erişime sunulması ve
raporlama gibi manipülasyonlarına olanak veren araçları sağlar. Veri tabanı, bibliyografik veri veya
sayısal, istatistiksel veri içerebilir [3]. Veri madenciliği büyük miktarda verinin anlamlı örüntüler bulmak
amacıyla otomatik veya yarı otomatik yöntemler ile işlenmesi olduğunu söyleyebiliriz.
Veri madenciliğinin en çok beslendiği bilimsel disiplinlerin istatistik ve
makina öğrenmesi olduğunu
söyleyebiliriz. Ayrıca yapay zeka alanında yapılan çalışmaların da veri madenciliğine katkıları
olmaktadır. Çoğu zaman veri madenciliği, makina öğrenmesi ve yapay zeka birbiri yerine kullanılmakla
birlikte, aslında farklı amaçları olan fakat ortak araçları kullanabilen bilimsel disiplinlerdir. Michael
Palmer’ın söylediği gibi “Veri, sadece ham petroldür, rafine edilmezse,değeri vardır ama kullanılabilir
değildir” [4]. Veri madenciliği Şekil 9'da verildiği gibi raporlama [5], modelleme [6], kümeleme [7], karar
5
destek sistemleri, veri hazırlama [8], istatistiksel yaklaşımlar [9], karar ağaçları [10], yapay zeka [11] gibi
konularla içi içe çalışmaktadır.
Şekil 1. Veri madenciliği
Gelişen ve değişen çevre koşulları, sınırların kalkması ile küreselleşen dünya, farklı pazarlama ve ar-
ge(araştırma geliştirme) yöntemleri “veri”nin değil “bilgi”nin önemini her geçen gün daha da artacak
şekilde ortaya koymaktadır. İnternetin yaygınlaşması ve kolaylaşması ar-ge ekiplerinin “bilgi”ye
erişmelerini zorlaştırmaktadır. İnternette arama motorları kullanılarak yapılan araştırmalar çoğu zaman
istenilenden farklı bir şekilde sonuçlanmaktadır. Tıbbi bir araştırma sonucunda elde edilen verilerin
yorum
lanıp analiz edilmesiyle bilgiye ulaşılabilmektedir. Büyük bir perakendecinin, fatura bilgilerinden
müşteri eğilimlerini belirleyip ona göre pazarlama taktikleri üretebilmesi, rakiplerinin önüne geçmesini
sağlayacaktır. Verilen
örneklere dikkat edilirse, “veri”nin “bilgi”ye dönüşme işleminin vurgulandığı
görülecektir. Bilginin kimi yöntemler ile analiz edilmesi ve çıkan sonuçların bir uzman gözüyle
yorumlanmasıyla geçmiş verilerden gelecek tahminleri yapma işlemi veri madenciliği (data mining)
olarak belirt
ilebilir.Basit bir tanım yapmak gerekir ise veri madenciliği, büyük ölçekli veriler arasından
bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecek ile
ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır.
V
eri madenciliği aslında bilgi keşfi sürecinin bir parçası şeklinde kabul görmektedir. Şekil 10'da veri
madenciliğine ait adımlar verilmektedir.
Dostları ilə paylaş: