Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme...

73
Veri Madenciliği ARGE, 1991 yýlýndan bu yana müþterilerine yönetim danýþmanlýðý hizmetleri sunmaktadýr. Bugün geliþmiþ metodolojileri, çeþitli sektörlerde elde ettiði deneyimleri ve güçlü danýþman ekibi ile ARGE Türkiye’nin önde ge- len kuruluþlarý arasýnda yer almaktadýr. Rakamlar, ARGE’nin yeni iþlerinin %60’ýnýn eski müþ- terilerinden geldiðini göstermektedir. Bu istatistik, müþte- ri mutluluðunun bir göstergesi olarak önem verdiðimiz bir performans göstergesidir. Gücünü, müþterilerinin artan performanslarýndan alan ARGE’nin müþteri profilinde kendi sektörlerinde önder firmalar bulunmaktadýr. Bizce içinde bulunulan konum ne kadar iyi olursa olsun, bununla yetinmemek ve daha iyiye ulaþmak için gayret göstermek, lider olma- nýn çok önemli ve içgüdüsel bir özelliðidir. En iyiyi baþarmak için hiç vazgeçmediðimiz þu temel prensipleri uygulamaktayýz: Müþterilerimizin iþlerine artý deðer katmak, Yaratýcý yaklaþýmlar ve uygulanabilir çözümler üretmek, Üstlendiðimiz her iþi en iyi þekilde gerçekleþtirmek için hiçbir fedakârlýktan kaçýnmamak, Müþterilerimizin gizliliðine daima özen göstermek. Hizmetlerimizi yapýlandýrýrken en önde tuttuðumuz unsur “uygulama”dýr. Bu yaklaþým verilen hizmetlerin sa- dece öneri ve raporlar ile kýsýtlý olmasýndan çok farklý olup gerçek bir katma deðer yaratmaktadýr. ARGE’nin görüþüne göre, performansýný doðrudan etkileyen dört temel unsur bulunmaktadýr. Bunlar iþ stratejisi, bu stratejiyi gerçekleþtirmek için ge- rekli olan iþ yapma yöntemleri, insan kaynaklarý ve tek- noloji yönetimidir. Deðer yönetimi alanýnda özel bir metodoloji ile çalýþan ARGE, çalýþma baþýnda müþ- terisinin þirketinin deðerini ölçer ve çalýþmalarýný bu deðeri yükseltmeye odaklar. Bu çerçevede ARGE’nin sunduðu danýþmanlýk hizmetleri dört ana baþlýk altýnda toplanmaktadýr: Strateji, Yönetimde Kalite, Kurumsallaþma, Geleceği Şekillendirme. ARGE danýþmanlarý, uzmanlýk konularýnda dünyadaki geliþmeleri takip etmek için senede bir ay eðitim alýrlar. Sosyal sorumluluðunun bilincinde olan bir kurum olarak, çalýþanlarýnýn haftada bir gün gönüllü kuruluþlarda çalýþarak deneyimlerini toplumsal sorunlarýn çözümünde kullanmalarýný teþvik eder. ARGE, Avrupa Parlamentosu’nda kurumsal sosyal sorumluluk projeleriyle geleceði þekillendiren en iyi üç þirket arasýnda deðerlendirilmiþtir (2002). “Baþarýnýz için yanýnýzdayýz” Strateji Strateji Geliþtirme Strateji Uygulama (Balanced Scorecard) Stratejik Ýþbirlikleri ve Birleþme sonrasý Yapýlanma Senaryo Planlama Ülke Stratejileri Yönetimde Kalite Ýþ Etkinliði Deðerlendirmesi Toplam Kalite Yönetimi Süreç Verimliliği Deðer Yönetimi Yeniden Yapılanma Kurumsallaþma Ýnsan Kaynaklarý Yönetim Sistemleri Kurumsal Yönetiþim Aile Þirketlerinde Kurumsallaþma Entelektüel Sermaye Yönetimi İnsan Kaynakları SistemDeğerlenidrmesi Geleceği Şekillendirme Toplumsal Katkıyı Yapılandırma İşbirlikleri Geliştirme Toplumsal Yönetişim STK Etkinliği Geliştirilme Sosyal Destek Projeleri www.arge.com Veri Madenciliği Bu dört ana başlık altında verilen hizmetler şu şekildedir: Veri Madenciliği Veri Madenciliği Veriden Bilgiye, Masraftan Değere Dr. Yılmaz Argüden Veri Madenciliği Burak Erşahin

Transcript of Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme...

Page 1: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Veri Madenciliği

AR GE, 1991 yýlýn dan bu ya na müþ te ri le ri ne yö ne timda nýþ man lýðý hiz met le ri sun mak ta dýr. Bu gün ge liþmiþme to do lo ji le ri, çe þit li sek tör ler de el de et ti ði de ne yim le rive güç lü da nýþ man eki bi ile AR GE Tür ki ye’nin ön de ge -len ku ru luþlarý ara sýn da yer al mak ta dýr.

Ra kam lar, AR GE’nin ye ni iþle ri nin %60’ýnýn es ki müþ -te ri le rin den gel di ði ni gös ter mek te dir. Bu is ta tis tik, müþ te -ri mut lu lu ðu nun bir gös ter ge si ola rak önem ver di ði mizbir per for mans gös ter ge si dir.

Gü cü nü, müþ te ri le ri nin ar tan per for mans la rýn danalan AR GE’nin müþ te ri pro fi lin de ken di sek tör le rin deön der fir ma lar bu lun mak ta dýr. Biz ce için de bu lu nu lanko num ne ka dar iyi olur sa ol sun, bu nun la ye tin me mekve da ha iyi ye ulaþ mak için gay ret gös ter mek, li der ol ma -nýn çok önem li ve iç gü dü sel bir özel li ði dir.

En iyi yi ba þar mak için hiç vaz geç me di ði miz þu te melpren sip le ri uy gu la mak ta yýz:

• Müþ te ri le ri mi zin iþ le ri ne ar tý de ðer kat mak, • Ya ra tý cý yak la þým lar ve uy gu la na bi lir çö züm ler üret mek,

• Üst len di ði miz her iþi en iyi þe kil de ger çek leþ tir mekiçin hiç bir fe da kâr lýk tan ka çýn ma mak,

• Müþ te ri le ri mi zin giz li li ði ne da ima özen gös ter mek.

Hiz met le ri mi zi ya pý lan dý rýr ken en ön de tut tu ðu muzun sur “uy gu la ma”dýr. Bu yak la þým ve ri len hiz met le rin sa -de ce öne ri ve ra por lar ile ký sýt lý ol ma sýn dan çok fark lýolup ger çek bir kat ma de ðer ya rat mak ta dýr.

AR GE’nin gö rü þü ne gö re, iþ per for man sý ný doð ru dan et ki le yen dört te mel un sur bu lun mak ta dýr.Bun lar iþ stra te ji si, bu stra te ji yi ger çek leþ tir mek için ge -rek li olan iþ yap ma yön tem le ri, in san kay nak la rý ve tek -noloji yönetimidir. Deðer yönetimi alanýn da özel birmetodoloji ile çalýþan AR GE, çalýþ ma baþýn da müþ -terisinin þir ketinin deðerini öl çer ve çalýþ malarýný budeðeri yük selt meye odak lar.

Bu çer çevede AR GE’nin sun duðu danýþ man lýk hiz met leri dört ana baþ lýk al týn da top lan mak tadýr:Strateji, Yönetimde Kalite, Kurum sal laþ ma, GeleceğiŞekillendirme.

ARGE danýþmanlarý, uzmanlýk konularýnda dünyadaki geliþmeleri takip etmek için senede bir ay eðitim alýrlar.Sosyal sorumluluðunun bilincinde olan bir kurum olarak, çalýþanlarýnýn haftada bir gün gönüllü kuruluþlardaçalýþarak deneyimlerini toplumsal sorunlarýn çözümünde kullanmalarýný teþvik eder.

ARGE, Avrupa Parlamentosu’nda kurumsal sosyal sorumluluk projeleriyle geleceði þekillendiren en iyi üçþirket arasýnda deðerlendirilmiþtir (2002).

“Baþarýnýz için yanýnýzdayýz”

Strateji

Strateji Geliþtirme

Strateji Uygulama (Balanced Scorecard)

Stratejik Ýþbirlikleri ve Birleþmesonrasý Yapýlanma

Senaryo Planlama

Ülke Stratejileri

Yönetimde Kalite

Ýþ Etkinliði Deðerlendirmesi

Toplam Kalite Yönetimi

Süreç Verimliliği

Deðer Yönetimi

Yeniden Yapılanma

Kurumsallaþma

Ýnsan Kaynaklarý YönetimSistemleri

Kurumsal Yönetiþim

Aile ÞirketlerindeKurumsallaþma

Entelektüel Sermaye Yönetimi

İnsan KaynaklarıSistemDeğerlenidrmesi

Geleceği Şekillendirme

Toplumsal Katkıyı Yapılandırma

İşbirlikleri Geliştirme

Toplumsal Yönetişim

STK Etkinliği Geliştirilme

Sosyal Destek Projeleri

www.arge.com

Veri Madenciliği

Bu dört ana başlık altında verilen hizmetler şu şekildedir:

Veri Madenciliği

Veri Madenciliği Veriden Bilgiye, Masraftan Değere Dr. Yılmaz Argüden

Veri MadenciliğiBurak Erşahin

Page 2: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

VERİ MADENCİLİĞİVeriden Bilgiye, Masraftan Değere

Dr. Yılmaz ARGÜDENBurak ERŞAHİN

Bu kitap kurumlarda verinin kullanımını artırarak, yönetim kalitesinin geliştirilmesine destek olmak üzere ARGE Danışmanlık A.Ş.

tarafından hazırlanmış ve Alkim Kağıt San. ve Tic. A.Ş.’nin destekleriyle yayınlanmıştır

Veri Madenciliği başlıklı kitap KalDer tarafından organize edilen 17. Ulusal Kalite Kongresi katılımcılarına

ARGE Danışmanlık’ın hediyesi olarak sunulmaktadır.

Page 3: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

ARGE Danışmanlık Yayınları No: 10Veri Madenciliği

Veriden Bilgiye,Masra�an Değere

Yazan ve DerleyenDr. Yılmaz ARGÜDEN

Burak ERŞAHİN

© ARGE Danışmanlık A.Ş.Her hakkı saklıdır. Bu kitabın hiçbir kısmı yayıncısının izni olmaksızın elektronik veya mekanik, fotokopi, kayıt ya da

herhangi bir bilgi saklama, erişim sistemi de dahil olmak üzere herhangi bir şekilde çoğaltılamaz.

ISBN: 978-975-93641-9-9 1. Basım Kasım 2008

ARGE Danışmanlık A.Ş.Fazılkaptanoğlu Caddesi

Seba İş Merkezi No: 3 Kat: 9Seyrantepe, 34418, İSTANBUL

Tel: (0212) 283 59 60Faks: (0212) 283 59 64

www.arge.com

Bu kitap 100 gr Alkim mat kuşe kağıda basılmıştır

Page 4: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

ÖNSÖZ....................................................................................................................................................................................................................................................................................................................................................5

VERİ MADENCİLİĞİ:Veriden Bilgiye – Masra�an, Değere.................................................................................................................................................................................................7

VERİ MADENCİLİĞİ............................................................................................................................................................................................................................................................................13Giriş – Anlaşılabilirlik..........................................................................................................................................................................................................................................15Veri Madenciliği Nedir?...................................................................................................................................................................................................................................15Neden Veri Madenciliği...............................................................................................................................................................................................................................16Veri Madenciliği Ne Değildir?.........................................................................................................................................................................................................17Veri Madenciliğine Örnek....................................................................................................................................................................................................................17Veri Madencisi Kimdir?.............................................................................................................................................................................................................................19Veri Madenciliği Süreci (Döngüsü)................................................................................................................................................................................20

SEKTÖREL UYGULAMA ÖRNEKLERİ.................................................................................................................................................................................27Riski Azaltmak (Riski Önlemek).................................................................................................................................................................................29Müşteri Kaybını Azaltmak (Churn)............................................................................................................................................................30Doğru Kişiye Doğru Ürünü (Yaklaşımı) Sunmak............................................................................................................31Mevcut Müşterilere Çapraz Satış / Ek Satış (Cross-Sell / Up-Sell)......................................................................................................................................................................................................................................32Yeni Müşteri Kazanmak........................................................................................................................................................................................................................32Standart dışı Davranışları Belirlemek / Güvenlik (Fraud Detection)..................................................................................................................................................................................................................................................33Diğer Konular...................................................................................................................................................................................................................................................................34

VERİ MADENCİLİĞİNİN FONKSİYONLARI..........................................................................................................................................................35Tahmin / Öngörü (Supervised) Fonksiyonlar..................................................................................................................37Tanımlama (Unsupervised) Fonksiyonlar....................................................................................................................................39

VERİ MADENCİLİĞİNİN ALGORİTMALARI (Metotları / Teknikleri)..................................................................................................................................................................................................................................................................45

Karar Ağaçları (Decision Trees)................................................................................................................................................................................47Regresyon Analizi (Regression Analysis)....................................................................................................................................49Lojistik Regresyon (Logistic Regression).....................................................................................................................................52Bayes..............................................................................................................................................................................................................................................................................................52Apriori Algoritması................................................................................................................................................................................................................................56Kümeleme Yöntemleri............................................................................................................................................................................................................................58

SONUÇ...................................................................................................................................................................................................................................................................................................................65

OKUMA ÖNERİLERİ..................................................................................................................................................................................................................................................................69Okuma Önerileri –Teknik............................................................................................................................................................................................................................72

3

İçindekiler

Page 5: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 6: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

ÖNSÖZ

Bilgi güçtür. Bilgiyi üretebilen, kullanabilen bireyler, şirketler ve toplumlar daha hızlı

gelişir, gelirlerini, kârlılıklarını ve refah düzeylerini artırırlar. Bilgi çağında değer ya-

ratmanın yolu fiziksel varlıklardan çok, bilgi kaynaklarını etkin kullanmaktan geçi-

yor. Bu nedenle, bilgi yönetimi için birçok yöntem ve araç geliştiriliyor.

Günümüzde gelişen bilgi teknolojileri sayesinde her geçen gün daha çok veri sa-

yısal olarak toplanıyor, saklanıyor ve hepsinden önemlisi kullanılıyor. Veri bilgiye

dönüştürülüp, kullanılıncaya kadar değer ifade etmez. Değerli olan verilerin ir-

delenip, bilgiye dönüştürülmesi ve karar için kullanılabilmesidir.

Büyük miktarda verinin çeşitli yöntemler ile analiz edilmesi ve çıkan sonuçların bir

uzman gözüyle yorumlanmasıyla geçmiş verilerden gelecek tahminleri yapmaya

yarayacak bilgiler edinilmesi işlemine veri madenciliği deniyor. Ülkemizde henüz

emekleme aşamasında olan veri madenciliği konusundaki yetkinliklerimizi artır-

manın, kurumlarımızı doğru kararlara yöneltmesi ve başarı şanslarını artırması

açısından önemli olduğuna inanıyoruz.

Yönetim kalitesini geliştirme misyonuyla ve yarattığı katma değer ve toplumsal

katkılarıyla örnek olma vizyonuyla çalışan ARGE Danışmanlık, her sene yeni bir

yönetim aracını ve/veya anlayışını ülkeye kazandırmaya çalışıyor.

ARGE Danışmanlık kuruluşundan bu yana yönetim bilimi konusundaki dene-

yimlerini gerek iyi örnekler oluşturulmasına destek olarak, gerekse ‘Balanced

Scorecard’, ‘Kurumsal Sosyal Sorumluluk’, ‘Entelektüel Sermaye’, ‘Değer Yöne-

timi’, ‘Değişim Yönetimi’, ‘İtibar Yönetimi’, ‘Kurumsal Yönetişim’ gibi yayınlarla

Türk yönetim dünyasıyla paylaşarak yönetim alanında birçok yeniliğin Türkiye’de

uygulanmasına da öncülük yapıyor.

Bu kapsamda her sene yeni bir kitapçığı Ulusal Kalite Kongresi’nde Türk yöne-

tim dünyasının kullanımına sunuyoruz. Bu sene de veri madenciliği konusunu

Türk yönetim dünyasının gündemine taşıyarak, bu konudaki deneyimlerimizi “Veri

Madenciliği: Veriden, Bilgiye – Masraftan, Değere” başlıklı kitap aracılığıyla siz-

lerle paylaşmaktan memnuniyet duyuyoruz.

Ülkemizdeki kurumların bilgiye dayalı kararlar ile her geçen gün daha yüksek

değer yaratması dileğimizle....

ARGE Danışmanlık A.Ş.

5

Page 7: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 8: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

VERİ MADENCİLİĞİ: Veriden Bilgiye,

Masraftan DeğereDr. Yılmaz ARGÜDEN

Page 9: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 10: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

İnsanoğlu yaşam kalitesini geliştir-mek için bilgi ve bilimi kullanabilmesiylekendisini ayırt ediyor. İnsan toplulukla-rında da bilgi ve bilimi daha etkin olaraküretebilen ve kullanabilenler göreceliolarak daha yüksek yaşam standartlarınakavuşabiliyorlar. Bu nedenle, ülkelerinbilgi düzeyi, bilginin mülkiyet hakları,analiz yetkinliklerini geliştiren eğitim sis-temleri, ve bilgiye dayalı karar vermekültürüne yakınlıkları, gelişmişlik dü-zeyleri açısından belirleyici oluyor.

Teknolojik gelişmeler dünyada ger-çekleşen bir çok işlemin elektronik olarakkayıt altına alınmasını, bu kayıtların ko-layca saklanabilmesini ve gerektiğindeerişilebilmesini hem kolaylaştırıyor, hemde bu işlemlerin her geçen gün dahaucuza mal edilmesini sağlıyor. Ancak,ilişkisel veri tabanlarında saklanan birçokveriden kararlar için anlamlı çıkarımlaryapabilmek bu verilerin bilinçli uzman-larca analiz edilmesini gerektiriyor. Üs-telik veri miktarı ar�ıkça bunların analizedilmesi de özel araçlar ve yöntemlerinkullanımını zorunlu hale getiriyor.

Veriyi hızlı toplayan ve bilgiye dön-üştürerek hızlı kullananlar rekabetçiavantaj elde ederler. Veri madenciliğibüyük miktarda veri içinden gelecekle il-gili tahmin yapmamızı sağlayacak ilişkive kuralların aranmasıdır.

Veri madenciliği, özel ve kamu sek-törü kuruluşlarında birçok şekilde kulla-nılabilmektedir. Bunlardan bazılarıaşağıdaki gibi sıralanabilir:

• Bir süpermarket müşterilerinin satınalım eğilimlerini irdeleyerek, promos-yonlarını belli müşterilere yönlendir-

mesi, aynı kaynakla daha çok satışgerçekleştirmesine yardımcı olabilir.

• Bankalar kredi kararlarında kredi iste-yenlerin özelliklerini ve davranışlarınıirdeleyerek batık kredi oranını azalta-bilir.

• Havayolları sürekli müşterilerinin dav-ranış biçimlerini irdeleyerek dahaetkin fiyatlandırma ile kârlılıklarını ar-tırabilirler.

• Bir telefon şirketi müşteri davranışla-rından öğrendikleri ile yeni hizmetlergeliştirerek, müşteri bağlılığını ve kâr-lılığını artırabilir.

• Maliye Bakanlığı Gelir İdaresi, şirketleriçin risk modelleri kurarak vergi ince-lemelerini daha etkin yönlendirip,vergi kaçaklarını azaltabilir.

• Hastaların teşhis ve tedavi maliyetleriirdelenerek hastalık riskinin ilk aşa-mada tespiti, kontrolü ve kaynakplanlama açısından faydalı olur.

Ancak, bu faydaları sağlayabilmekiçin veri madenciliği konusuna yatırımyapmak gerekiyor.

Büyük veri tabanlarının analiz odaklıolarak kullanılmasının önünde çeşitli en-geller var: (i) Veri tabanlarındaki gözlem-lerin birçoğunda bilgilerin eksik veyayanlış olması, (ii) Bazı verilerin kişisel de-ğerlendirmelere dayandırılması ve bunedenle gözlemler arasında tutarlı karşı-laştırma yapılmasının güç olması, (iii)Veri toplama süreçlerinin bütünü res-metmeyi engelleyecek ve bilinçli olmayanseçicilikler içermesi (selection bias), (iv)Veri tabanı yapısının analiz odaklı olma-ması, (v) Analizi mânalı hale getirecek

9

Page 11: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

bilgi eksikliklerini tamamlamanın mali-yetli (veya imkansız) olması, (vi) Yetkinanalistlerin kullanılmaması, (vii) Analizteknikleri konusunda bilgi sahibi olanlarla,irdelenecek karar hakkında bilgi sahibiolanlar arasındaki iletişimin sağlıklı mo-delleme yapacak düzeyde olmaması gibi...

Bu nedenle, büyük veri tabanların-dan faydalanılarak bilgi üretme süre-cinde dikkat edilmesi gereken unsurlarvar. Öncelikle analizlerin güvenilir veri-lere dayandırılmasını, yapılacak her-hangi bir analizin başkaları tarafındanda tekrarlanabilir olmasını ve verinin ce-vaplandırabileceği sorulara odaklanıl-masını sağlamak gerekiyor. Bu nedenle,veri madenciliği yapacak analistin ilkadımı veri tabanındaki verilerin hangisüreç ile ve nasıl toplandığını çok iyi an-lamaktır. Bazı durumlarda çok bilgi varsanılırken, birçok gözlemde aynı bilgininkaydedilmiş olması, aslında bazı boyut-larda veri tabanının sığ olduğunu, bu bo-yutlardaki analizlerin çok az veriyedayandırılacağını gösterir. Yine verilerintoplanma sürecindeki istemsiz seçicilik-ler analizde ve daha da önemlisi analizsonuçlarının nerelerde uygulanabilir ol-duğunu belirlemek açısından büyükönem taşır.

Ayrıca, analistlerin eğitim süreçle-rinde genellikle temizlenmiş, örnekküçük veri tabanlarının kullanılması, on-ların büyük veri tabanlarını incelerkenbazı önemli adımları atlamalarına nedenolabilir. Bu nedenle, veri madenciliğindeikinci adım veri tabanının içerdiği veri-leri iyi anlamaktır. Bunun için her göz-lemde bulunan verilerin dağılımı,ilişkilendirilmesi planlanan boyutların

örneklemesi ve veri tabanındaki gözlembirimi ile modellemeye temel oluştura-cak gözlem birimi arasındaki farklılıklarıgiderme kuralları konusunda detaylı ir-deleme yapılmalıdır. Bir veri tabanınıniyi anlamak için yapılacak ilk yatırım,analizlerin ve sonuçların kullanılabilir ol-masında büyük önem taşır.

Üçüncü önemli adım ise analiz sonuç-larının kullanılması planlanan kararları veçevre şartlarını iyi anlamaktır. Çünkü veritabanının hangi soruları yanıtlaması isten-diğini anlamak doğru modelleme yapabil-menin temelidir. Korelasyon, neden-sonuçilişkisi değildir. Doğru modelleme yapa-cak teorik bilgiyi edinmeksizin, sadece tek-nik olarak korelasyonlara dayandırılançıkarımlar, analistlerin güvenilirliğini ze-deleyebilir veya karar vericileri yanlış ka-rarlara yönlendirebilir.

Dördüncü adım, teorik modeli kur-mak ve veri tabanı kullanılarak test edi-lecek hipotezleri oluşturmaktır. Kurulanmodelin, geçerliliğini test etmek, bu ne-denle veri tabanının bir kısmını kullan-dıktan sonra model ile yapılacaköngörülerin veri tabanındaki diğer veri-ler kullanılarak doğrulanması, karar ve-ricilerin modele duydukları güveni vemodelin gerçek haya�a kullanılma olası-lığını artırır.

Özetle, veri madenciliği veriden bilgiüreterek, ortalama kararlar yerine özgünkararlar verilmesini destekleyen, satış-ları, kârlılığı, yenilikçiliği ve kaynak kul-lanımında etkinliği artıran önemli biryönetim aracıdır.

Bu nedenle, veri madenciliği konu-suna yapılacak yatırımları özendirmek,eğitim sistemimizin bu konuda yetkin-

10

Page 12: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

likleri geliştirmesini sağlayacak adımlarıatmak ülkemizdeki kurumların başarı-sını artıracaktır. Bu şekilde yönetim ka-litesini artıran kurumlar aynı zamanda

toplumsal refah düzeyimizin artmasınıve toplumsal düzeninin korunmasınısağlarlar.

11

Page 13: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 14: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

VERİ MADENCİLİĞİ Burak ERŞAHİN

Page 15: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 16: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Giriş – Anlaşılabilirlik

Dünya ile ilgili en anlaşılmaz şey, herşe-yin tamamen anlaşılabilir olmasıdır. - AlbertEinstein

Veri madenciliği dünyanın anlaşılabi-lirliğine önemli ölçüde destek olan birkavramdır. Gelişen bilgi toplama, depo-lama ve işleme yetkinlikleri, giderekartan bir şekilde mevcut verilerin incele-nerek anlamlı sonuçlar elde edilmesineolanak sağlamaktadır.

Artık hangi genlerin hangi hastalığaneden olduğunu, hangi müşterilerin kre-disini geri ödeyemeyeceğini, hangi ko-şullarda yağmur yağacağını, hangi filminyüksek gişe hasılatı yapacağını veyamüşterilerin bir sonraki alışverişlerindehangi ürünleri alacaklarını bilebilmekçok şaşırtcı değildir. Asıl şaşırtıcı olan busonuçlara ulaşabilecek kurumların, veri-lerini topluyor olmalarına rağmen bu ve-rileri anlamlı bilgilere dönüştürmüyorolmalarıdır.

Bu çalışma veri madenciliği konu-sunda yazılmış mevcut literatüre bir al-ternatif değildir. Çalışmanın temel amacı;konuya giriş yapmak, veriler ile neler ya-pılabildiğini aktarmak ve bireyleri kararalırken veri kullanmaları konusunda teş-vik etmek ve böylelikle karar kalitesiniartırmaktır.

Çalışmanın ana konusu olan üç temelkavramı şu şekilde tanımlayabiliriz.

• Veri; sayılar, metinler, sesler ve gö-rüntülerdir.

• Veri tabanı; sistematik erişim imkanı

olan, yönetilebilir, güncellenebilir, ta-şınabilir, aralarında tanımlı ilişkiler bu-lunabilen verilerdir.

• Bilgi: öğrenerek, deneyerek, araştı-rarak elde edilen, karar almaya yar-dımcı olan her türlü sonuçtur.

Veri Madenciliği Nedir? Verinin bilgiye dönüştürülmesi

Veri madenciliği, büyük hacimli veriyığınları içerisinden karar alabilmek içinpotansiyel olarak faydalı olabilecek, uy-gulanabilir ve anlamlı bilgilerin çıkarıl-masına verilen addır. Veri madenciliğigeniş anlamda veri analiz teknikleri bü-tünüdür ve tek başına bir çözüm değil-dir. Mevcut problemleri çözmek, kritikkararları almak veya geleceğe yöneliktahminleri yapmak için gerekli olan bil-gileri elde etmeye yarayan bir araçtır. Or-taya çıkarılması hedeflenen bilgiler; üstükapalı, çok net olmayan, önceden bilin-meyen, daha önce keşfedilmemiş ancakpotansiyel olarak kullanışlı anlamlı vekritik bilgilerdir.

Veri madenciliği döngüsü, veri yığın-larını elden geçirmekle başlayarak, ana-liz sonucunda ortaya çıkan sonuçlarınuzman gözüyle yorumlanması ile ta-mamlanır. Veri madenciliği çalışmalarının

15

1 The most incomprehensible thing about the world is that it is at all comprehensible

Veritabanlarında Bilgi Keşfi, Bilgi Çıkarımı, Veri Ana-

lizi, Veri Arkeolojisi, Bilgi Hasatı, İş Zekâsı, Data Mi-

ning, Information Harvesting, Knowledge Discovery

in Databases, Data Pattern Processing, Database Mi-

ning, Data Archaeology, Knowledge Mining, Data

Dredging, Knowledge Extraction, Siftware, Desen Al-

gılama, Pattern Recognition

Page 17: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

alt yapısının önemli bir bölümünü istatistik veveritabanı uygulamaları oluşturmaktadır.

Veri madenciliği, büyük boyutlu veriambarlarının meydana çıkmasının bir so-nucudur. 1960’larda veriler elektronik or-tamda toplanmaya ve geçmiş verilerbilgisayarlar ile analiz edilmeye başlan-mıştır. 1980’lerde bağıntılı (relational) ve-ritabanları ve SQL ile verilerin dinamikve anlık analiz edilmesine olanak sağlan-mıştır. 1990’lara gelindiğinde toplan-makta olan verinin hacmi çok büyükboyutlara ulaşmış ve verilerin depolan-ması için veri ambarları kullanılmayabaşlanmıştır. Veri madenciliği toplananbu büyük veri kütlelerinin değerlendiril-mesi için istatistik ve yapay zeka teknik-lerinin kullanılması sonucunda ortayaçıkmıştır.

Teknolojik gelişmeler, ham verilerinyeni fırsatlar üretmek üzere yönetim vepazar ihtiyaçlarına yanıt verecek bilgiyedönüştürülmesini kolaylaştırmış ve biranlamda kurumları veri madenciliği üze-rinde çalışmaya mecbur bırakmıştır.

• Ölçüm cihazlarının çeşitlenmesi veotomatik veri toplama araçlarınıngelişmesi sonucunda toplanan ve-rilerin türleri ve sayısı artmıştır.

• Veritabanları ve veritabanı teknolo-jisinin gelişmesi sonucunda veri de-polarında çok miktarda verinindepolanması sağlanmıştır.

• Bilgisayar ve veri işleme teknolojisi-nin gelişmesi sonucunda toplananverilerin hızlı biçimde çözümlenme-sine olanak sağlanmıştır.

Veri madenciliği; veritabanı teknolo-jisi, makine öğrenmesi, desen tanıma,istatistik, görselleştirme gibi birçok farklıdisiplinden yararlanmaktadır.

Neden Veri Madenciliği Veri ile değil, bilgi ile çalışma avantajı

Her alanda, verilen kararların doğru-luğu, kararı veren kişinin yeteneklerine vedeneyimine olduğu kadar sahip olduğubilginin yeterliliğine de bağlıdır. Bu ne-denle artık “bilgi”, mal ve hizmetin ya-nında üçüncü üretim faktörü olarakdeğerlendirilmektedir. Bilginin yeterli ol-ması, bilgiyi oluşturan verilerin doğru de-polanması, doğru işlenmesi ve doğruyorumlanmasına bağlıdır. Buna ek olarakkarar vericiler doğru kararları alabilmekiçin mümkün olduğunca çok veriyi depo-lamaya çaba göstermektedirler.

Ancak verilerin toplanması, bir oyunagiriş bileti almaktan çok farklı değildir.Asıl zorluk devamlı çoğalmakta olanham veriyi, anlamlı ve kullanılabilir birbilgiye dönüştürebilmektir. Bilgi sistem-leri birçok açık olmayan ve gelenekselyöntemlerle anlaşılamayan bilgileri içer-mektedir.

Veri madenciliği, özellikle kar ve pazarpayı elde edebilmek için yoğun rekabetinyaşandığı pazarlama alanında ön planaçıkmaktadır. Hangi müşteri, hangi ürünü,ne zaman satın alabilir, kimler tedarikçile-rinden vazgeçmekte ve bu tür müşterilerivazgeçirmek / geri kazanmak için neler ya-pılabilir, ürünün değerini yitirmesinehangi değişkenler neden olmaktadır, vb.

16

2 Wikipedia

Page 18: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

soruların cevapları veri yığınlarının altın-dadır ve cevapları bulabilmek için verimadenciliği çözümleri gereklidir.

Veri Madenciliği ile şirketler öncedenbilinmeyen bilgileri ortaya çıkararakkarar verme süreçlerini iyileştirirler. Verimadenciliği teknikleri kullanarak; mali-yetleri azaltmak, gelirleri artırmak, ve-rimliliği artırmak, yeni fırsatları ortayaçıkarmak, yeni keşifler yapmak, emekyoğun faaliyetleri otomatikleştirmek,sahtekarlıkları belirlemek ve müşteri de-neyimini geliştirmek mümkündür.

Özetle, veri madenciliği iki gereksi-nimden ortaya çıkmaktadır.

• Toplanan çok miktarda verinin iş-lenme ihtiyacı

• Artan rekabette doğru karar vere-bilme yetkinliğini artırmak ihtiyacı

Veri Madenciliği Ne Değildir?

İdeal durumda tüm kurumlar faaliyet-leri sonucunda elde e�ikleri verileri de-ğerlendirerek, kullanılabilir sonuçlar eldeetmeyi hedeflemelidirler. Ancak uygula-malara baktığımızda kurumların önemlibir kısmının verileri toplamanın ötesinegeçmedikleri gözlenmektedir. Gelişim çiz-gisine bakıldığında verilerin toplanması(ve doğru şekilde toplanması) başlangıçnoktasıdır. Elde edilen verilerden yapıla-cak sorgulamalar ve detaylı analizler ileelde edilen sonuçları veri madenciliği ola-rak değerlendirmemek gereklidir. Bir öl-çüde bunlar da veri madenciliğidir ancakdaha doğru tanımı veri düzenlemeciliğiolarak adlandırılabilir.

Veri madenciliği; veri toplamak, mev-cut verilerden sorgulamalar yapmak veya

gelişmiş analiz teknikleri kullanmanınötesinde bir noktadır.

• Bir restoran zincirinde; hangi şubele-rin ne kadar ciro yaptığı, hangi ürün-lerin hangi noktalarda daha fazlasatıldığı, hangi saatlerde yoğunluk ya-şandığı, gibi analizler veya

• Bir satış şirketinde; hangi müşterilerindevamlılık gösterdikleri, hangi bölge-lerde performans düşüklüğü yaşadık-larını belirlemek veri madenciliğideğildir.

• Gelir ile yaş ilişkisinin incelendiği birdeğişken, bir sonuç ve az sayıda veri-den oluşan bir modeli tanımlayarak,yaşa göre gelir tahmini yapmak daveri madenciliği değildir. Yüz değiş-kenin olduğu, değişkenler arasındasadece rakamsal değerlerin değil, sı-ralı (örnek: yüksek-orta-düşük) veyasırasız (örnek: evli-bekar-dul) katego-rilerin olduğu, milyon tane verinin ol-duğu ancak doğru algoritmalar vegüçlü bir bilgisayar ile sonuca ulaş-manın mümkün olduğu modellerikurmak veri madenciliğidir. Algorit-malar yukarıdaki örnekteki lineer reg-resyondan daha karmaşık olmaklabirlikte, kavram aynıdır, mevcut veri-leri kullanarak tahmin veya tanım-lama yapmak.

Veri Madenciliğine Örnek

Bir banka müşterilerine yeni bir ürünsunacaktır. Bu ürün çağrı merkezinden ya-pılacak müşteri aramaları ile telefon üze-rinden sunulacaktır. Çağrı merkezi ileyapılan anlaşma gereği her bir müşteriyeulaşmanın bedeli 3 YTL olarak tanımlan-

17

Page 19: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

mıştır. Ürünün satılması halinde bankanınelde etmeyi beklediği kar ortalama 100YTL’dir. Bankanın müşteri portföyünde 2milyon müşteri bulunmaktadır. Daha ön-ceki satış kampanyalarından müşterilerin%2,5 oranında olumlu yanıt verdiklerigözlenmiştir.

Bu veriler doğrultusunda değerlen-dirme yapıldığında ürün sunma kararını

almak mümkün değildir çünkü kampan-yadan 1 milyon YTL zarar edilmesi öngö-rülmektedir.

Bu noktada veri madenciliği teknik-leri ile bir değerlendirme yapıldığındakapmayanın yapılması kararı alınmıştır.

Müşterilerin %1’lik kısmı için bir de-neme kampanyası yapılmıştır. Bu kam-panyada 2.000.000 müşterinin %1’i olan

20.000 müşteriye ulaşılmış ve 500 müş-teriden olumlu yanıt alınmıştır. Bu de-neme kampanyasında elde edilenveriler, istatistiksel teknikler ve müşteri-lerin bilgileri birlikte kullanılarak gerçekkampanya için kullanılabilecek bazıönemli sonuçlara ulaşılmıştır.

Bu değerlendirme sonucunda müşte-rilerin sadece %50’si ile temas kurarak,

ürünü kabul edeceklerin %70’ine ulaş-mak veya müşterilerin sadece %40’ı iletemas kurarak, ürünü kabul edeceklerin%60’ına ulaşmanın mümkün olacağı so-nucuna ulaşılmıştır.

Bu durumda;

18

Page 20: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Veri Madencisi Kimdir?Analiz ve iş bilgisinin bir araya gelmesi

Cevap aranılan soru veya çözülecekproblem için kurulan bir modelin başarılıolabilmesi sadece metodolojilerin derinle-mesine biliniyor olmasına bağlı değildir.Veriyi ve pazarı tanımak, kurumun iş he-deflerini biliyor olmak, modelin altyapı-sını oluşturan metodolojilerden çok dahaönemlidir.

Her alanda olduğu gibi veri madenci-liğinde de teknoloji ile deneyimin birle-şimi en doğru sonuca ulaştırmaktadır.Deneyimin elde edilen sonuçlar üzerin-deki etkisi oldukça yüksektir.

Veri madenciliği bilincinin artması ilebirlikte, bu tür çalışmalara ağırlık ver-mek isteyen şirketlerin büyük bölümü ikiönemli hata yapmaktadırlar.

• Çalışmaları gerçekleştirmek için tek-nik konulara hakim istatistik uzman-ları veya teknik analistleri işe alarak,

modelleri kurgulamalarını istemek:Bu kategorideki uzmanlar teknik ko-nularda çok yetkin olmalarına rağ-men, gerekli iş kavrayışına yeterincesahip olmamaları nedeniyle arzu edi-len sonuçlara çoğunlukla ulaşılama-maktadır.

• Sofistike veri madenciliği yazılımlarısatın almak: Konu ile ilgili çok detaylı,tüm metodolojileri içeren yazılımlarmevcuttur ancak yazılımlardan fay-dalı sonuçlar alabilmek için doğrumodeli kurgulamak ve doğru girdilerisunmak gereklidir. Bu düşünce süre-cinden geçmeden yazılımdan faydalısonuçlar elde etmek mümkün değil-dir.

Her iki yaklaşımda da; hedefi oluş-turma, veriyi elde etme, veriyi hazır-lama, modeli uygulama, sonuçlarıdeğerlendirme gibi önemli alanlardabilgi eksikliği söz konusu olabilir. Bualanların herhangi birinde yapılacak hata

19

Page 21: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

çok maliyetli olabileceği gibi tamamenyanlış sonuçlara da götürebilir.

İstatistiksel araçları çok iyi bilen en iyiteknik analistlere sahip olmak kadar bunugerçek dünyanın problemlerine nasıluyarlayacaklarını bilmek de önemlidir. Buaşamada veri madenciliğinin 3 farklı bo-yutuna bakmakta, ilişkileri ve gereksi-nimleri anlamak açısından fayda vardır.

• Yanıtlanacak soru nedir? / Neyecevap aranmaktadır?

• Cevap aranan konuyu hangi veri ma-denciliği fonksiyonu ile çözümlemekgerekir?

• İlgili veri madenciliği fonksiyonu içinhangi algoritma ile model oluştur-mak uygun olur?

Cevap aranılan sorunun tanımlanmasıve uygun fonksiyonun seçilmesi aşama-sında faaliye�en sorumlu olan profesyo-nellerin daha etkin rol alması, seçilenfonksiyona uygun algoritmanın belirlen-mesi ve işletilmesi aşamasında istatistik uz-manlarının daha etkin rol alması gerekir.

Veri Madenciliği Süreci (Döngüsü)

Veri madenciliği süreci en basit şekliile dört adımdan oluşmaktadır.

1. Veri Seçmek: Mevcut olan ve eldeedilebilecek verilerin oluşturduğuveri havuzundan çalışma için kulla-nılacak verilerin seçilmesi

2. Veri İşlemek: Farklı kaynaklardanalınan verilerin birleştirilmesi, hatalıverilerin çıkarılması, vb. ile seçilmişverilerin kullanılabilir hale getirilmesi

3. Veri Eğilimlerini / DesenleriniBelirlemek: İşlenmiş verilerin verimadenciliği fonksiyonları ve algorit-maları ile değerlendirilerek veriler-den anlamlı eğilimlerin, desenlerin(pattern) çıkarılması

4. Bilgiye Ulaşmak: Verilerden çıkarı-lan anlamlı eğilimler ve desenlerinyorumlanarak bilgi elde edilmesi

Daha detaylı süreç tanımı ise veri ma-denciliğinin uluslararası düzeyde stan-dardı olarak kabul edilmiş, CRISP-DM(CRoss Industry Process for Data Mining)ile yapılmaktadır. Veri madenciliği proje-lerinin hızlı, daha verimli ve daha az ma-liyetli gerçekleştirilmesi için geliştirilmişolan bu süreç altı adımdan oluşmaktadır.

1. İşi ve İş Ortamını Anlama (Business Understanding): İlk adım veri madenciliği çalışması-nın hangi amaç için yapılacağınınnet olarak tanımlanmasıdır. Amaç;cevap aranılan sorunun üzerineodaklanmalı, net biçimde ifade edil-meli ve sonuç değerlendirme kriter-leri tanımlanmalıdır. Çalışmasonunda doğru cevaplanmış birçokyanlış soru elde edilmek istenmi-yorsa, çalışmanın cevap aranılansoru ile uyumlu olması güvence al-tına alınmalıdır.

a. İş Hedeflerini Algılamak: Çalışma-nın temel amacının belirlenmesi vebu amacın mümkün olduğuncaikincil amaçlardan ayrıştırılarak netolarak tanımlanması aşamasıdır.Çalışma sonuçlarının değerlen-dirme kriterlerinin belirlenmesi de

20

Page 22: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

bu aşamada yapılması gerekendiğer bir konudur.

b. Durumu Değerlendirmek: Veri ma-denciliğinin temel amacı verim ar-tırmaktır. Bu amaç elde edileceksonuçlar kadar sürecin kendisi içinde geçerlidir. Çalışma sonucundaelde edilecek faydayı değerlendir-mek (yanlış kararların maliyetlerive doğru kararların getirilerine iliş-kin öngörüler) önemli bir gerekli-liktir. Bu aşamada çalışma içingerekli kaynaklar, tahmini maliyet,mevcut kısıtlar, olası riskler, vb. de-ğerlendirilerek elde edilecek fay-danın boyutu ile karşılaştırılır.

2. Veriyi Anlama (Data Understanding):İkinci adım ilk verilerin toplanması,mevcut verilerin uygunluğunun de-ğerlendirilmesi, modeli oluşturmakiçin gerekli farklı veri ihtiyaçlarınıntespit edilmesi, sahip olunan kayıt sa-yısının yeterliliği gibi veri kalite veyeterliliğine yönelik düşünce süre-cinden geçilmesi aşamasıdır. Hedefçalışmada kullanılacak verilere aşi-nalık kazanmaktır. Veriyi anlamak ileişi anlamak iç içe geçmiş alt süreçler-dir. İşi anladıkça farklı verilere bakmakveya verilerin gösterdiklerini anla-mak, verilere baktıkça iş ile ilgili farklıbakış açıları kazanmak mümkündür.Bu döngü kendi içinde devam ettikçeçalışmada kullanılacak verilerin netlikkazanır.

a. Başlangıç Verilerini Toplamak: Projekaynaklarında tanımlanmış olan

başlangıç verilerinin toplanmasıaşamasıdır.

b. Veriyi Tanımlamak: Toplanan verinintanımlanması ve ihtiyaçları karşı-lama yeterliliğinin değerlendiril-mesi aşamasıdır.

c. Veriyi Keşfetmek: Başlangıç aşama-sında toplanan veriler ile başlangıçhipotezlerinin oluşturulması, limitlibir şekilde veriden çıkarımlar yapıl-ması aşamasıdır. Bu aşamada so-nuca yönelik bilgilerin eldeedilmesinden daha çok çalışmanıngerçekleştirilebilmesi için veri an-lamında eksikliklerin tespit edil-mesi amaçlanır.

d. Verinin Kalitesini Belirlemek: Veritam mı, doğru mu, hatalar içeriyormu, hatalar içeriyorsa ne tür hata-lar içeriyor, veride eksik bölümlervar mı şeklindeki sorular ile verininkalitesinin tespit edilmesi aşaması-dır.

3. Veri Hazırlama (Data Preparation):Bu aşama başlangıç verilerinin, çalış-malara temel oluşturacak final veri-lere dönüştürülmesi aşamasıdır. Buçalışmanın adımlarının belirgin bir sı-rası veya tekrar sayısı yoktur. Modelinkurulması aşamasında ortaya çıkacaksorunlar, bu aşamaya sık sık geri dö-nülmesine ve verilerin yeniden dü-zenlenmesine neden olabilmektedir.Bu aşama karar vericinin veri keşfi sü-recinin toplamı içerisindeki enerji vezamanının % 50’sinden fazlasını har-camasına neden olmaktadır.

21

3 www.crisp-dm.org

Page 23: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

a. Veri Setini Tanımlamak: Modelin ku-rulacağı, tanımlanan soru için ge-rekli olduğu düşünülen veri setinin(veriler ve bu verilerin toplanacağıveri kaynakları) belirlenmesi aşa-masıdır. Bazı durumlarda kurumiçinde büyük boyutlarda veri topla-nıyor olmasına karşın, toplanmaktaolan veriler tanımlanan soru için ye-terli olmayıp, başka veri grupların-dan eklemeler yapmak gerekebilir.Müşterilerinin yaptığı her işlemikaydeden, hesaplarının düzeyini,kredi başvuru detaylarını tamamenbilen bir bankanın veri madenciliğiçalışmaları için tüm verilere sahip ol-duğu düşünülebilir. Ancak yapılacakbir pazarlama kampanyasında müş-terilerin bireysel ilgi alanları gibidemografik göstergelere göre de-ğerlendirme yapılmak isteniyorsabu verileri bankanın veri tabanla-rındaki operasyonel verilerden sağ-lamak mümkün değildir. Çalışmalaröncesinde bu veriler doğrudanmüşteriler ile temas kurularak ya dabir veri sağlayıcısından temin edi-lerek tamamlanmalıdır.

b. Veriyi Seçmek: Yapılacak analizdekullanılacak verilerin belirlenmesiaşamasıdır. Değerlendirme sıra-sında verinin hedefler ile ilişkisine,kalitesine, teknik limitlere dikkatetmek gerekir. Verilerin değişkensayısı kadar kullanılan kayıt sayısıda önemlidir. Gereğinden az veri,çalışmayı eksik bırakabileceği gibi,gereğinden fazla veri, veri kirlili-ğine ve sürecin uzamasına nedenolabilecektir.

c. Veriyi Temizlemek: Gürültülü ve tu-tarsız verileri çıkararak verinin kali-tesini artırma aşamasıdır. Yanlışgirişden veya istisnalardan kaynak-lanan verilerin, değerlendirmedençıkarılması tercih edilir. Bazı du-rumlarda çok büyük veri tabanı ileçalışmak yerine örnekleme yapıl-ması uygun olabilir (seçilen örnek-lerin tüm popülasyonu temsildüzeyi önemlidir.) Verileri temizle-mek sadece çıkarmak gibi düşünül-memelidir, bazı durumlarda eksikverilerin tamamlamak için modelle-meler yapmak da söz konusudur.

d. Veriyi Kurmak: Verileri tanımlayanmevcut değişkenlerde modifikas-yonlar yaparak model için daha kul-lanılır değişken setleri oluşturmaaşamasıdır. Örneğin müşterilere ya-pılan satışların aylık olarak kayde-dildiği bir yapıda, müşterilerinortalama sipariş verme sıklığını ta-nımlamak, mevcut değişkenlerdenyeni bir değişken tanımlamaktır.Herhangi bir ayda alım yapmamışmüşterilerin listede yer almamasıanalizlerde yanlış sonuçlar doğura-bileceğinden alım yapmayan müş-teriler için sıfır miktarlı kayıtlareklemek yine bu aşamada sık yapı-lan uygulamalardan biridir.

e. Veri Birleştirmek: Veri madenciliğindekullanılacak verilerin farklı kaynak-lardan toplanması, doğal olarak veriuyumsuzluklarına neden olmakta-dır. Bu uyumsuzlukların başlıcalarıfarklı zamanlara ait olmaları, gün-celleme hataları, veri formatlarının

22

Page 24: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

farklı olması, kodlama farklılıkları(örneğin bir veri tabanında cinsiyetözelliğinin e/k, diğer bir veri taba-nında 0/1 olarak kodlanması), farklıölçü birimleri ve varsayım farklılıkla-rıdır. Bu adımda farklı kaynaklardantoplanan verilerin uyumsuzluklarmümkün olduğu ölçüde giderilerek,tek bir veri tabanında toplanmasıamaçlanır. Ancak burada çok dik-katli ve titiz davranmak gereklidir.Dikkatin en çok gerektiği aşamalar-dandır. Bu aşamada yapılacak birhata, ileriki aşamalarda daha büyüksorunlar yaratacaktır. Doğru sonuçalınacak veri madenciliği çalışmalarıancak doğru verilerin üzerine kuru-labileceği için, toplanan verilerin neölçüde uyumlu oldukları bu adımdaincelenerek değerlendirilmelidir.

f. Veri Formatlamak: Veri seti oluşturul-duktan sonra kullanılacak modelegöre anlam değişikliği yapmayacakformat düzenlemelerinin yapılmasıaşamasıdır.

4.Modelleme (Modeling): Benzer veri

madenciliği problemleri için birden çok

çözüm tekniği olabilmektedir. Bazı tek-

nikler verilerde spesifik ihtiyaçlar du-

yarlar. Bu nedenle veri hazırlama ve

model kurma aşamaları, en iyi olduğu

düşünülen modele varılıncaya kadar

yinelenen bir süreçtir. (Veri Madenciliği

Fonksiyonları / Algoritmaları bölü-

münde daha detaylı incelenmiştir.)

a. Model Tekniğini Seçmek: Kullanıla-cak veri madenciliği fonksiyonunve algoritmasının belirlenmesi aşa-masıdır. (Veri Madenciliği Fonksi-

yonları / Algoritmaları bölümündedaha detaylı incelenmiştir.) Genelolarak verilerin oluşturulma aşama-sından itibaren bu konuda bir öngö-rünün oluşmuş olması gerekir.

b. Model Test Tasarımı Yapmak: Modeliişletip sonuçları elde etmeye başla-madan önce, modelin kalitesini vegeçerliliğini test etmek gereklidir. Ör-neğin öngörü fonksiyonlarından sı-nıflandırma fonksiyonunda hataoranlarını kalite göstergesi olarakkullanılır. Veriler hazırlandıktansonra, ilk aşamada verinin bir kısmımodelin öğrenilmesi, diğer kısmı isemodelin geçerliliğinin test edilmesiiçin ayrılır. Modelin öğrenilmesi, öğ-renim kümesi kullanılarak gerçekleş-tirildikten sonra, test kümesi ilemodelin doğruluk derecesi belirlenir.Modelde yanlış olarak sınıflananolay sayısının, tüm olay sayısınabölünmesi ile hata oranı, doğruolarak sınıflanan olay sayısının tümolay sayısına bölünmesi ile ise doğ-ruluk oranı hesaplanır.Sınırlı miktarda veriye sahip olun-ması durumunda, kullanılabilecekbir yöntem, çapraz geçerlilik testi-dir. Bu yöntemde veri kümesi ras-gele iki eşit parçaya ayrılır. İlkaşamada bir parça üzerinde modeleğitimi ve diğer parça üzerindetest işlemi; ikinci aşamada ise ikinciparça üzerinde model öğrenimi vebirinci parça üzerinde test işlemiyapılarak elde edilen hata oranları-nın ortalaması kullanılır. Model kuruluşu çalışmalarının sonu-cuna bağlı olarak, aynı teknikle farklıparametrelerin kullanıldığı veya

23

Page 25: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

başka algoritma ve araçların denen-diği değişik modeller kurulabilir.Model kuruluş çalışmalarına başla-madan önce, hangi tekniğin enuygun olduğuna karar verebilmekgüçtür. Bu nedenle farklı modellerkurarak, doğruluk derecelerine göreen uygun modeli bulmak üzere de-nemeler yapılmasında yarar bulun-maktadır.Önemli bir diğer değerlendirme kri-teri modelin anlaşılabilirliğidir. Bazıuygulamalarda doğruluk oranların-daki küçük artışlar çok önemli olsada, bir çok kuruluş uygulamasındailgili kararın niçin verildiğinin yo-rumlanabilmesi çok daha büyükönem taşıyabilir. Kaldıraç oranı ve grafiği, bir mode-lin sağladığı faydanın değerlendi-rilmesinde kullanılan önemli biryardımcıdır. Örneğin kredi kartınımuhtemelen iade edecek müşteri-lerin belirlenmesi amacını taşıyanbir uygulamada, kullanılan mode-lin belirlediği 100 kişinin 35’i ger-çekten bir süre sonra kredi kartınıiade ediyorsa ve tesadüfi olarak se-çilen 100 müşterinin aynı zamandiliminde sadece 5’i kredi kartınıiade ediyorsa kaldıraç oranı 7 ola-rak hesaplanmaktadır.Ancak kurulan modelin doğrulukderecesi ne denli yüksek olursaolsun, gerçek dünyayı tam anlamıile modellediğini garanti edebil-mek mümkün değildir.

c. Modeli Kurmak: Model için kullanı-lacak algoritmanın/yöntemin/tek-niğin hazırlanan veri üzerindeçalıştırılması aşamasıdır. Kurulan ve

geçerliliği kabul edilen model doğ-rudan bir uygulama olabileceğigibi, bir başka uygulamanın alt par-çası olarak da kullanılabilir. Kurulanmodeller risk analizi, kredi değer-lendirme, dolandırıcılık tespiti gibiişletme uygulamalarında doğrudankullanılabileceği gibi, promosyonplanlaması simülasyonuna entegreedilebilirler.

d. Modeli Değerlendirmek: Başarı kri-terleri, daha önceki tecrübeler vetest sonuçlarına göre modelin de-ğerlendirilmesi aşamasıdır. Tümprojenin değerlendirilmesindençok modelin teknik değerlendiril-mesi amaçlanır.

5. Değerlendirme (Evaluation):Bu aşamaya gelindiğinde kurulmuşbir model vardır. Bu aşama, mode-lin nihai olarak sunulmasından öncemodeli yoğun olarak değerlendiril-mesi ve iş hedefleri ile uyumlu olupolmadığının kontrol edilmesiniamaçlar. Kapsanmamış ( açıkta kal-mış ) konu olup olmadığı değerlen-dirilmelidir.

a. Sonuçları Değerlendirmek: Ön de-ğerlendirme aşamaları modelingeçerliliği ve uygunluğu konu-sunda değerlendirme sunarken,bu aşamada modelin iş hedeflerinine ölçüde karşıladığı değerlendiri-lir. Eğer zaman ve bütçe varsa ger-çek veriler ile modelin testedilmesi tercih edilir. Modellemesırasında ortaya çıkan ancak anahedefler ile ilişkisi olmayan diğerek faydaların da bu aşamada ta-nımlanması uygun olur.

24

Page 26: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

b. Süreci Değerlendirmek: Kalite gü-vence aşamasıdır. Modelin iş he-deflerini karşılamaya yeterli olduğukararını aldıktan sonra, modelindoğru kurulup kurulmadığı, sadeceeldeki verilerden mi yararlanıldığı,gelecekte kullanılabilecek farklı ve-rilerin neler olabileceği gibi konu-larda değerlendirmeler yapılmalıdır.

c. Gelecek Adımları Planlamak: Projeningeldiği noktanın yeterli olup olma-dığı, ek çalışma gerekliliğinin değer-lendirilmesi aşamasıdır. Atılacakbaşka adımlar nelerdir, bunu ger-çekleştirebilecek bütçemiz var mı,eğer devam etmek mantıklı ise ne-reden devam etmeliyiz gibi konu-larda değerlendirmeler yapılmalıdır.

6. Yayma (Deployment): Modelin ta-mamlanmış olması projenin nihaisonucu değildir. Modelin amacı ve-riler hakkında bilinenleri artırmakdahi olsa, elde edilen veri kullanıla-cak biçimde organize edilmeli vesunulmalıdır. Genellikle gerçek ve-rilerden örneklerin sunulması şek-linde olur.

a. Yayma Planını Oluşturmak: Sonuç-ları değerlendirilerek, yayma stra-tejisinin oluşturulması aşamasıdır.

b. Takip ve Bakımı Planlamak: Zamaniçerisinde bütün sistemlerin özel-liklerinde ve dolayısıyla ürettikleriverilerde ortaya çıkan değişiklikler,kurulan modellerin sürekli olarak iz-lenmesini ve gerekiyorsa yenidendüzenlenmesini gerektirecektir.Uzun süre yanlış veri kullanarak ça-lışmanın önüne geçmek için bakımçok önemlidir.

c. Final Raporu Hazırlamak: Yapılan ça-lışmanın başkaları tarafından da tek-rarlanabilirliğini sağlamak vesonuçlarını karar vericilere aktara-bilmek üzere hazırlanan rapordur.Çalışmanın üçüncü taraflarca de-netlenebilmesini ve güvenilirliğinisağlamak açısından önem taşır.

d. Projeyi Değerlendirmek: Yapılançalışmaya dayandırılan kararlarınve sonuçların belli bir zaman son-rasında beklentilerle karşılaştırı-ması ve gerektiğine çalışmanınyenilenmesi aşamalarını içerir.

25

Page 27: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 28: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Sektörel UygulamaÖrnekleri

Page 29: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 30: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

CNN’nin yayın akışının her dakikası-nın aldığı ratingden, IMDB web sayfası-nın kaç ziyaretçi aldığına, İstanbul’a eylülaylarında düşen yağmur miktarından,Marke�e en çok satılan süt markasına,Av Köpekleri Takım Yıldızı’nın (CanesVenatici) parlaklık düzeylerindeki deği-şimden, sedan otomobil satın alanlarınyaşlarına, pandaların doğurganlık ora-nından, Everest’e tırmanan dağcı sayı-sına kadar çevremizde yaşananların çokönemli bir kısmı sürekli olarak kaydedil-mektedir.

Sayılardan oluşan tüm bu kayıtlarancak doğru şekilde bakıldığında biranlam ifade etmektedirler. Bu nedenleveri madenciliği en geniş anlamı ile ya-şadığımız ve kayde�iğimiz olaylaraanlam katmaktır.

Veri madenciliğinin uygulama alan-larını bilimsel ve iş dünyası olarak ikiyeayırmak mümkündür. Bilimsel çalışma-larda veri madenciliği kullanımının ar-dında yatan sebepler; gelişmiş veritoplama yöntemleri (otomatik istasyon-lar, uydu ve uzaktan algılama sistemleri,teleskop taramaları, gen çözümlemeleri,vb.) ile işlenmek üzere ham olarak çokbüyük boyutlarda veri toplanması, gele-

neksel tekniklerin ham verileri işlemedeyetersiz kalması ve hipotezler oluşturma,sınıflandırma, karar alma gibi bilimselçalışma adımlarında bilim insanlarınadestek olmasıdır.

İş dünyasında veri madenciliği uygu-lamalarının kullanılmasının temel ne-deni; müşteriyi tanıyarak (müşteri gibidüşünerek) müşteri memnuniyeti sağla-mak ve bu şekilde rekabet ortamındahızlı ve doğru kararları alabilmektir.

İş dünyasında her alanda veri maden-ciliği uygulamalarını kullanmak müm-kündür ancak sundukları ürün veservislerle bilgiye dayalı yönetime enfazla ihtiyaç duyan sektörler ve alanlar;Finans (Bankacılık, Sigortacılık), Teleko-münikasyon, Pazarlama ve Perakendedir.

İş dünyasında veri madenciliği çalış-malarının büyük bölümü üç temel ihti-yacı karşılamak için kullanılır. Buihtiyaçlar; “Kaynakları Daha VerimliKullanmak”, “Potansiyeli Artırmak” ve“Güvenliği Sağlamaktır”.

Riski Azaltmak (Riski Önlemek)

Ürün veya hizmet sunumu sonra-sında kayıp yaşama potansiyeli yüksekolan sektörlere özgü çalışmalardır. En

29

Page 31: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

çok bankacılık ve sigortacılık sektörlerinderiskleri değerlendirmek için kullanılır.Bankalar müşterilerine kredi verdikle-rinde bir finansal risk öngörürler, kurgu-lanan risk modelleri ile kredi alanlarınkredilerini geri ödeyememe ihtimallerinitahmin ederler. Krediye karşılık arabaveya evin ipotek edildiği durumlarda riskdaha düşük olmakla birlikte, kredi kartıbankalar açısından riski en yüksek kreditipidir.

Sahtekarlık riski de bankalar içinönemli bir konudur. Kredi kartı kaybol-duğunda bankalar kaybedilme sırasındaoluşan zararın bir kısmını üstlenmektedir-ler. Bu dönemde oluşan zararları azaltmakiçin sahtekarlığı tespit edici sistemler kur-gulanmaktadır. Müşterilerin tipik har-cama biçimlerini önceden tanımlayıp,harcama eğilimlerinde oluşan ani değişik-likleri tespit etmek ve bu doğrultudasatınalma işlemlerini onaylamayı durdur-mak kullanılan yöntemlerden biridir.

Sigorta endüstrisinde risk müşterininsigortala�ığı üründe zararın oluşması vemüşterinin zararının karşılanmasını talepetmesidir. Tüm sigortacılık ürünlerinde fi-yatlandırma için riskin doğru belirlenmesigereklidir. Fiyatlar üzerinde düzenleyicikurulların etkisi nedeniyle, fiyatlandırmakârlılık açısından çok önem taşımaktadır.

Bankacılık ve sigortacılık gibi tahsila-tını daha sonra yapmak üzere ürün vehizmet sunan bir çok sektör risk taşı-maktadır. Telekomünikasyon şirketleri,enerji şirketleri, perakendeciler, vb. ürü-nün veya hizmetin ödemesini yapmaya-cak olan müşteri riskini taşıyan benzersektörlerdir.

• Yüksek riskli müşteriler ile çalışma-mak: Firma için finansal kayıp oluştu-rabilecek müşterileri veya müşteriadaylarını belirleyerek bunlar ile çalı-şılmamasını sağlamak.

• Kredi taleplerini değerlendirmek:Mevcut müşterileri verilerindenkredi risk davranış modelleri oluştu-rarak, yeni başvurularda riskin enaza indirilmesini sağlamak.

• Kredi geri ödemelerini kontrol altında tutmak (farklı risk politika-ları oluşturmak): Kredi kartı ödeme-lerini aksatan, gecikmeli olarak yapanveya hiç yapmayanların özelliklerin-den yola çıkarak bundan sonra aynıduruma düşebilecek muhtemel kredisahiplerini saptamak. Kötü ödemeperformansı gösteren müşterilerinortak özelliklerini belirleyerek, benzerözelliklere sahip tüm müşteriler içinpolitikalar geliştirmek.

Müşteri Kaybını Azaltmak (Churn)

Müşterilerin, şirketin ürünlerini al-maktan vazgeçerek rakip şirketin ürün-lerini tercih etmeleri birçok endüstridegiderek büyüyen bir sorundur. Müşteri-lerin bir firmadan diğer firmaya geçme-sinin en önemli sebebi çoğunlukla dahaiyi bir teklif almış olmalarıdır. Örneğinbankalar düşük faiz oranları ile rakiple-rinin kredi kartı müşterilerinin kendikredi kartlarını kullanmalarını sağla-maktadırlar. Kredi kartı kullanımı yay-gınlaştıkça yeni kredi kartı müşterileripazarı oldukça küçülmüştür. Bu da kredikartı sunan bankaları yeni müşteri bula-

30

Page 32: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

bilmek için rakiplerinin müşterilerinielde etmek zorunda bırakmaktadır. Ban-kalar müşterileri çekebilmek için kısa birdönem için daha düşük kredi oranlarısunmakta, oranlar normale döndüğündemüşterilerin bankada kalacaklarını dü-şünmektedirler.

Telekomünikasyon sektöründe enönemli sorun müşteri kaybıdır. Şirketlermüşterilerinin rakiplerine geçmesini en-gellemek için çeşitli pazarlama taktikleriuygulamakta, ürünleri sürekli yeni su-nular ile çeşitlendirmektedirler.

• Mevcut müşteriyi elde tutmak:Kuruluşlar hangi müşterilerini kay-bedebileceklerini önceden belirleye-bildikleri durumda, bu müşterilerinielde tutma amaçlı stratejiler geliştire-bilirler. Kendi müşterisiyken rakibinegiden müşterilerle ilgili analizler ya-parak rakiplerini tercih eden müşte-rilerinin özelliklerini elde etmekmümkündür. Bundan yola çıkarakgelecek dönemlerde kaybetme ola-sılığı olan müşterilerin kimler olabi-leceği konusunda tahminlerdebulunarak onlara özgü ürünler veservisler geliştirebilirler. Müşteriyielde tutmak için yapılacak maliyether zaman için müşteriyi geri kazan-mak için yapılacak maliyetten düşükolacaktır.

• Kaybedilen müşterileri yenidenkazanmak: Eski müşterileri kazan-mak için kurulmuş modellerdir.Müşterilerden ömür boyu elde edi-lecek getiri belirlenerek bu müşteri-lere sunulacakların maliyeti ilekarşılaştırılır.

Doğru Kişiye Doğru Ürünü (Yaklaşımı) Sunmak

Mevcut ve potansiyel müşteriler hak-kında detaylı bilgiye sahip olmak reka-betçi kalmak için önemli bir gerekliliktir.Farklı müşteri grupları için en uygunürünleri bulmak, hangi tip müşterilerinne tür ürün aldıklarını belirlemek, müş-teri tabanını gruplara ayırmak, bu grup-ların karlılıklarını belirlemek ve bunagöre farklı seviyelerde hizmet sunmakmümkün olabilir. Ürün veya hizme�ehangi özelliklerin ne derecede müşterimemnuniyetini etkilediği, hangi özellik-lerinden dolayı müşterin bunları tercihe�iği ortaya çıkarılabilir.

Ürün veya hizmet sunumuna kiminyanıt vereceğini tahmin etmek maliyetdüşürmek açısından önemli yöntemler-den biridir. Bir ürün veya hizmet ile ilgilibir kampanya programı oluşturmak içinhedef kitlenin seçiminden başlayarakbunun hedef kitleye hangi kanallardansunulacağı kararına kadar olan süreçteveri madenciliği kullanılabilir. Aynı gru-bun geçmiş davranışlarına dayandırıla-bileceği gibi, mantıksal bir alternatifpopülasyonun davranışlarına da dayan-dırılabilir.

• Kampanya şartlarını düzenle-mek: Düzenlenecek çeşitli kampan-yalarda mevcut müşteri kitlesininseçmek ve bu müşterilerin davranışözelliklerine yönelik yaklaşımlar ge-liştirmek. Bu şekilde pazarlamaveya perakende kampanyalarınacevap alma oranını artırmak, müş-teri ilişkileri yönetimi maliyetlerininazaltmak hedeflenir.

31

Page 33: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

• Özel kampanyalar düzenlemek:Potansiyel müşteriler arasından enkarlı olabilecekleri belirleyerek on-lara özel kampanyalar uygulamak.En masraflı müşterileri daha mas-rafsız müşteriler haline dönüştür-mek. Örneğin en çok bankacılıkişlemi yapanlar ortaya çıkarılıpbunlar şube bankacılığı yerine in-ternet bankacılığına yönlendirmek.

• Müşterilere özgü satış politikaları oluşturmak: Aynı ka-rakteristikleri (gelir düzeyi, ilgi alan-ları, harcama alışkanlıkları, vb.)paylaşan “model” müşteri grupla-rını bulmak ve satınalma profille-rine göre satış şartlarını ve fiyatlarıbelirlemek.

• Yeni ürün geliştirmek: Farklı müş-teri gruplarının ihtiyaç duyduklarıözellikleri belirtip, ihtiyaç duymadık-ları özellikleri üründen çıkararak müş-terilerin beklentilerini karşılayacakşekilde farklı ürünler geliştirmek

Mevcut Müşterilere Çapraz Satış /Ek Satış (Cross-Sell / Up-Sell)

Kârlılığı artırmak için mevcut müşte-rilere satış yapmak, yeni müşterilerbulup onlara satış yapmaktan daha avan-tajlı bir yöntemdir. Bu nedenle; çaprazsatış modelleri ile müşterilerin bir şir-ke�en aldıkları ürünler dışında aynı şir-ke�en ek ürün alma ihtimallerini, ek satışile müşterilerin aynı ürünü tekrar veyadaha çok alma olasılıklarını tahmin edenmodeller oluşturulabilir.

• Çapraz satış: Kredi kartı harcama-larına göre müşteri gruplarınınbelirlenmesi, farklı finansal gös-tergeler arasında gizli korelasyon-ların bulunması, hangi müşteriprofilinin neyi, ne zaman ve nedentercih ettiğini anlayabilen model-ler ile ürün satışları arasındaki bağ-lantı ve ilişkileri bulmak ve bubağlantılara dayalı tahminler geliş-tirerek ek ürünler sunmak. Çaprazsatış ile birim müşteriye yapılansatış miktarının artırılması, karsızmüşteriler karlı hale getirilmesisağlanabilir. Perakende alanındapazar sepeti analizi ile birlikte satı-lan ürünlerin bulunması ve bunagöre stratejilerin geliştirilmesi enyaygın uygulamalardandır.

• Ek satış: En iyi müşterileri veyamüşteri gruplarını bulmak, bulu-nan bu müşteri gruplarının ihti-yaçları belirleyerek kişiselleştirilmişürün ve hizmetler geliştirmek, buşekilde müşterilerin vazgeçeme-yeceği ürün sunularını oluştur-mak. Örneğin, yeniden sigortapoliçesi talep edecek müşterile-rin tahmin edilmesi

Yeni Müşteri Kazanmak

Firmaların temel amaçlarından biri sü-rekli olarak yeni müşteriler kazanmaktır.Ancak tüm müşteriler eşit ölçüde kârlı de-ğildir. Firmalar hedef kitlelerini ilk aşa-mada gelir, yaş, vb. gibi bazı temelölçütlere göre seçerler ancak seçilen tümpotansiyeller kazanılsalar bile firmaya fay-dalı olmayabilirler. Firma ile uzun süre

32

Page 34: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

çalışmayabilir, tüm ihtiyaçlarını firma-dan almayabilir, sürekli olarak farklı tek-lifleri değerlendirerek başka firmalarageçebilir, alım sıklıkları düşük olabilirveya sadece düşük karlılığı olan ürünlerisatın alıyor olabilirler. Tüm bu sebeplerleuzun vadede müşterilerden elde edil-mek istenen sonuçlara ulaşılamayabilir.Müşterileri elde etmek için cazip tekliflersunmak yüksek müşteri edinme maliyetiyara�ığından, doğru potansiyele sahipmüşteriye odaklanmak, müşteridenömür boyu elde edilecek değeri belirle-mek önemlidir.

Doğru müşteriyi elde etmek için kri-tik yöntemlerden biri veri madenciliğidir.3. taraflardan elde edilen başlangıç veri-lerinden segmentasyon ve sınıflandırma-lar ile çeşitli müşteri segmentlerioluşturulabilir. Bu segmentlerden hangi-lerinin söz konusu ürün veya hizmeti ala-bileceği tespit edilir. Bu bilgiyi elde etmekiçin mevcut ve geçmişte alım yapmışmüşterilerin alım bilgileri ve özellikleri-nin yer aldığı bilgileri kullanılabilir. Alımyapma potansiyeli olan müşteriler belir-lendikten sonra, hangi müşterilerin karlıolabileceği belirlenmelidir. Bu aşama dageçmiş verilere gereksinim duyar. Sınıf-landırma yöntemleri ile karlı müşterilerbelirlenerek ulaşılmaya çalışılır.

• Müşterilerden ömür boyu eldeedilecek getirileri belirlemek (Lifetime Value): Müşterilerin firmaile ilişkileri boyunca yaratacaklarıkatma değerleri tahmin etmek ve bukatma değer kategorilerine göreseçim yapmak, yaklaşım biçimleri be-lirlemek.

• Kampanya şartlarını düzenlemek:Düzenlenecek çeşitli kampanyalarda

hedef müşteri kitlesinin seçmek ve

bu müşterilerin davranış özelliklerine

yönelik yaklaşımlar geliştirmek. Bu

şekilde potansiyel müşterilere yapı-

lan pazarlama veya perakende kam-

panyalarına cevap alma oranını

artırmak, yeni müşteri edinme mali-

yetlerini azaltmak hedeflenir.

Standart dışı Davranışları Belirlemek /Güvenlik(Fraud Detection)

Para ile ilişkili tüm alanlarda sahte-karlık (fraud) riski vardır. Sağlık, finanssektörü ve vergilendirme en çok sahte-karlık denemesine rastlanan alanlardır.Genellikle geçmiş verilere göre sahtekar-lık desenleri örnekleri çıkarılabilir ve buörneklere benzer davranışlar tespit edi-lerek sahtekarlık denemelerinin önünegeçilebilir. Araştırılması gereken her olaymaliyet yükü getirdiğinden veya verilenhizmeti aksa�ığından, sahtekarlık ihti-mallerini belirlerken araştırılması gere-ken olay sayısını minimumda tutmakesastır. (İstatistik uygulamalarındaki 1.tür ve 2. tür hata tipleri bu konudaönemlidir.)

Kara para aklama, kayıp ve kaçaklarıengelleme, sigorta dolandırıcılıklarınıntespiti, kredi kartı dolandırıcılıklarınıntespiti, kaçak enerji kullananların profil-lerini tespit ederek olası kaçak enerji kul-lanıcılarını tahmin etmek, telefongörüşmelerinin (aranan yer, arama sü-resi, aranan zaman, vb.) modellenmesi ve

33

Page 35: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

beklenen değerlerden sapmanın olduğukonuşmaların tespiti, sağlık sigortası uy-gulamalarında gereksiz veya birbiriyle il-gisiz sağlık testlerinin tespiti, vergi ileilgili yolsuzlukları ve izlerini belirlemek,ağ saldırının tespit edilmesi vb. şeklindefarklı konularda veri madenciliği uygu-lamaları kullanılabilir.

Diğer Konular

Yukarıda belirtilen başlıklar veri ma-denciliği çalışmalarının genel olarakçözüm üre�iği konulardır. Ancak tümsektörlerde, verinin olduğu her yerde,mutlaka bir veri madenciliği çalışması ih-tiyacı oluşabilmektedir.

• Hastanelerde hastanın hastanede

kalma süresinin azaltılması

• Hastanelerde hasta sonuçlarının

iyileştirilmesi

• Hisse senetlerinde zaman serileri

analizleri ile gelecek değerlerin be-

lirlenmesi

• Devletin kurumlara vereceği destek

programlarında verilecek desteğin

doğru miktarda ve doğru hedefleri olan

kuruluşlara verilmesinin sağlanması

• Emniyet birimlerinin hangi profil-

deki insanların ne tür suçlara eğilimi

olduklarını belirleyerek, suç engel-

leme politikalarının oluşturulması

• E-ticaret / e-devlet uygulamala-

rında web sayfa tasarımını en iyi

kullanılabilir hale getirilmesi

• Karayollarının belirli yollardaki kaza

oranlarını düşürülmesini sağlaması

• Üniversitelere eğitimi tamamlaya-

cak ve başarılı olabilecek öğrencile-

rin alınması

• Telekom şirketlerinde ağ perfor-

mansının yönetimi

• Arşivde belirli bir dokümana ben-

zer dokümanların bulunması

• …

“Arşivimde (veya internet üzerinde)bu dokümana benzer hangi dokümanlarvar?” gibi soruların yanıtlarını bulacakşekilde “Doküman Madenciliği” (TextMining) konusu da veri madenciliğininbir alt kolu olarak gelişmektedir. Bu ça-lışmalarda amaç dokümanlar arasındaayrıca elle bir ayrım gerekmeden ben-zerlik hesaplayabilmektir. Bu geneldeotomatik olarak çıkarılan anahtar söz-cüklerin tekrar sayısı ile yapılır. MetinMadenciliğinin; haber, email, yazılı dö-kümanlar, arşiv ve internet üzerinde uy-gulamaları vardır.

34

Page 36: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Veri MadenciliğininFonksiyonları

Page 37: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 38: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Tahmin / Öngörü (Supervised) Fonksiyonlar

Geçmiş verilerden yararlanarak, gele-cek ile ilgili bir sonucu tahmin etmek içinkullanılan fonksiyonlardır. Yeni bir nes-nenin niteliklerini inceleme ve bu nes-neyi önceden tanımlanmış bir sınıfaatamaktır. Modellemelerinde olası so-nucu öngörmeye yarayan faktörler vesonuç yer alır. Model kurulurken geçmişdeneyimlerde, faktörlerin aldığı değerleregöre elde edilen sonuçlar girdi olarak kul-lanılır. Beklenen sonuç; “Katılır-Katılmaz”şeklinde kategorik değer veya rakamsaldeğerdir.

Tahmin edilen sonuçların kalitesi (nekadar iyi tahmin edildiği) tahmin edilensonuç kadar önemlidir. Çoğunlukla tah-min edilen sonuç ile birlikte, bu sonucunkalitesine yönelik; güvenlik aralığı, ola-sılığı, vb. değerleri belirlenir.

Sınıflandırma (Classification)

“Genç kadınlar küçük araba satın alır, yaşlı,zengin erkekler büyük, lüks araba satın alır.”

En temel veri madenciliği fonksiyon-larından biri olarak kategorik sonuçlarıtahmin etmek için kullanılır. Modeli ku-rabilmek için, sonuçları önceden bilinendurumlar ve bu durumlarda ilgili faktör-lerin aldığı değerler gereklidir. Bu değer-ler “eğitim verisi” olarak adlandırılır.Elde edilmesi beklenen sonuç “müşteri%80 ihtimal ile bu kampanyaya olumluyanıt verecek” şeklinde belirli bir olasılıkile birlikte sunulur. Sonuçlar “HizmetiBırakır-Hizmeti Bırakmaz” şeklinde ikialternatifli olabileceği gibi “Kesin Tercih

Eder-Tercih Eder-Yanıt Vermez-TercihEtmez-Kesinlikle Tercih Etmez” şeklindeçoklu alternatifli de olabilir. Bir denemekümesi modelin doğruluğunu belirle-mek için kullanılır. Genellikle verilen verikümesi öğrenme ve deneme kümesi ola-rak ikiye ayrılır. Öğrenme kümesi modelioluşturulmasında, deneme kümesi mo-delin doğrulanmasında kullanılır. Örne-ğin bir otomobil satıcısı şirket geçmişmüşteri hareketlerinin analizi ile yukarı-daki gibi iki kural bulursa genç kadınla-rın okuduğu bir dergiye reklam verirkenküçük modelinin reklamını verir.

• Uygulama Alanları: Potansiyel müş-teriler için düzenlenen kampanyalaradönüşler, mevcut müşterilerin belirlibir hizmeti almaktan vazgeçme olası-lıkları, kredi başvurularının risk sevi-yeleri, çeşitli belirtilere göre hastalıkihtimalleri, vb.

• Örnek Model: Satışlarını artırmakiçin kampanya düzenlemek isteyenbir otomobil firması, kampanyasınakatılma ihtimali olan potansiyel alı-cıları belirlemek için daha öncedensatış yapmış olduğu müşterilerinin ve-rilerini (sonuçlarını) kullanarak, hangiözelliklere sahip adayların kampan-yaya katılabileceğini belirli bir olasılıkaralığında tahmin edebilir. Bu şekilde;ihtiyacı kadar veri satın alarak (eğeradayların verisini dışarıdan alıyorsa)ve sadece alma potansiyeli yüksekolan adaylara ulaşmaya çalışarak ta-sarruf sağlamaktadır.Aşağıdaki örnekte adayın gelir dü-zeyi, mesleği, yaşı, çocuk sayısı, kul-landığı mevcut aracın modeli, sınıfı,

37

Page 39: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

yaşı, gibi faktörler göz önüne alına-rak bir model tasarlanmıştır.

• Yöntemler / Algoritmalar: YapaySinir Ağları (Neural Networks), BayesSınıflandırması (Bayesian Classifica-tion), En Yakın Komşu (Nearest Ne-ighbour), Karar Destek Makineleri(Support Vector Machines), ZamanSerisi Analizi (Time Series Analysis),Karar Ağaçları (Decision Trees), Lojis-tik Regresyon (Logistic Regression)

Regresyon / Eğri Uydurma (Regression)

“Ev sahibi olan, evli, aynı iş yerinde beşyıldan fazladır çalışan, geçmiş kredilerindegeç ödemesi bir ayı geçmemiş bir erkeğinkredi skoru 825’dir.”

Süreklilik gösteren değerleri tahminetmek için kullanılan fonksiyonlardır. Reg-resyon ile amaç girdiler ile çıktıyı ilişkilen-direcek modeli oluşturup, en iyi tahmineulaşmaktır. Sonuç “bağımlı değişken”, gir-diler “bağımsız değişken” olarak adlandı-rılır. Sonucun alacağı değer genellikle birgüvenlik aralığı içinde belirtilir. Girdiler,

çözülecek probleme göre bir veya birdenfazla olabilir. Örneğin; bir inşaat firmasıkonut satışlarının, faaliyet gösterdiği böl-gede elde edilen toplam gelir ile ilişkili ol-duğunu düşünüyorsa, sadece bölgeselgelire dayalı bir model oluşturarak, bölge-sel gelirdeki değişime göre satacağı ev sa-yısını tahmin etme yoluna gidebilir. Ancakgerçek haya�a çözülecek problemlerinhemen hepsinde doğru tahmine ulaşmakiçin birden fazla girdiden faydalanmak ge-reklidir. Bu noktada önemli olan konu gir-dilerin sonucun doğru tahmin edilmesineyaptıkları katkıdır. Bazı durumlarda so-nuca katkısı limitli olan girdileri modeldençıkarmak, daha etkin bir model oluştur-mak için önemli bir gerekliliktir.

• Uygulama Alanları: Finansal tah-minler, zaman serisi tahminleri, bio-medikal ve ilaç reaksiyonları, konutfiyatı değerlendirmeleri, müşterininyaşam çevrimi boyunca yarattığıdeğer, atmosferdeki CO2 oranı, vb.

• Örnek Model: Bir dergiye ilk kezreklam vermeye başlayacak olan birşirket daha önce reklam vermiş ol-duğu dergilerin sayfa maliyetlerini

38

Page 40: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

kullanarak, çalışılmaya başlanılacakolan derginin vermiş olduğu fiyatınuygunluk seviyesini belirli bir güvenaralığı içinde değerlendirebilir. Yadadaha sonra yapacağı kampanyalardaçalışmakta olduğu dergilerin vere-cekleri fiyatların ne kadar makul ol-duğunu önceden öngörebilir. Aşağıdaki örnekte derginin oku-yucu sayısı, bayan okuyucularınpayı, okuyucuların ortalama yıllıkkazancı, gibi faktörler göz önünealınarak bir model tasarlanmıştır.

• Yöntemler / Algoritmalar: YapaySinir Ağları (Neural Networks), KararDestek Makineleri (Support VectorMachines), Karar Ağaçları (DecisionTrees), Lineer Regresyon (LinearRegression)

Tanımlama (Unsupervised)Fonksiyonlar

Fonksiyonların amacı belirli bir hedefitahmin etmek değildir. Amaç veri setindeyer alan veriler arasındaki ilişkileri, bağ-lantıları ve davranışları bulmaktır. Var olanverileri yorumlayarak davranış biçimleri

ile ilgili tespitler yapmayı ve bu davranışbiçimini gösteren alt veri setlerinin özel-liklerini tanımlamayı hedefler. Tanımı bil-mek; tekrarlanan bir faaliye�e veya tanımıbilinen yeni bir verinin yapıya katılma-sında ne şekilde hareket edileceği konu-sunda karar almaya destek olur.

Kümeleme/Gruplama/Demetleme/ Öbekleme (Clustering)

Müşterilerin büyük bir kısmı düzenliolarak pazartesi akşamları kredi kartıylaalışveriş yaparlar.

Veriyi birbirlerine benzeyen elemanlar-dan oluşan sınıflara (kümelere) ayırarak,heterojen bir veri grubundan, homojen altveri grupları elde edilmesi işlemidir.

Kümeleme fonksiyonu genellikle bö-lümleme sorunlarını çözmekte kullanılır.Kümelemenin temel hedefleri arasında;geniş veri yığınları için tanımlayıcı verilerbelirleyerek, işlenecek veri hacmini da-raltmak, veri yığınlarındaki doğal küme-leri ortaya çıkarak aynı kümede olmasıgereken verileri belirlemek, belirlenmişkümelerin dışında kalan istisna durumları

39

Page 41: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

tanımlamak sayılabilir. Başlangıç aşama-sında verilerin hangi kümelere ayrılacağıveya kümelemenin hangi değişken özel-liklerine göre yapılacağı bilinmemekte,konunun uzmanı olan bir kişi tarafındankümelerin neler olacağı tahmin edilmektedir.

Kümeleme algoritmaları; kümeiçinde benzerliğin maksimize (küme içiuzaklıkların minimize edilmesi) edil-mesi, kümeler arası benzerliğin mini-mize (kümeler arası uzaklıklarınmaksimize edilmesi) edilmesi kavra-mına dayanır. Sonuçta elde edilen farklıkümelere ait elemanlar arasında benzer-lik azdır.

Kümeleme fonksiyonu ile sınıflan-dırma fonksiyonu arasındaki en önemlifark, kümelemenin önceden tanımlan-mış girdilere dayanmıyor olmasıdır. Sı-nıflandırma fonksiyonunda tanımlıgirdiler ve bunların geçmişte aldıklarıdeğerler temel modeli oluştururken, kü-meleme fonksiyonunda önceden tanım-lanmış girdiler ve örnekler yoktur.Veriler kendi içlerindeki benzerlikleregöre gruplanırlar. Benzerliği tanımlaya-cak boyutlar ve özellikler modeli kurantarafından öngörülür.

Kümeleme fonksiyonu bazı durumlarbaşka bir veri madenciliği fonksiyonunöncesinde kullanılabilir. Hangi promos-yon kampanyasına müşteriler en iyi tep-kiyi verirler diye değerlendirmek yerineöncelikli olarak müşterilerin belirli kü-melere yarılması bunun ardından herküme için en iyi promosyon kampanya-sının ne olacağı belirlenebilir.

Müşterileri kümelemek için genelliklekarlılık ve pazar potansiyeli boyutları

kullanılır. Perakende sektöründe müşte-rilerin; söz konusu firmadaki alım alış-kanlıkları ve tüm mağazalardaki alımalışkanlıklarına göre kümelenmeleri veen yüksek potansiyelli kümeye odakla-nılması sıkça rastlanan bir uygulamadır.

• Uygulama Alanları: Benzer hücreleri

tanımlamak, benzer davranışlar göste-

ren perakende müşterilerini tanımla-

mak, gen ve protein analizleri, ürün

gruplaması, hastalık belirtileri, metin

madenciliği

• Örnek Model: İki boyutlu bir örnekte

kümeleme fonksiyonunu algılamak

oldukça kolaydır. Yaş ve gelir düzey-

leri belirtilmiş 40 kişiden oluşan bir

grubu, grafik yardımı ile kümelerine

ayırmak mümkündür. Yaş ve gelir dü-

zeyi değerlerinin histograma yerleşti-

rilmesi ve en yoğun durumların

merkez olarak belirlenmesi en basit

anlamda bir kümeleme işlemidir. Bu

örnekte veri madenciliği yöntemleri

kullanılmadan kümeler oluşturul-

muştur. Ancak onlarca değişken ol-

duğunda verileri kolayca kümelemek

mümkün değildir, bu aşamada kü-

meleme fonksiyonuna özgü algorit-

maları kullanmak gereklidir.

• Yöntemler / Algoritmalar: Bölme

yöntemleri (Partitioning methods), Hi-

yerarşik yöntemler (Hierarchical met-

hods), Yoğunluk tabanlı yöntemler

(Density-based methods), Grid tabanlı

yöntemler (Grid-based methods),

Model tabanlı yöntemler (Model-

based methods)

40

Page 42: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Birliktelik Analizi / Bağıntı / Eşleme / İlişki Kuralları (Association Rules)

“Çocuk bezi alan müşterilerin 30%’u sütde alır.”

Büyük veri kümeleri içinde farklı ve-riler arasındaki birliktelik ilişkilerinibulma işlemidir. Birliktelik analizi, belirlibir veri kümesinde yüksek sıklıkta bir-likte görülen özellik değerlerine ait ilişki-sel kuralların keşfidir. Sonuçta elde edilenbirliktelik kuralları (A � B) şeklinde su-nulur. şirketlerin karar alma işlemlerinidaha verimli hale getirmektedir.

En klasik örneği sepet analizidir.(basket analysis) Bu analizde müşterile-rin beraber satın aldığı ürünlerin analiziyapılır. Amaç ürünler arasındaki pozitifveya negatif korelasyonları bularakmüşterilerin satınalma alışkanlıklarınıortaya çıkarmaktır. Çocuk bezi alanmüşterilerin mama da satın alacağınıveya deterjan satın alanların yumuşatıcıda alacağını tahmin edebiliriz ancakmanuel olmayan bir analiz bütün olası-lıkları göz önüne alır ve kolay düşünü-lemeyecek, “mama” ve “yumuşatıcı”gibi bağıntıları da bulur. Bu verileresahip olan marketler, birlikte satılanürünleri yakın raflara koyarak, kata-logda birlikte satılan ürünlerin birliktegörülmesini sağlayarak veya müşterileriçin cazip ürün paketleri oluşturarak sa-tışları artırabilirler.

• Uygulama Alanları: Birlikte hareket

eden verilerin bulunması ile verimlik

sağlanacak her alanda kullanılabilir.

Süpermarkette birlikte satılan ürün-

ler, otomobilde sunulacak ekstra

özellikler, depolarda birbirine yakın

konumlandırılması gereken ürünler,

alışveriş merkezinde olması gereken

mağazalar, vb.

• Örnek Model: Bir A ürününü satınalan müşteriler aynı zamanda B ürü-nünü da satın alıyorlarsa, bu durumA � B [destek = %2, güven = %60]şeklinde ifade edilir. Buradaki destekve güven değerleri, birliktelik kuralı-nın ilginçlik ölçüleridir. “Destek” ta-nımlanan kuralın sıklığını ve “güven”tanımlanan kuralın kabul edilebilir-liğini gösterir. %2 oranındaki bir des-tek değeri, analiz edilen tümalışverişlerden %2'sinde A ile Bürünlerinin birlikte satıldığını belir-tir. %60 oranındaki güven değeri iseA ürününü satın alan müşterilerinin%60'ının aynı alışverişte B ürününüde satın aldığını ortaya koyar . Kulla-nıcı tarafından minimum destek eşikdeğeri ve minimum güven değeribelirlenir ve bu değerleri aşan birlik-telik kuralları dikkate alınır.Büyük veri tabanlarında birliktelikkuralları bulunurken, iki aşamalı birsüreç işletilir. İlk aşamada sık tek-rarlanan öğeler bulunur: Bu öğele-rin her biri en az, öncedenbelirlenen minimum destek sayısıkadar sık tekrarlanırlar. İkinci aşa-mada sık tekrarlanan öğeler arasın-dan güçlü birliktelik kurallarıoluşturulur:

• Yöntemler / Algoritmalar: Apriori

41

Page 43: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Sıralı Dizi Analizi (SequenceAnalysis / Sequential Pa�erns):

“X şirketinin hisse fiyatları ile Y şirketi-nin hisse fiyatları benzer hareket ediyor.”

Gözlem sonuçlarının zaman ve mekanözelliklerine göre sıralanmış olarak gös-teren sayı dizileridir. Sayısal sıralı veri-lerdeki trendleri ve döngüleri anlamakiçin kullanılır. Bu fonksiyonda ilişkili ka-yıtlar incelenir ve zaman içinde sıkça rast-lanan trendler ve benzer trendlerbulunur. Bu trendler daha sonra veri için-deki ilişkileri tanımlamak için kullanılır.Bir beyaz eşya perakendecisinin veritaba-nından buzdolabı alımını takip edenbeyaz eşya alımının bulaşık makinesi ol-duğunun belirlenmesi, doğal afetler veri-tabanından 6 büyüklüğünde bir depremolduktan 3 gün sonra Klimanjaro dağınınpüskürmesi, banka veritabanından ilk üçtaksitinden iki veya daha fazlasını geçödemiş olan müşterilerin %60 olasılıklakanuni takibe gidiyor olduklarının belir-lenmesi gibi örnekleri vardır. Kredi kartıörneğinde belirlenen davranış skoru (be-havioral score), başvuru skorundan farklıolarak kredi almış ve taksitleri ödeyen birkişinin sonraki taksitlerini ödeme/gecik-tirme davranışını notlamayı amaçlar. Se-riler özelliklerine göre “zaman serileri”,“mekan serileri”, “bölünme serileri” ve“bileşik seriler” olmak üzere dört başlıkaltında incelenebilirler.

• Zaman Serisi Analizi / BenzerZaman Sıraları/ Zaman İçinde Sı-ralı Örüntüler (Similar Time Se-quences / Time Series): Gözlemsonuçlarının zamana göre sıralan-mış şeklidir. Borsada yer alan hisse-lerin davranışları sık rastlanan birörneğidir. Günlere göre hisse de-ğeri, yıllara göre faiz oranları, aylaragöre üretim fire oranı, vb. gibi ör-nekleri vardır. Tek bir seri dışında,birden fazla hareket serisi arasındada bağıntı kurmak mümkündür.Bunlar örneğin iki malın zamaniçindeki satış miktarları olabilir. Ör-neğin dondurma satışları ile kolasatışları arasında pozitif, dondurmasatışları ile salep satışları arasındanegatif bir bağıntı beklenebilir.

Zaman serisinde yer alan verilerin

davranışları trend ve döngüler

(cycle) ile tanımlanır. “Trend” seri-

deki verilerin ortalama değerinde

yaşanan değişimi tanımlamak için

kullanılır. “Döngü” veride tekrar eden

herhangi bir davranışı tanımlamak

için kullanılır. Sezonsal veya dönem-

sel olabilir. Sezonsal olanlar tahmin

edilebilir zamanlarda gerçekleşir,

(her pazartesi, her yılbaşı, vb.) dö-

nemsel olanlar “n” zaman aralıkları

ile kendini tekrarlar.

Zaman serisi analizlerinde veri seri-

sindeki davranışları belirlemek kadar

gelecek değerleri tahmin etme çalış-

maları da gerçekleştirilir. Hisse değer-

lerini, ekonomik değerleri, ürün

talebini hava durumunu tahmin

etmek, vb.)

42

Page 44: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

• Mekan Serisi: Gözlem sonuçlarının

mekana göre sıralanmış şeklidir. Böl-

gelere göre satış rakamları, ülkelere

göre yaşam süresi, vb.

• Bölünme Serisi (Frekans): Gözlem

sonuçlarının belirlenen kriterlere göre

sıralanmış şeklidir.

• Bileşik Seri: Gözlem sonuçlarının iki

ya da daha fazla özelliğe göre bir

arada gösterilmiş şeklidir.

43

Page 45: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 46: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Veri MadenciliğininAlgoritmaları

(Metotları/Teknikleri)

Page 47: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 48: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Veri madenciliği, sahip olunan veri-lerden yola çıkarak daha önce keşfedil-memiş bilgileri ortaya çıkarma vebunları karar alma sürecinde kullanmayöntemidir. Veri madenciliği, verileriniçerisindeki desenlerin, ilişkilerin, deği-şimlerin, düzensizliklerin, kuralların veistatistiksel olarak önemli olan yapılarınanaliz ve yazılım tekniklerinin kullanı-larak ortaya çıkarılmasıdır. Bu açıdanbakıldığında veri madenciliği istatistik-sel bir yöntemler serisi olarak görülebi-lir. Benzer şekilde veri madenciliğiyleilgili yazılım ürünleri ve uygulamalarabakıldığında da veri madenciliğinin esa-sen istatistiğin kullanıldığı bir teknik ol-duğu görülmektedir.

Ancak önemli olan kolaylıkla man-tıksal kurallara ya da görsel sunumlaraçevrilebilecek nitel modellerin çıkarıl-masıdır. Bu bağlamda, veri madenciliğisadece istatistik değildir, insan merkezlibir uygulamadır.

Veri madenciliği literatürü incelen-diğinde istatistik ve algoritmalar ağır-lıklı sayısız makale ve kitabın olduğugörülmektedir. Bu çalışmada bu yön-temlere alternatif sunmak, yeni yöntem-ler geliştirmek veya anlatılan konularıtekrarlamak gibi bir hedef ile yola çık-madık. Asıl olarak ortaya koymak iste-diğimiz kritik konunun teknikleri endetayına kadar bilmekten çok hangi so-ruların hangi yaklaşımlar ile çözülebile-ceği konusunda fikir vermek ve yönetimkalitesinin artırılması için veri kullanı-mını teşvik etmektir.

Bununla birlikte veri madenciliği fonk-siyonlarının kullandığı bazı kritik teknik-ler ve tanımlamaları şu şekildedir;

• Karar Ağaçları• Regresyon• Lojistik Regresyon• Bayes• Apriori• Kümeleme Teknikleri• Yapay Sinir Ağları

Karar Ağaçları (Decision Trees)

Karar ağaçları, kurgulanmasının, yo-rumlanmasının ve veri tabanları ile en-tegrasyonun kolaylığı nedeniyle enyaygın kullanılan öngörü yöntemlerin-den / sınıflandırma tekniklerinden biri-dir. Güvenilirliklerinin iyi olması da birbaşka tercih edilme nedenidir. Kararağaçlarının hedefi bağımlı değişkendekifarklılıkları maksimize edecek şekildeveriyi sıralı bir biçimde parçalarına(farklı gruplara) ayırmaktır. Sınıflan-dırma ağacı olarak da adlandırılabilir.

İstatistiksel yöntemlerde veya yapaysinir ağlarında veriden bir fonksiyon öğ-renildikten sonra bu fonksiyonun insan-lar tarafından anlaşılabilecek bir kuralolarak yorumlanması zordur. Kararağaçları ise ağaç oluşturulduktan sonra,kökten yaprağa doğru inilerek kurallaryazılabilir. Bu kurallar uygulama konu-sunda uzman bir karar vericiye gösteri-lerek sonucun anlamlı olup olmadığıdenetlenebilir. Sonradan başka bir teknikkullanılacak bile olsa karar ağacı ile öncebir kısa çalışma yapmak, önemli değiş-kenler ve yaklaşık kurallar konusundakarar vericiye bilgi verir.

47

Page 49: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Yapısı ve Kuruluşu

Karar ağacı, adında belirtildiği şe-kilde ağaç görünümünde bir tekniktir.Karar düğümleri, dallar ve yapraklar-dan oluşur.

• Karar düğümü: Veriye uygulanacaktest tanımlanır. Her düğüm bir özel-likteki testi gösterir. Test sonucundaağacın dalları oluşur. Dalları oluştu-rurken veri kaybı yaşanmaması içinverilerin tümünü kapsayacak sayıdafarklı dal oluşturulmalıdır.

• Dal: testin sonucunu gösterir. Eldeedilen her dal ile tanımlanacak sını-fın belirlenmesi amaçlanır. Ancakdalın sonucunda sınıflandırma ta-mamlanamıyorsa tekrar bir karardüğümü oluşur. Karar düğümündenelde edilen dalların sonucunda sı-nıflandırmanın tamamlanıp tamam-lanmadığı tekrar kontrol edilerekdevam edilir.

• Yaprak: Dalın sonucunda bir sınıf-landırma elde edilebiliyorsa yaprakelde edilmiş olur. Yaprak, verilerikullanarak elde edilmek istenen sı-nıflandırmanın sınıflarından birinitanımlar.

Başlangıçta bütün öğrenme örneklerikök düğümdedir, örnekler seçilmiş özel-liklere tekrarlamalı olarak göre bölün-dükten sonra ağacı temizlemek için (Treepruning) gürültü ve istisna kararları içe-ren dallar belirlenir ve kaldırılır. Kararağacı tekniğini kullanarak verinin sınıf-lanması üç aşamadan oluşur.

• Öğrenme: Önceden sonuçları bili-nen verilerden (eğitim verisi) modeloluşturulur.

• Sınıflama: Yeni bir veri seti (test ve-risi) modele uygulanır, bu şekildekarar ağacının doğruluğu belirlenir.Test verisine uygulanan bir modelindoğruluğu, yaptığı doğru sınıflama-nın test verisindeki tüm sınıflara ora-nıdır. Her test örneğinde bilinensınıf, model tarafından tahmin edi-len sınıf ile karsılaştırılır.

• Uygulama: Eğer doğruluk kabuledilebilir oranda ise, karar ağacıyeni verilerin sınıflanması amacıylakullanılır.

Uygulama Alanları

Risk grupları kategorileri oluştur-mak, gelecekte olabilecek olaylar içintahmin kuralları oluşturmak, kategorile-rin birleştirilmesi, yeni bilinmeyen birörneğin sınıflandırılması gibi durum-larda karar ağaçları kullanılır. Örneğinkredi sınıfını tahmin edecek bir modeliçin aşağıdaki şekilde bir sınıflandırmakuralı oluşturulabilir:

EĞER “yaş” = "41...50" VE “gelir” = yüksek BU DU-RUMDA “kredi durumu” = mükemmel.

48

Dü üm

Dü üm

Dü üm

Dal

Dal

Dal

Dal

Yaprak

Yaprak

Page 50: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Bu kural gereğince yaşı "41...50" kate-gorisinde olan (yaşı 41 ile 50 arasındaolan) ve gelir düzeyi yüksek bir kişininkredi durumunun mükemmel olduğugörülür. Oluşturulan bu modelin doğru-luğu, bir test verisi aracılığı ile onaylan-dıktan sonra model, sınıfı belli olmayanyeni bir veriye uygulanabilir ve sınıflamakuralı gereği yeni verinin sınıfı "mükem-mel" olarak belirlenebilir.

“Yanıt verme” veya “teklifi kabuletme” gibi beklenen davranış biçimlerinigösterecek sınıfları tanımlamak için (pa-zarın hareket biçimini anlamak için)uygun ve basit bir yöntemdir. Regres-yona göre avantajı lineer olmayan ilişki-leri de ortaya çıkarabilmesidir. Bu çalışmaile elde edilen veriler daha farklı model-lerde de kullanılabilir. Yandaki örnekteen üst düğümün tüm kampanyanın genel

sonucunu gösterdiği bir kredi kartı kam-panyası kurgulanmıştır. Kredi kartı sa-tışı için 200.000 kişiye ulaşılmıştır. Sonuçolarak %4,6’sı olan 9.200 kişiden geridönüş alınmıştır. İlk aşamada cinsiyetegöre bir ayrım yapılmıştır. Buradan er-keklerin daha yüksek geri dönüş yaptık-ları görülmüştür. Eğer model buaşamada tamamlansaydı erkekler dahaiyi bir hedef kitledir sonucu elde edile-cekti ancak cinsiyet ayrımı çok geniş birayrım olduğundan her cinsiyet grubu-nun içindeki alt grupları da bulunmuş-tur. İkinci aşamada iki grup kendiiçlerinde farklı şekillerde alt gruplara ay-rılmışlardır. Erkekler için gelir düzeyi,bayanlar için yaş ikinci seviyedeki ayrımolarak düşünülmüş ve sonuç olarak enyüksek yanıt verme ihtimali olan hedefkitleler belirlenmiştir. Bundan sonra ya-pılacak bir kredi kartı kampanyasında101.000 YTL ve üzerinde geliri olanerkek ve 31-40 yaşları arasındaki bayan-lara ulaşılması durumunda daha az ma-liyet ile daha yüksek oranlarda geridönüşün elde edildiği bir kampanya ger-çekleştirilmiş olacaktır.

Regresyon Analizi (Regression Analysis)

Bir ya da daha çok değişkenin başkadeğişkenler cinsinden tahmin edilmesinisağlayacak ilişkiler bulmak ve bunlarıtanımlamaktır. Regresyon analizinin te-melinde gözlenen bir olayın değerlendi-rilirken, hangi olaylardan etkilendiğinibelirlemek yatmaktadır. Bu olaylar birveya birden çok olacağı gibi etki düzey-leri farklı seviyelerde de olabilir.

49

200.000

Dönü : % 4,6

Erkek: 86.700

Dönü : % 5,8

Bayan: 113.300

Dönü : % 3,68

Gelir: 101+ K YTL

34.680

Dönü : % 6,63

Gelir: 61-100 K YTL

30.345

Dönü : % 3,95

Gelir: 30-60 K YTL

21.675

Dönü : % 7,05

Ya : 20-30

45.320

Dönü : % 2,65

Ya : 31-40

16.995

Dönü : % 11,77

Ya : 41-50

22.660

Dönü : % 1,32

Ya : 51+

28.325

Dönü : % 2,37

Page 51: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Yapısı ve Kuruluşu

Regresyonda, verilerin matematikselgösterimle, bir fonksiyon olarak tanım-lanması gerekmektedir. Regresyon ana-lizi yapılırken kurulan matematikselmodelde yer alan değişkenler bir bağımlıdeğişken ve bir veya birden çok bağımsızdeğişkenden oluşmaktadır. Değişkenlersayılabilir veya ölçülebilir niteliktedir.Örneğin bir hissenin fiyatını ile ona do-laylı veya direkt etkili olan faiz oranları,enflasyon, vb. gibi bir veya birden çok de-ğişken ile ilişkilendirmek mümkündür.Sadece faiz oranlarının etkisi ile ilgileni-yorsak, tek değişkenli bir matematikselmodel, faiz oranları ile birlikte enflasyonoranı ile de ilgileniyorsak, iki değişkenlibir matematiksel model kurulmalıdır.Tek değişkenli modeller basit doğrusalregresyon (doğrusal ilişkiyi temsil edenbir doğrunun denklemi formüle edilir),birden fazla bağımsız değişkenli model-ler çoklu regresyon modeli konusunuoluşturmaktadır.

• Tek Değişkenli Regresyon - Li-neer Regresyon: Basit lineer reg-resyon iki sürekli değişken (tahminedilmeye çalışılan bağımlı değişkenve bağımsız değişken) arasındakiilişkiyi tanımlamayı amaçlayan birtekniktir. Teknik verileri kullanarakbir doğru denklemi oluşturmayıhedefler. Bu doğru oluşturulurkentüm veri noktalarından tahmin edi-len eğriye olan uzaklığın karelerininminimize edilmesi ile doğrununoptimize edilmesi sağlanır. Doğruelde edildikten sonra iki değişkenarasındaki ilişkinin gücü R-kare

(R-Square) değeri ile tanımlanır. R-kare verinin değişiminin ne ölçüdeoluşturulan model (çizilen doğru)ile açıklanabildiğini gösterir.

• Tek Değişkenli Regresyon - LineerOlmayan Regresyon: Bazı durum-larda bağımlı ve bağımsız değişkenlerarasındaki ilişki doğrusal olmayabilir.Bu gibi durumlarda daha iyi bir uyumiçin bağımsız değişkeni modifiyeetmek gerekebilir.

• Çoklu Regresyon: Pazarlama, riskyönetimi, müşteri ilişkileri yönetimikonularında model oluşturulurkenbirden fazla değişkenin bağımlı de-ğişken üzerinde etki ediyor olmasıçok doğal ve genellikle rastlanan birdurumdur. Bazı durumlarda değiş-kenler yüzler ile ifade edilecek sevi-yelere çıkabilir.

Uygulama Alanları

İki değişken arasındaki ilişkiyi bulmak,ilişki varsa bu ilişkinin gücünü belirlemek,değişkenler arasındaki ilişkinin türünü be-lirlemek, ileriye dönük değerleri tahminetmek gibi konularda kullanılır. Regres-yon analizi, araştırma, matematik, finans,ekonomi, tıp gibi bilim alanlarında yoğunolarak kullanılmaktadır. “Ev sahibi olan,evli, aynı iş yerinde beş yıldan fazladır ça-lışan, geçmiş kredilerinde geç ödemesi birayı geçmemiş bir erkeğin kredi skoru825’dir.” sonucu bir regresyon ilişkisidir.

Aşağıdaki örneklerde reklam harcama-ları ile satış rakamları arasındaki ilişkilerfarklı regresyon yöntemlerine göre belir-lenmiş ve R-kare değerleri bulunmuştur. (y:satış değeri, x:reklam değeri, z: enflasyon)

50

Page 52: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

İlk örnekte satış değerlerindeki deği-şimi reklam harcamaları cinsinden ta-nımlamak için tek değişkenli lineerregresyon uygulanmıştır. R-karenin al-dığı 0,7 değeri, çizilen doğrunun verileriyüksek bir düzeyde açıkladığını göster-mektedir.

İkinci örnekte satış değerlerindeki de-ğişimi reklam harcamaları cinsinden ta-nımlamak için tek değişkenli lineerolmayan regresyon uygulanmıştır.

Üçüncü örnekte bir bağımsız değişkendaha değerlendirmeye katılmıştır ve satış-lar iki boyutlu olarak tanımlanmıştır.

51

De eri

120 1.500

160 1.750

200 2.970

210 1.680

225 3.500

230 2.000

290 4.530

315 2.940

375 3.620

390 4.400

440 3.850

475 4.470

490 5.490

550 4.400

De eri

100 1.800

140 2.670

150 3.510

170 1.680

185 4.400

200 3.000

240 3.530

260 5.140

280 3.720

350 5.200

380 3.840

395 4.470

465 4.590

490 5.400

De eri

120 3,4% 1.500

160 3,3% 1.755

205 3,6% 2.970

210 3,5% 1.680

225 3,4% 3.500

230 3,3% 2.000

290 3,2% 4.530

315 3,3% 2.940

375 3,3% 3.620

390 3,4% 4.400

440 3,2% 3.840

475 3,1% 4.470

490 3,2% 5.490

550 3,2% 4.400

y = 7,7912x + 876,66R2 = 0,6995

0

1.000

2.000

3.000

4.000

5.000

6.000

0 100 200 300 400 500 600

y = 146,16x0,5813

R2 = 0,589

0

1.000

2.000

3.000

4.000

5.000

6.000

0 100 200 300 400 500 600

y = 415,6 + 7,9x + 12781zR2 = 0,70

Page 53: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Lojistik Regresyon (Logistic Regression)

Lojistik regresyon lineer regresyonaçok benzer olmakla birlikte, lojistik reg-resyonda bağımlı değişkenin kesikli veyakategorik olması (sürekli olmaması) enönemli farklılıktır. Bu fark özellikle birteklife yanıt veya bir seçim yapmak gibikesikli aksiyonları belirlemeye yönelik sı-nıflandırma modellerinde önem kazan-maktadır. (Sınıflandırma analizlerindedoğrusal regresyonun kullanılması müm-kün olmamaktadır.) Lojistik regresyon,çok değişkenli normal dağılım varsayı-mına ihtiyaç göstermediğinden bu tür uy-gulamalarda avantaj sağlamaktadır.

Lojistik regresyon ile bağımsız değiş-kenleri kullanarak ikili çıktısı olan ba-ğımlı değişkenin istenilen durumunungerçekleşme olasılığını hesaplanır. Reg-resyon yapabilmek için bağımlı değişkensürekli değere dönüştürülür. Bu değerbeklenen olayın olma olasılığıdır.

İşlem şu şekilde yapılır. Her gelir de-ğeri için gelire göre verilen yanıtların or-talamalarından bir olasılık hesaplanır. (p:eldeki verilere göre her gelir düzeyindeteklifin kabul edilme sıklığı), daha sonraher gelir düzeyinde teklifin kabul edilmeolasılığı hesaplanır. (p/(1-p) ile). Son aşa-mada olasılıkların logaritmik değerlerilog(p/(1–p)) ile hesaplanır.

Yandaki grafikte gelir ile müşterilereyapılan bir teklife verilen cevaplar ara-sındaki ilişki kurulmuştur. Yüksek gelirsahiplerinin olumlu yanıt verme ihtimal-lerinin yüksek olduğu net olarak görül-mektedir. Yanıt alma denklemi aşağıdakişekilde oluşmuştur.

Log (p/(1-p)) = 4,9 + 0,0911 x Gelir

Bayes

İstatistiksel bir sınıflandırıcıdır. El-deki verilerin belirlenmiş olan sınıflaraait olma olasılıklarını öngörür. İstatistik-teki Bayes teoremine dayanır. Bu teorem;belirsizlik taşıyan herhangi bir durumunmodelinin oluşturularak, bu durumla il-gili evrensel doğrular ve gerçekçi göz-lemler doğrultusunda belli sonuçlar eldeedilmesine olanak sağlar. Belirsizlik taşı-yan durumlarda karar verme konusundaçok kullanışlıdır. En önemli zafiyeti de-ğişkenler arası ilişkinin modellenmiyorolması ve değişkenlerin birbirinden ta-mamen bağımsız olduğu varsayımıdır.

Yapısı ve Kuruluşu

Bayes yöntemi koşullu olasılık du-rumları ile ilgilidir. Her hangi bir koşulluolasılık durumu P(X=x | Y=y) = R şek-linde tanımlanır. Bu ifade; “Eğer Y = ydoğru ise, X = x olma olasılığı R’dir” an-lamına gelmektedir. X ve Y ‘nin alabile-ceği değerlerin her kombinasyonu içinkoşullu olasılıkları belirleyen tabloya ko-şullu olasılık dağılımı adı verilir veP(X|Y) ile ifade edilir.

Bayes Kuralı şu şekilde tanımlanır.

P(XIY) = P(YIX) x P(X) / P(Y)

52

Page 54: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Bu ifade; Y’nin gerçekleşmesi halindeX’in gerçekleşme ihtimalinin ne oldu-ğunu belirtmektedir. Bu değeri bulabil-mek için “X’in gerçekleştiği durumlardaY’nin gerçekleşme ihtimali” ile X’in ger-çekleşme ihtimalini çarpmak ve bunuY’nin gerçekleşme ihtimaline bölmek ge-reklidir.

Örneğin; bir cep telefonu operatörümüşterileri arasında yaptığı araştırma ilecep telefonu kullanımı arka arkaya 3 aysürekli düşüş gösteren müşterilerinin%20’sinin ha�ını kapatarak başka opera-töre geçtiğini tespit etmiştir. Ayrıca araş-tırmalardan her 100 müşterinin 6’sının(çeşitli nedenlerle) ha�ını kapa�ığı ve her100 müşterinin 14’inde arka arkaya 3 aysürekli düşüş yaşandığı tespit edilmiştir.

Bu bilgiler doğrultusunda ha�ını ka-patan bir müşterinin, kullanımında son 3ayda sürekli azalma olan bir müşteriolma ihtimali nedir?

P(Düşüş I Kapatmış) = P(Kapatmış I Düşüş) x P(Düşüş) / P(Kapatmış)

P(Düşüş I Kapatmış) = (0,2 x 0,14) / 0,06 = % 47

Bu değer ha�ını kapatan müşterilerinyaklaşık yarısının kullanımında son 3ayda sürekli azalış olan müşterilerdengeldiğini göstermektedir. Bu oldukçayüksek bir orandır. Şirket bu müşterile-rin kimler olduğunu kullanım trendle-rinden önceden tahmin edebilmektedir.Eğer bu tür müşteriler yeni alternatiflersunularak ayrılmaktan vazgeçirebilir-lerse, toplam kaybedilen müşterinin ya-rısı elde tutulacaktır.

Örneğin; üç farklı kurye şirketininfaaliyet gösterdiği bir şehirde, gece yaşa-nan bir trafik kazasının tek görgü tanığı

mavi bir kurye aracının kazayı gerçek-leştirdiğini söylemektedir.

Şehirde faaliyet gösteren üç kurye şir-ketinin kırmızı, mavi ve sarı olmak üzerefarklı renklerde araçları vardır. Kazanınolduğu gece Kırmızı kuryenin 7, mavikuryenin 4 ve sarı kuryenin 9 aracı hiz-met vermektedir. Gece karanlığındarengi doğru olarak görme olasılığı%70’dir. Bu durumda görgü tanığının ifa-desi ne ölçüde doğrudur.

Burada belirlenmek istenen P(Mavi Iİddia-Mavi), yani iddianın mavi olduğudurumda aracın gerçekten mavi olmasıihtimalidir.

P(Mavi I İddia-Mavi) = P(İddia-Mavi I Mavi) xP(Mavi) / P(İddia-Mavi)

P(İddia-Mavi I Mavi): Görgü tanığınınaraç mavi ise iddiasının mavi olmasıolasılığı %70’dir. Bu olasılık doğrugörme olasılığıdır.

P(Mavi): Gece toplam çalışan araç sa-yısına göre aracın mavi olma ihti-mali 4/20 = %20’dir.

P(İddia-Mavi): Görgü tanığının maviiddiasında bulunması iki şekildeolur. Gerçekten mavidir ve doğrugörmüştür = 0,2 x 0,7 = 0,14, Mavideğildir ve yanlış görmüştür = 0,8 x0,3 = 0,24, ikisinin toplamındaP(İddia-Mavi) = 0,24+0,14 = 0,38olur.

P(Mavi I İddia-Mavi) = 0,7 x 0,2 / 0,38 = %37’dir.

Aracın mavi olma ihtimali %37’dir. Budeğerlendirmeye göre görgü tanığınınifadesine rağmen kazayı diğer iki şirket-ten birinin yapmış olması ihtimali dahayüksektir.

53

Page 55: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Uygulama Alanları

Belirsiz durumlarda tahmin yapmak,sınıflandırma yapmak için kullanılır.

Aşağıda ABD’de 2008’in ilk üç ayındavizyona giren filmlerin bazı özelliklerive sonuçta elde edilen hasılatları özet-lenmiştir.

60 milyon USD üzerinde hasılat yapı-

lan filmlerin başarılı olarak kabul edildiğivarsayılırsa, yukarıdaki tablodaki veri-lerden yola çıkarak yeni vizyona girecekKüçük bir şirket tarafından yapılan,drama tarzında, erkek starı olan ancakkadın starı olmayan, 20-30 mio bütçeli, birfilmin hasılatının 60 mio USD’yi aşma ih-timali var mıdır?

54

� � �� ���� �� �� ����� ��� ��� ����� ���� ��� ���

� ������ ��������� ���� � !�"����

#�"��� ��� ����� � $���%

&�"������'� ���

' � (�)�)�*� +*�,���� �� �)-� �� ��� ��� -�.)���� /� ��/0 1�� ����� ��� ��� -�.)!���"* ��*� 2 �00� �*� ��"��� ���� ����� ��� ��� !���% �� 0� 30� 1��,�� �� �� ����� ��� ��� ���* +����% -�. 2� 2�/ + �(�� �� �� �� ����� ��� ��� �� 4�5�� �� 2�2 �/ $������ ����� ��� ��� -�. ���� �� //

3 �� +����% �� 6 #� $���� ��� ���&�������������

�� /�

�� �*� !,���7�"� +*���" �� �� � -� �� ��� ��� ���% 3� /��� ������ &��� #�"��� ��� ��� +� ��5�� 0� /��� -�� 8� 9� #�"��� ��� ��� ����� ���� /� /��' :��* #����;#� �% +%��� $� �� ��� ��� &�"� / ���0 !��, <, �� �*� !������ $���� ��� ��� 6 �,��� �� �2�� +*�� �� �� ��8� ��� $���� ��� ��� 9�� ���� +*�� �� /� �/�� &=!= � ��(� ��� $���� ��� ��� � "� '� �0�/ !7���% �� $� �� ��� ��� $����7���� �� �'�2 4��5� #�"��� ��� ��� �������� �� 0'

�3 �� "��� :���> 4��"��1����

����� ��� ��� <�(���� �� 0�

�� �*��� �� �� � �� $���� ��� ��� 9*�� ��� �� 0��� #��� �*� !,����� ����� ��� ��� ��7 4���"% '� '2�� ������� $���� ��� ��� ������ ��� � '� ���' �*� ����� :���� �� � -� �� ��� ��� ���"� 0� 0��0 -���� !��% ����� ��� ��� +�5�(���� �� '2�� !���?&�� ����� ��� ��� $��� +�= �� '0�� $� ���� %> #�%5� $���� ��� ��� <�(���� �� '��/ �*� @%� ����� ��� ��� �������� �� '��2 6� #���� +� ����� ��� ��� � "� �� �/�3 �*� 6�*�� �� �% 9�� $���� ��� ��� ��+ '� �/'� <���"��5 � #�"��� ��� ��� +�*� ; &��� '� �3'� #� #��% ����� ��� ��� ��� +��% �� ��

'� �*� &������ �*� $�8� $��%�*��

�� �)-� �� ��� ��� ���)��� �� �'

'' �� �� 4�7� ����� ��� ��� &����A� �� ��'0 &�� �,� ����� ��� ��� !��� �� ��� �� ��

���� ��� �� ���

�������� ������ ����� �����

Page 56: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Öğrenilmek istenen durum X= (Drama– Küçük Yapımcı – Erkek Star – 20-30 mioUSD bütçe) şeklinde ifade edilebilir.

• P(60+ I X) = P(X I 60+) x P (60+) /P(X) ile

• P(60- I X) = P(X I 60-) x P (60-) /P(X) karşılaştırılacağından ikidenklemde de yer alan P(X) de-ğerleri kaldırılabilir.

Soru P(X I 60+) x P (60+) ile P(X I 60-) x P (60-) de-ğerlerinin karşılaştırılması şekline getirilir.

P(X I 60+) x P (60+) = P(Drama I 60+) x P(Küçük Şir-

ket I 60+) x P(Erkek Star Var I 60+) x P(Kadın Star YokI 60+) x P(Bütçe 20-40 I 60+) x P (60+)

P(X I 60+) x P (60+) = 3/15 x 6/15 x 5/15 x 12/15 x4/15 x 15/34 = 0,003

P(X I 60-) x P (60-) = P(Drama I 60-) x P(Küçük Şirket I60-) x P(Erkek Star Var I 60-) x P(Kadın Star Yok I 60-) xP(Bütçe 20-40 I 60-) x P (60-)

P(X I 60-) x P (60-) = 5/19 x 14/19 x 6/19 x 17/19 x15/19 x 19/34 = 0,024

Değerlendirme sonucunda söz ko-nusu filmin 60 mio USD üzerinde hasılatyapamayacağı görülmektedir.

55

Bu hesaplama için öncelikle olasılık değerleri belirlenmelidir. P(60+) = 15/34 P(60-) = 19/34’dür.Diğer detaylı olasılıklar aşağıdaki tabloda hesaplanmıştır.

4 Warner Bros, Walt Disney Pictures, Fox 2000, Fox Searchlight, 20th Century Fox,, Paramount Vantage, Colum-bia, Dreamworks, Lionsgate, Universal yapımcı şirketleri büyük şirket, diğerleri küçük şirket kabul edilmiştir.

Page 57: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Apriori Algoritması

Sık tekrarlanan öğeleri bulmak içinkullanılan en temel yöntemdir.

Yapısı ve Kuruluşu

Apriori algoritmasında sık geçen öğekümelerini bulmak için birçok kez veri-tabanını taramak gerekir. İlk taramadabir elemanlı minimum destek eşik değe-rini sağlayan sık geçen veriler bulunur.İzleyen taramalarda bir önceki taramadabulunan sık geçen veriler aday veriler adıverilen yeni potansiyel sık geçen verileriüretmek için kullanılır. Aday verilerindestek değerleri tarama sırasında hesap-lanır ve aday kümelerinden minimumdestek eşik değerin sağlayan veriler o ge-çişte üretilen sık geçen veriler olur. Sıkgeçen veriler bir sonraki geçiş için adayveriler olurlar. Bu süreç yeni bir sık geçenveri bulunmayana kadar devam eder.

Uygulama Alanları

Geleneksel kullanım alanı marketlerdeürünler arası ilişkileri tanımlamaktır. Ben-zer şekilde hızlı tüketim mamulleri üreticisifirmalarda depo sistemlerinin optimizas-yonunda da kullanılabilir. Genel olarak bir-likte sevk edilen ürünlerin yakın raflarayerleştirilmesi depo içindeki hareketi ve ta-şıma miktarını azaltıcı sonuçlar sağlaya-caktır. Yöntem restoranlarda servis hızınınartırılması için de çözümler sağlayabilir.Müşterilerin sipariş etme ihtimali olanürünleri önceden tahmin ederek hazırla-mak veya ilişkili ürünlerden mönüler oluş-turmak gibi çözümler üretilebilir.

Aşağıdaki tabloda 15 alışveriş fişindenoluşan küçük bir market veri tabanı ta-nımlanmıştır. Buradaki alımlardan yolaçıkarak hangi ürünlerin birlikte alındık-ları belirlenecektir.

56

Page 58: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

İlk aşamada her ürünün kaç kez alın-dığının belirlenmelidir. Destek değeriolarak da adlandırılan bu değerler kü-mesi C1, minimum alışveriş destek sayı-sının 2 olduğu varsayımı doğrultusundatek başlarına sık tekrarlanan ürünler L1kümesinde görülmektedir. C1 kümesin-deki tüm ürünlerin destek sayısı, mini-mum destek eşik değeri olan 2'den fazlaolduğu için C1 tüm ürünler sık tekrarla-nan ürün olarak değerlendirilir ve L1 kü-mesine aktarılır.

Sonraki aşamada hangi ürünlerin ikiliolarak sık tekrarlandığını belirlemek içinL1 kümesindeki ürünlerin ikili kombinas-yonları bulunarak C2 kümesi oluşturulur.C2 kümesindeki ürünlerden minimumdestek eşik değerini asan ürünler L2 kü-mesine aktarılır.

Hangi ürünlerin üçlü olarak sık tek-rarlandığını belirlemek için L2 kümesin-deki ürünlerin üçlü kombinasyonlarıbulunarak C3 kümesi oluşturulur. C3 =MEP – MES – MED – MPS – MPD – MSD– EPS – EPD – ESD – PSD olması beklenirancak Apriori algoritmasına göre, sıktekrarlanan öğelerin alt kümeleri de sıktekrarlanan öğe olması gerekmektedir.Bu nedenle Et-Sabun ikilisi sık tekrarla-nan olmadığından bu alt kümeye sahipMES – EPS – ESD elenmiş olur. Geriyekalanların destek değerleri belirlenir.

Hangi ürünlerin dörtlü olarak sık tek-rarlandığını belirlemek için L3 kümesin-deki ürünlerin dörtlü tek kombinasyonuolan M-E-P-D incelenir. Ancak bu küme-nin destek değeri sık tekrarlanan limiti-nin altında olduğundan Apriori yöntemitüm sık tekrarlanan öğeleri bularak ta-mamlanmış olur.

Sık tekrarlanan öğeler bulduktansonra, veritabanından birliktelik kural-ları çıkartılır.

57

Page 59: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Minimum güven eşiği değerinin %60olarak belirlendiği bir durumda; 1., 2,, 7.ve 8. kurallar eşik değerini aştıkları içindikkate alınırlar.

Kümeleme Yöntemleri

Bölünmeli yöntemler: Veriyi bölerek,her grubu belirlenmiş bir kritere göre de-ğerlendirir. En yaygın olarak kullanılaniki algoritma vardır.

• K-ortalaması (K-means): Başlangıçolarak verinin kaç kümeye ayrılaca-ğını belirlemek gereklidir. Küme sayısı“k” değeri olarak adlandırılır. k-meansalgoritmasının 4 aşaması vardır:

o Veri kümesinin rastsal olarak k alt-kümeye ayrılması (her küme biraltküme),

o Her kümenin ortalaması olan mer-kez noktanın (kümedeki nesnelerinniteliklerinin ortalaması) hesaplan-ması

o Nesnelerin küme merkezine olanuzaklıklarının değerlendirilmesi vedahil olduğu kümenin merkezin-den başka bir küme merkezinedaha yakın olan nesnelerin yakınoldukları kümeye dahil edilmesi

o Yeni nesnelerle artan veya dışarıyanesne vererek azalan kümelerinortalaması olan merkez noktalarıyeniden hesaplanır ve nesnelerinkümelenmesinde değişiklik olma-yana kadar aynı şekilde devamedilir.

58

Page 60: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

K-means yöntemi kurgulaması kolayve karmaşıklığı az olan bir tekniktir. Ancakzayıf olduğu bazı önemli noktalar vardır.Sonuçları ilk başta merkez noktaların seçi-mine bağımlıdır. Merkez noktaların seçi-mine göre farklı sonuçlar ortaya çıkabilir.Bununla birlikte veri grupları farklı bo-yutlarda ise, veri gruplarının şekli küreseldeğilse ve veri içinde ortalamayı önemliölçüde etkileyecek büyük bileşenler varsaçok iyi sonuçlar alınamayabilir.

Uygulama

Bir şirke�e yapılan performans değer-lendirmesi uygulamasında çalışanlarınyetkinlikleri ve iş hedeflerini gerçekleş-tirme düzeyleri değerlendirilmiştir. İnsanKaynakları bölümü çalışanların perfor-mans değerlendirme sonuçları doğrultu-sunda gelişim ve ödüllendirme paketlerioluşturmaktadır. Bu paketler hangi farklıgruplar için oluşturulmalıdır sorusununyanıtı aranmaktadır.

Üç farklı grup olacağı öngörülmüş vebaşlangıç olarak yanda görülen gruplamayapılmıştır. Bu gruplamaya göre kümele-rin merkezleri belirlenecektir.

Sadece tek bir çalışanın değerleri kendikümesi dışında başka bir kümeye yakın-dır. Bu çalışanın da uygun kümeye yer-leştirilmesi sonucunda üç grup vemerkezleri şu şekilde oluşmuştur.

59

Page 61: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

• K-medoids: K-means yönteminde;

sadece kümenin ortalamasının ta-

nımlanabildiği durumlarda kulla-

nılma ve değeri çok büyük bir

nesnenin kümede olması duru-

munda (kümenin ortalaması ve

merkez noktası büyük ölçüde deği-

şebileceğinden) kümenin hassasiye-

tinin bozulabilmesi gibi iki önemli

zafiyet vardır. Bu sorunu gidermek

için kümedeki nesnelerin ortalama-

sını almak yerine, kümede ortaya en

yakın noktada konumlanmış olan

nesne (medoid) kullanılabilmekte ve

bu işlem k-medoids yöntemi ile ta-

nımlanmaktadır. k-medoids yön-

temi şu aşamalardan oluşur;

o Veri kümesi merkezi bir medoid

olan k adet kümeye ayrılır.

o Veri kümesindeki nesneler, kendi-

lerine en yakın olan medoide göre

k adet kümeye yerleşirler.

o Bu bölünmelerin ardından küme-

nin ortasına en yakın olan nesneyi

bulmak için medoid, medoid ol-

mayan her nesne ile yer değiştirir.

Bu işlem en verimli medoid bulu-

nana kadar devam eder.

Hiyerarşik yöntemler: Veri kümele-rini önceden belirlenmiş bir kritere göre,kümeler ağacı seklinde gruplara ayırmaesasına dayanır . Hiyerarşik kümelemeyöntemleri, hiyerarşik ayrışmanın yö-nüne göre ikiye ayrılır.

• Agglomerative (HAC / AGNES (AGlo-merative NESting),) hiyerarşik kü-melemede, hiyerarşik ayrışmaaşağıdan yukarıya doğru olur .İlkolarak her nesne kendi kümesinioluşturur ve ardından bu atomik kü-melerin içinde aralarında en azuzaklık olanlar birleşerek, tüm nes-neler bir kümede toplanıncaya dekdaha büyük kümeler oluştururlar.

• Divise (DIANA (Dlvise ANAlysis) hi-yerarşik kümelemede, hiyerarşik ay-rışma yukarıdan aşağıya doğru olur.İlk olarak tüm nesneler bir kümede-dir ve her nesne tek başına bir kümeoluşturana dek, kümeler daha küçükparçalara bölünürler.

Uygulama

19 çalışanın yukarıdaki örnektekibiçimde iki boyu�a değerlendirildiği birperformans çalışması gerçekleştirilmiştir.Bu çalışma sonuçları aşağıdan yukarıyahiyerarşik yöntemle gruplandırılmakistenmektedir.

60

Page 62: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Sonuca grafiksel olarak bakıldığınfarklı seviyelerde elde edilen kümeleraşağıdaki gibidir.

Bu çalışma sırasında yapılan iteras-yonlarda kümelerin merkez noktaların-dan hareket edilmiştir. Bu nedenle bazıdurumlarda kümeler arası mesafe bir ön-ceki iterasyondan daha kısa olmuştur.

İterasyonlar gereksinime göre dörtfarklı şekilde yapılabilir.

• Kümelerin minimum noktaları-nın bağlanması

• Kümelerin maksimum noktaları-nın bağlanması

• Kümelerin elemanlarının orta-lama değerlerinin bağlanması

• Kümelerin merkez noktalarınınbağlanması

61

Çalışanlar aralarındaki minimum uzaklıklara göre aşağıdaki tabloda belirtilen adımlar ile grup-lanabilirler.

Page 63: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Yukarıdaki grafikle elde edilen sonuç-lar dendrogram şekli ile de ifade edilebilir.

Yoğunluk tabanlı yöntemler: Nesnele-rin yoğunluğuna göre kümeleri oluşturur.Kümelerin içinde yer alan ortalamalarıbozan çok büyük veya çok küçük değer-lerden etkilenmeyen yöntemlerdir. Küme-leme iterasyonun sona ermesi öncedenbelirlenmiş bir yoğunluk parametresi ileolur. En bilinen yöntemleri; Dbscan ve Op-tics yöntemleridir.

• Dbscan: Bu yöntemde iki kriter ta-

nımlanır ve bunun doğrultusunda kü-

meleme işlemi yapılır. Birinci kriter etki

yarıçapı, ikinci kriter minimum eleman

sayısıdır. Amaç minimum eleman sa-

yısına ulaşmak ve bunu minimum etki

yarıçapı ile gerçekleştirmektir. Etki yarı

çapı iterasyonlar ile artırılarak mini-

mum eleman sayısını kapsayıncaya

kadar devam edilir. Minimum eleman

sayısına ulaşıldığında nokta kümenin

çekirdeği olur ve bu işleme diğer nok-

talar ile devam edilir.

Model tabanlı yöntemler: Her kümeyioluşturan verilerin bir matematiksel mo-dele uyduğu varsayılır.

Yapay Sinir Ağları (Artificial Neural Networks)

İnsan beyninin işleme mantığını temelalarak, nöronların matematiksel olarakmodellenmesidir. Bu yöntem, kurulan mo-deli kontrol etmekte ve öğrenme faaliyetiile modeli geliştirmektedir. Süreç davranışbiçimlerini anlamak ve hatayı en aza in-dirmek üzerine kuruludur. Bilgiyi almakve daha sonra her uygulamadan bir ders

çıkarmak gibi düşünülebilir. İstatistikselyöntemler gibi veri hakkında parametrikbir model öngörmez.

Doğru sınıflandırma sağlayan, doğrusonuçlar veren bir yöntem olmakla birlikteen önemli zafiyetleri öğrenme süresininuzun olması ve çıkan sonucun ifade edil-mesinin / tanımlanmasının güç olmasıdır.

Yapısı ve Kuruluşu

Yapı nöronlar arasındaki bağlantılarve bağlantıların ağırlıkları (öğrenme me-kanizması ile geliştirilen) üzerine kurulur.Modelin karmaşıklığı bu bağlantı yapı-sına bağlıdır. Nöronların bir araya geldiğialanlara katman denir. (Giriş katmanı,çıkış katmanı ve bu iki katman arasındayer alan gizli katman). Model kurulduk-tan sonra eğitim verileri sürekli olarakmodele girilir ve elde edilen sonuçlar ger-çek sonuçlar ile karşılaştırılarak modeldeiyileştirmeler (ağırlıklarda değişiklikler)yapılır. Minimum kabul edilebilir hata se-viyesine ulaşıldığında model tamamlan-mış olur.

Uygulama Alanları

Yapay sinir ağları; halka arzlar, hissesenedi piyasaları tahmini, kredi değerlen-dirmesi, belirtilere göre hastalık tahmini,vb. alanlarında kullanılmaktadır.

62

Page 64: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Örneğin dört girdiden oluşan bir sis-temde, aşağıdaki tablodan görülmektedirki, en az 3 girdinin 1 olması halinde çıktı1 olmaktadır.

Çıktının fonksiyonu şu şekilde tanım-lanabilir.

Çıktı = 1 eğer (0,3xG1 + 0,3xG2 + 0,3xG3 + 0,3xG4– 0,8) > 0

Çıktı = 0 eğer (0,3xG1 + 0,3xG2 + 0,3xG3 + 0,3xG4– 0,8) < 0

Yukarıdaki örnekte sınırlı sayıda veriolduğundan tüm veriler gözle hesaplana-cak kadar basit ağırlık değerleri kullanıla-rak doğru biçimde sınıflandırılmıştır. Çoksayıda veriden olan sistemlerde Verilerintümünü doğru sınıflandırmak için “ağır-lıkları belirleme işlemi” (eğitme işlemi) şuadımlar ile gerçekleştirilir.

• Başlangıç ağırlık değerleri vermek, • Bu başlangıç değerlerine göre tüm

verilerin sonucuna bakmak, • Oluşan hayatı belirlemek• Hataların karelerini minimum ede-

cek şekilde ağırlıkları değiştirmek.

63

Page 65: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 66: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Sonuç

Page 67: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 68: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

SONUÇ

Veri Madenciliği istatistik biliminin teknolojiyle bütünleşmesi sonucu oluşmuş

bir yöntemler serisidir. Bilgi teknolojilerinin gelişmesi ve konu ile ilgili yeni prog-

ramların üretilmesi çalışmaları kolaylaştırmaktadır. Ancak veri madenciliği sa-

dece program kullanmak değildir.

Veri madenciliği için iş deneyimine, sorunları tanımlama becerisine ve temel

istatistik bilgisine ihtiyaç vardır. Veri madenciliği veriden bilgi üreterek ortalama

kararlar yerine veriye dayalı özgün kararlar verilmesini destekleyen, satışları, kâr-

lılığı, yenilikçiliği ve kaynak kullanımında etkinliği artıran önemli bir yönetim ara-

cıdır. Veriye dayalı kararların kalitesi ve güvenilirliği artar; bu veriye dayalı

kararlarla çalışan kurumların kaynak kullanım etkinliği ve değer yaratma potan-

siyeli de gelişir.

Teoride, teori ile pratik arasında fark yoktur ama pratikte vardır. - Jan L. A. vande Snepscheut

67

Page 69: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 70: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Okuma Önerileri

Page 71: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın
Page 72: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Akyouş Selim, Veri Madenciliği Yöntemlerine Genel Bakış(Sunum)

Alpaydın Ethem, Zeki Veri Madenciliği (Sunum)

Argüden, R. Yılmaz (1982). Management of Large Data Sets:A Case Study with California Oil Wells. The RAND Corpora-tion, P-6802

Argüden, R. Yılmaz (1988). Principles for Dealing with LargePrograms and Large Data Files in Policy Studies. The RANDCorporation, P-7409

Ayres, Ian, (2008). Super Crunchers, Bantam Books

Bishop, C., (1996). Neural Networks for Pattern Recognition,Oxford Univ Press

Berry Michael J., Linoff, Gordon S., (2000). Mastering datamining. New York: Wiley

Berry Michael J., Linoff, Gordon S., (2004). Data Mining Tech-niques For Marketing Sales And Customer Support, NewYork: Wiley

Bilgin, Turgay T., Maltepe Üniversitesi Bilgisayar Mühendis-liği (BIL 416) (Ders Notları)

Crisp-DM 1.0 (2000), SPSS

Edelstein, H., A. (1999). Introduction to data mining andknowledge discovery (3rd ed). Potomac, MD: Two CrowsCorp

Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthuru-samy, R. (1996). Advances in knowledge discovery & datamining. Cambridge, MA: MIT Pres

Han Jiawei, Kamber Micheline (2006), Data Mining Conceptsand Techniques, Morgan Kaufmann

Hastie, T., Tibshirani, R., & Friedman, J. H. (2001). The ele-ments of statistical learning : Data mining, inference, andprediction. New York: Springer.

Mitchell, T. (1997). Machine Learning, McGraw-Hill

Horning Mark F., Marcade Erik, Venkayala Sunil (2007). JavaData Mining: Strategy, Standard and Practice, Morgan Ka-ufmann

Levitt, Steven D., Dubner, Stephen J., (2005) Freakonomics,Harper Collins

Linoff, Gordon S., Survival Data Mining (Sunum)

Olson David L., Delen Dursun (2008). Advanced Data MiningTechniques, Springer

Pregibon, D. (1997). Data Mining: Statistical Computing andGraphics 7-8.

Relles, Dan (1986). Allocating Research Resources: TheRoleof a Data Management Core Unit. The RAND Corporation, N-2383-NICHD

Rencher, A.C., (1995). Methods of Multivariate Analysis,Wiley

Rud, Olivia Par, (2001). Data Mining Cookbook - ModelingData for Marketing, Risk, and Customer Relationship Mana-gement, New York: Wiley

Thearling_K._An_Introduction_to_Data_Mining (Sunum)

Toros Hüseyin, Veri Madenciliğine Giriş (Sunum)

Van Tessel, Dennie (1978). Programming Style, Design, Effi-ciency, Debugging, and Testing. Prentice-Hall, Inc., Engle-wood Cliffs

Widner G., Fürnkranz J., Clustering (Sunum)

Weiss, S. M., & Indurkhya, N. (1997). Predictive data mining:A practical guide. New York: Morgan-Kaufman

Westphal, C., Blaxton, T. (1998). Data mining solutions. NewYork: Wiley.

Witten, I. H., & Frank, E. (2000). Data mining. New York:Morgan-Kaufmann

Ye, Nong (2003) Handbook of Data Mining, Lawrence Erl-baum Associates Publishers

71

Page 73: Veri Madenciliği - ARGE Danışmanlık / ARGE Consulting · Veri Madenciliği AR GE, ... Kümeleme Yöntemleri ... Analizi mânalı hale getirecek 9. bilgi eksikliklerini tamamlamanın

Okuma Önerileri –Teknik

Chakrabarti, Soumen (2003). Mining The Web - DiscoveringKnowledge From Hypertext Data, Morgan Kaufmann

Pal, Nikhil R., Jain Lakhmi (2004). Advanced Techniques inKnowledge Discovery and Data Mining, Springer

Hand, David, Mannila, Heikki and Smyth, Padhraic (2001).Principles of Data Mining, MIT Pres

Chen, Hsinchun, Fuller, Sherrilynne S ., Friedman, Carol,Hersh, William (2005). Medical Informatics: Knowledge Ma-nagement and Data Mining in Biomedicine, Springer

Witten, Ian H., Frank Eibe, (2005). Data Mining: PracticalMachine Leraning Tools and Techniques, Elsevier

Wang, John (2006). Encyclopedia of Data Warehousing andMining, Idea Group

Sumathi, S., Sivanandam, S. (2006). Introduction to DataMining and its Applications, Springer

Felici, Giovanni, Vercellis, Carlo (2008). Mathematical Met-hods for Knowledge Discovery and Data Mining, Informa-tion Science

Evangelos, Triantaphyllou, Giovanni, Felici (2006). Data Mi-ning and Knowledge Discovery Approaches Based on RuleInduction Techniques (Massive Computing), Springer

Larose, D.T., (2007). Data Mining Methods and Models, Wiley

Cook, Diane J., Holder, Lawrence B., (2007). Mining raphData, Wiley

72