VERİ MADENCİLİĞİ UYGULAMALARI

 


Veri madenciliğinin hayatımıza girdiği günden bugüne içinde veri olan birçok alanda veri madenciliği kullanılmıştır. Elektronik ticaret, tıp, müşteri ilişkileri yönetimi, pazarlama, metin analizi, webden anlam çıkarma vs. hemen her konuda veri madenciliğinden faydalanılmıştır. Bu yazıda veri madenciliği kullanan örnek uygulamalardan bazıları yer almaktadır.

1.1.         MÜŞTERİ İLİŞKİLERİ YÖNETİMİ

Müşteri ilişkileri yönetimi rekabetçi baskının her geçen gün daha çok arttığı günümüzde işletmelerin imdadına yetişen bir uygulamadır. Müşteri kazanma, kazanılan müşteriyi elde tutma, müşteri sadakati artırma gibi problemler müşteri ilişkileri yönetiminin çalışma alanları arasında yer alır. Müşteriyi kazanmak için de onun devamlılığını sağlayabilmek için de şart olan şey müşterinin anlaşılmasıdır. Dolayısıyla müşteri ilişkileri yönetimi müşterinin demografik verilerinden alışveriş bilgilerine kadar onunla ilgili verileri toplama ve bu verilerin analizi üzerine kuruludur.

Müşteri verilerinden yola çıkarak müşterinin anlaşılması veri madenciliği teknikleriyle yerine getirilebilecek bir çalışmadır. Müşteri verilerinden elde edilecek örüntüler yardımıyla müşterinin nelerden hoşlandığı ve ne tür ihtiyaçları olduğu gözlenebilecektir. Ayrıca müşterilerin daha önce yapmış olduğu alışveriş bilgilerine dayalı olarak onlara yeni ürün ve hizmet önerileri getirmek mümkün olabilecektir.

1.2.         PAZAR SEPETİ ANALİZİ

Pazar sepeti analizi perakendecilik sektöründe etkili şekilde kullanılan bir yöntemdir. Yöntem, müşteriler tarafından satın alınan ürün grupları arasındaki ilişkilere dayalı olarak onların satın alma davranışlarını analiz eder. Pazar sepeti analizi ilk olarak bir sepette yer alan ürünlerin birlikteliği yardımıyla ürünler arasında ilişki kurma üzerine yapılan analiz daha sonra çok farklı alanlarda kendine kullanım imkânı bulmuştur. Her ne kadar ilk etapta market alışverişleri için düşünülmüş olsa bile şu an en iyi uygulaması Amazon firması tarafından kitap satışlarında kullanılmaktadır. Amazon tarafından iyi bir örneği sunulan ve sonraları birçok başka uygulamaya örneklik eden analizin temelinde yapılan iş ve işlem kaynaklı örüntülerin elde edilmesi ve o örüntülere dayalı olarak önerilerin getirilmesi şeklinde yürütülmektedir. Hatta şu anda önemli bir araştırma ve uygulama alanı olarak ön plana çıkan öneri sistemleri (recommender systems) aslında doğrudan Pazar sepeti analizi ile ilgilidir. Öneri sistemleri veya diğer adıyla tavsiye sistemleri ilgi ve beklentilerimizi karşılayacak ürün veya hizmetlerin bize sunulmasını ifade eder. Öneri sistemleri, içinde bulunduğumuz topluluğun dinamiklerinin bizim gelişimimize katkı sunduğu bir modeldir aynı zamanda. Bizimle benzer özelliklere sahip kişilerin ilgisini çeken şeyler doğal olarak bizim de ilgimizi çekebilecek şeylerdir.

Pazar sepeti analizinin geri planında adına bağlantı analizi dediğimiz teknik yer almaktadır. Sadece kitap satışları ve öneri sistemlerinde değil ağ analizlerinde ve diğer birçok uygulamada ön plana çıkmıştır. Diğer veri madenciliği uygulamalarında olduğu gibi veriye temele alan ve ticari çıktıları olan bir tekniktir. Ticari çıktı için en temel örnek Pazar sepeti analizi yardımıyla raf tasarımlarının yapılması bulunmaktadır. Analiz çıktıları sonrası yapılan raf dizilimlerinin karlılığı artırdığı gözlenmiştir.

1.3.         PAZAR BÖLÜMLEMESİ

Veri madenciliği ile finans sektörünün kesiştiği uygulamalardan birisi de Pazar bölümlemesidir (market segmentation). Pazar bölümlemesi hedefli reklamcılık (targeted marketing) ile ilişkili bir uygulamadır. Hedefli reklamcılığın amacı doğru kişilere doğru pazarlama stratejisinin uygulanmasıdır. Hedefsiz reklamcılık “herkese her şeyin reklamı” şeklinde özetlenebilecek kör bir yöntemi ifade ederken hedefli reklamcılık “geri dönüş yapabileceklere reklam yapılması” şeklinde isabetli bir yöntemi ifade etmektedir. İşte bu isabet için de en önemli konu müşterilerin ekonomik durumlarına göre kümelere ayrılmasıdır.

Reklamı yapılacak ürün neyle ilgili ise onunla ilişkili özellikler ortaya çıkarılır ve özelliği gösterenler farklı seğmenlere bölünür. Örneğin toplumun bir kesiminin iş veya ailevi durumlarından dolayı araç sahibi olmaya ihtiyacı vardır. Bununla birlikte herkes kendi ekonomik durumu ve ihtiyacına göre araç tercihinde bulunacaktır. Kimisi pahalı ve spor araba tercih ederken kimisi hafif ve ucuz modeller tercih edecektir hatta kimisi de koleksiyoner mantığı içerisinde antika araçlara ilgi duyabilir. İlgi ve ihtiyaçları karşılayacak bir özellik seti yardımıyla müşteriler gruplara ayrılarak açıklamalı modeller yardımıyla işlem yerine getirilebilir. Böylece doğru müşteriye doğru ürün yönlendirmesi ile hem müşteri memnuniyeti sağlanmış olacaktır hem de karlılık artacaktır.

1.4.         İSTİSNA SAPTANMASI (FRAUD DETECTION)

Dolandırıcılık bütün dünyada yaygın olarak işlenen bir suçtur. Her yıl dünya genelinde milyonlarca dolar dolandırıcılık nedeniyle el değiştirmekte ve kaybolmaktadır. Geleneksel yöntemlerin yetersiz kaldığı dolandırıcılık tespitinde de çözüm yöntemlerinden birisi karmaşık verileri analiz eden ve onlar arasında ilişki kurabilen veri madenciliğidir.

Veri madenciliğinin önemli görevlerinden birisi anormal veya istisnai durumların elde edilmesiyle ilgilidir. Ama bir olaya anormal veya istisna diyebilmek için bizim normal olanın ne olduğunu tarif etmeye ihtiyacımız olacaktır. Örneğin, sabah saat 08.00’de iş başı yapıp akşam saat 17.00’de işten eve dönme normal olduğunda saat 18.00’de işten ayrılan anormal bir şey yapmış olacaktır. Her ne kadar bu anormallik kötü bir şey değilse bile normalin dışında bir durum gerçekleşmiştir. Bununla birlikte mesai saatleri 09.00 ve 20.00 arası olan için bu durum normaldir, çünkü normal sınırlarında kalmıştır. Dolayısıyla herkesin veya her sistemin normali farklı olabilecektir.

İstisna saptanması (fraud detection) ve anormallik tespiti (anomaly detection) veri madenciliği içerisinde tahminsel modeller yardımıyla yerine getirilir. Bazen tek sınıflı bazen de çok sınıflı bir problem olarak ele alınır. Tek sınıflı bir problem olarak ele alındığında normal sınıf için eğitim örnekleri yardımıyla model öğrenmesi gerçekleştirilip ardından ondan belli bir eşik seviyesine kadar sapma gösterenler normal daha fazla sapma gösterenlere anormal veya istisna olarak etiketlenir. Çok sınıflı bir problem olarak ele aldığımızda ise sınıflardan birisi normal diğeri anormal olmak şeklinde iki sınıf için eğitim gerçekleştirilir ve sonrasında yeni durum bu sınıflardan hangisine daha yakın ise o sınıfa atama yapılır. Tahminsel modeller eğitim verisine ihtiyaç duymakta olup eğitim verileri {(Xi, Yi)} ve

Xi: tahmin veya giriş değişkenleri

Yi: hedef değişken (normal veya anormal | dürüst veya istisna) şeklinde sunulur.

1.5.         SALDIRI TESPİTİ (INTRUSION DETECTION)

Elektronik sistemlerin gelişimiyle birlikte yasal kullanıcılardan daha çok yasal olmayan kullanıcıların ilgisi artmıştır bu sistemlere. Elektronik sistemlerin gizliliğine, kullanılabilirliğine ve bütünlüğüne karşı son dönemde çok sayıda saldırı meydana gelmiştir. Bu saldırılarla mücadele için güvenlik duvarları, antivirüs yazılımları ve yazılımsal/donanımsal çok sayıda çözüm ortaya konmuştur. Bununla birlikte her çeşit önleme karşın güvenli bölgeye sızmalar meydana gelmektedir. Güvenlik duvarı kaynaklı hatalar veya saldırganların web açıklarını kullanması gibi sebeplerle bir sisteme izinsiz şekilde yapılmış girişlere nüfuz adı verilir. Kimi zaman da içerden yapılan saldırılar bu kategoride ele alınır. İçeriden veya dışarıdan yapılan girişimlerle sistemlere yapılan saldırıları önlemek için yapılması gereken çalışma saldırı tespiti olacaktır.

Saldırı tespiti iki yönteme dayalı olarak yerine getirilmektedir. Bunlardan birincisi kötüye kullanım tespiti (misuse detection) diğeri ise anormallik tespiti (anomaly detection) olarak bilinir. Kötüye kullanım tespiti imza tabanlıdır. Saldırı imzalarının bulunduğu bir veritabanı kontrol edilerek saldırı durumları imza tabanlı olarak tespit edilebilir. Bu yöntem ilk kez meydana gelen saldırıların yakalanması konusunda başarısız kalmaktadır. Saldırı tespitinde asıl çığır açan teknik anormallik tespiti tabanlı tekniktir. Anormallik tespiti aynı zamanda bir veri madenciliği uygulamasıdır. Anormalliğe dayalı saldırı tespiti normal durumun tanımlanması ve normalden sapmaların etiketlenmesi şeklinde yerine getirilir. Normal olanın tanımlanması için sistemi eğitecek veriye ihtiyaç vardır. Bu veriler denetleme (audit) mekanizması tarafından sağlanır. Denetleme mekanizması sistemde meydana gelen faaliyetleri takip eden ve kayıt altına alan mekanizmadır. Bu mekanizmadan elde edilen veriler ile sınıflandırma modelleri inşa edilerek anormallik tespiti tabanlı saldırı tanıma yerine getirilir.  

1.6.         SUÇ VERİ MADENCİLİĞİ

Yasalara göre izin verilmeyen fiillerin gerçekleştirilmesi veya yapılması gereken görevlerin yerine getirilmemesi suç olarak tanımlanmıştır. Çeşitli türleri olan suç ile ilgili çalışmalar ise suç analizi ortak paydası altında toplanır. Suç analizini yerine getiren temel süreç suç bilimi veya diğer adıyla kriminoloji alanına girmektedir. Suç biliminin amacı suçun özelliklerini tanımlamak ve böylece suçu bir kategoriye sokmaktır. Bir kategori içerisinde yer alan suç işleniş şekline göre bir ceza ile karşılık bulur.

Artan suç olayları ve suç olaylarının karmaşıklaşması nedeniyle suçun türleri, suçun meydana gelme şekilleri, suça karışanlar ve suç üzerindeki payları ile suçlular arasındaki ilişkileri kurmak zorlu bir iş haline gelmiştir. Suç veri kümelerinin artan hacmi bu verilerin klasik yöntemlerle analizini sorunlu ve yetersiz hale getirmektedir. Bu durumun bir sonucu olarak hem yapısal haldeki suç verilerinin veri madenciliği ile keşfi hem de suç raporlarının metin madenciliği yöntemleriyle analiz edilmesi günümüzün en sık yapılan işlerinden biri olmuştur.

Veri madenciliği kullanımı sayesinde daha önce haritalar üzerinde işlenen noktalara göre suç ve suçlular arası ilişkiler kuran kolluk kuvvetleri artık daha ileri araştırmalar yapmakta ve daha derin sonuçlar alabilmektedir.

1.7.         MEDİKAL VERİ MADENCİLİĞİ

Veri madenciliği teknik ve algoritmaları geliştikçe gerçek hayatın problemlerine daha fazla çözüm olmaya başlamıştır. Bu problemlerden önemli bir kısmı sağlık alanıyla ilgilidir. Hasta bakımı konusunda yardımcı olan veri madenciliği hastaların doğru yer ve zamanda uygun bakımı almasını sağlar. Her geçen gün artan yaşlı nüfus nedeniyle önemli bir problem haline gelen hasta sayılarının tahmini konusunda da destek sağlar.  

Artan klinik veriler bu verilerden anlam çıkarmayı ve veriler arasında ilişki kurmayı zorlaştırırken bu durum veri madenciliği yöntemlerine olan ihtiyacı da beraberinde getirmiştir. Zorluk ve çözüm yolunun kesiştiği noktada karşımıza medikal veri madenciliği alanı çıkmıştır. Medikal veri madenciliği; hastalıkların açıklanması, hastalıkların tanı, tedavi ve bakım aşamalarında veri madenciliği süreçleri ve algoritmalarının kullanılmasını ifade eder. 

Medikal veri madenciliği kapsamında başta kanser hastalığının teşhisi olmak üzere yoğun olarak teşhis çalışmaları yapılmaktadır. Tahminsel modeller yardımıyla yerine getirilen bu görevin çıktıları çoğu zaman uzman doktorların elde ettiği sonuçlardan bile daha başarılı çıktılar vermiştir. Ayrıca ilaç araştırmaları, gen dizilerinin analizi, hastalıkların birbiriyle ilişkisi gibi çalışmalar da bu kapsamda değerlendirilmektedir. Bütün bunlara ek olarak sağlık sigortası yapan firmaların doğru ücretlendirmeyi yapıp yapmadıkları da yine veri madenciliği yöntemleriyle açığa çıkarılabilir.

1.8.         BİYOİNFORMATİK

Biyoloji, istatistik ve bilgisayar bilimlerinin bir araya gelmesiyle ortaya çıkan biyoinformatik disiplininin amacı biyolojik veriler arasındaki ilişkilerin bulunması ve biyolojik verilerden bilgi çıkarımıdır. Veri açısından zengin bir alan olan biyoinformatik alanı da diğer pek çok alan gibi standart veri analiz yöntemleriyle analiz edilemeyecek derecede karmaşık ve yüksek hacimli veriler barındırmaktadır.

Veri madenciliğinin biyoinformatik alanına uygulanması sayesinde gen dizilimlerinin bulunması, birbirine benzeyen gen dizilerinin tespiti, protein yapılarının çıkarımı, hastalıkların teşhisi ve prognozu, mutosyon durumlarının bulunması, gen ağının yeniden inşası ve hücre tahmini gibi çalışmalar yapılabilir duruma gelmiştir.

1.9.         METİN MADENCİLİĞİ

Metin madenciliği; sabit bir veritabanından dokümanları bulmaya odaklanan bilgi alma (information retrieval), kelime çantası (bag-of-words) sunumu, vektör uzayı modeli (vector space model), metin işlemede kullanılan doğal dil işleme (natural language processing) ve istatistiksel veri madenciliğinin bir sentezidir. Metin madenciliği yardımıyla metin sınıflandırma, metin kümeleme, metin özetleme, yazar ve dil tanıma, otomatik çeviri ve cevaplama ile bunlara benzer çalışmalar yerine getirilmektedir. 

Metin madenciliği diğer veri madenciliği alanlarına göre öne çıkan bir alan olmuştur. Bunun en önemli nedeni kullanılabilir verilerin önemli bir kısmının metin halde verilerden oluşmasıdır. Veri madenciliği algoritmaları yapısal verilere uygun algoritmalar olduğu için verinin önce yapısal hale getirilmesi sonra da üzerinde madencilik yapılması ihtiyacı vardır. Veriyi yapısal olmayan formattan yapısal hale getirecek olan doğal dil işlemedir. O nedenle kimi yerde metin madenciliği, doğal dil işleme ve veri madenciliğinin bir birlikteliği olarak anılmaktadır.

Metin madenciliği her ne kadar istatistiksel teknikler olarak karşımıza çıksa da işin bir parçasını da dilbilimsel teknikler yerine getirmektedir. Metnin yapısı ile gramer çalışmaları ve metnin anlamıyla ilgili çalışmalar metin madenciliği kapsamında karşımıza çıkan konular arasındadır. Son dönemde adına çevrimiçi metinler dediğimiz bir yapısı olmayan metinlerin analizi ise daha zorlu bir süreci ifade etmektedir.

1.10.     KAVRAM MADENCİLİĞİ

Kavram madenciliği edebi, görsel veya işitsel metinlerden anlamlı kavramlar çıkarma işlemine denir. Terim tabanlı metin madenciliğindeki karmaşıklık problemine çözüm olarak ortaya konmuştur. Bir alanla ilgili terimler veya diğer adıyla terim kümeleri çoğu zaman onların tamamını ifade eden bir kavramla verilebilir. Böylece büyük boyutlu terim uzayı yerine daha düşük boyutlu kavram uzayı ile çalışabilir ve anlamı kaybetmeden daha etkili metin madenciliği işleri yapabilliriz.

1.11.     GÖRÜŞ MADENCİLİĞİ

Görüş madenciliği (opinion mining) veya diğer adıyla duygu analizi (sentiment analysis) bir metne bakarak bu metnin olumlu, olumsuz veya tarafsız içeriğe sahip olup olmadığını inceleyen çalışma alanıdır. Bir metnin olumlu veya olumsuz olması tek başına bir anlam ifade etmese bile bir hashtag ile birlikte mesajın olumlu veya olumsuz anlam içermesi markalar için çok şey ifade edebilir, örneğin markaların itibarı gibi.

Görüş madenciliği müşterilerimizi anlamak için bize imkânlar sunmaktadır. Önceleri dilek ve şikâyet kutuları gibi yöntemlerle yapılan kalite merkezli çalışmalar şu anda otomatikleştirilmiş yöntemlerle sosyal medya analizleri ile yerine getiriliyor. Götüş madenciliği analizi işte tam bu noktada yer alıyor. Örneğin kriz yönetimi artık sosyal medya analizi ile yapılıyor. Firmalar, kendi ürünleri hakkında kişiler ne düşünüyor sosyal medyadan öğrenip kendine çeki düzen veriyor. Hep anlatılır havayoluyla seyahat eden bir müşteri bir hizmetten dolayı rahatsız olur, şikâyetini twitter üzerinden yapar, bu mesaj şirket müdürüne ulaşır, merkezden bağlantı kurulur ve müşterimizin kahvesi bitmeden sorunun çözümü uçakta kendine sunulur. Sosyal medya böyle bir şeydir, sosyal medya analizini de kişiler bazen otomatik yöntemlerle bazen de dikkatli okumalarla yerine getirirler.

Görüş madenciliği veya duygu analizi, kişilerin olaylar, hizmetler, ürünler, kurumlar, başka kişiler v.s. hakkındaki duygu ve düşüncelerini tespite yarar. Olumlu geri bildirimler firmayı teşvik ederken, olumsuz geri bildirimler caydırıcı görevler üstlenirler. Bazen firmalar kendileri ile diğer firmaları karşılaştırmak istediklerinde de duygu analizinden yardım alırlar. Bir twitter mesajında geçecek karşılaştırma iki firmanın birbirine göre durumunu bize verecektir.

Konuyla ilgili ülkemizde ve dünyada birçok çalışma yapılmış ve yapılmaya devam etmektedir. Çalışmaların önündeki en büyük engel ise dil ve çevrimiçi metinlerle ilgilidir. Duygu analizi yapabilmek için sosyal medyada kullanılan kısaltmalar ve hatalı ifadeler düzeltilebilmeli, doğrusu bulunabilmelidir. Ayrıca, bir Türkçe mesajı anlayabilmek için cümleler en küçük birimlerine ayrılmalı, kelime türleri bulunmalı, ekler, kökler tespit edilmeli v.s. dolayısıyla başarı için doğal dilde başarı şarttır.

1.12.     WEB MADENCİLİĞİ

Veri madenciliği ve Web son yıllarda en fazla gelişme gösteren iki alandır. Bu alanların doğal kombinasyonu web madenciliği olarak adlandırılmıştır. Web madenciliği kendi içerisinde üç farklı alt alana ayrılmıştır. Bunlardan ilki web sitelerinde yer alan içeriğin ne olduğunu araştıran web içerik madenciliğidir. Web içerik madenciliğinde amaç milyonlarca web sitesinde yer alan anlamlı bilgilerin çıkarılmasıdır. Web madenciliğinin ikinci alt alanı web kullanım madenciliğidir. Web kullanım madenciliğinin amacı web sitesinde gezinen kullanıcıların davranışlarını ölçümlemek ve bu veriler yardımıyla kullanıcılar hakkında çıkarımlarda bulunmaktır. Web kullanım madenciliği sayesinde erişim günlükleri analiz edilerek; kullanıcı bilgileri, kullanıcıların göz attıkları web sayfaları ve erişim örüntüleri elde edilir. Web madenciliğinin son alt alanı web yapı madenciliğidir. Web yapı madenciliği bir web sitesinin düzeniyle ilgili öneriler getirmek için kullanılır.

Web içerik madenciliği metin madenciliği alanına oldukça benzer sonuçlar verirken web kullanım madenciliği daha ilginç sonuçlar verebilmektedir. Veri analizinin en önemli çıktılarından biri olan müşteriyi anlama eylemine hizmet eden web kullanım madenciliği ziyaret ettiğimiz sayfalardan ve orada bıraktığımız izlerden bizi tanımaya çalışan yöntemler içerir. Ziyaret ettiğimiz sayfalarla ilişkili reklamların bize sonradan gelmesi tesadüf değildir. Yaptığımız ziyaretler sırasında bizi tanıyan web siteleri ve onun sahipleri bize sonradan kendi ürünleri veya benzer ürünler hakkında reklamlar göndermektedir.

1.13.     EĞİTİMSEL VERİ MADENCİLİĞİ

Eğitimsel veri madenciliği, eğitim yönetimi, öğrenci performansı ve eğitim materyali hazırlama ile ilgili bir veri madenciliği alanıdır. Öğretim yönetiminden içerik oluşturmaya kadar pek çok ve farklı disiplinden algoritma eğitimsel veri madenciliği başlığı altında yer alabilmektedir. Dolayısıyla eğitimsel veri madenciliğini tek bir veri madenciliği yöntemiyle eşleştirmek mümkün değildir.

Eğitimsel veri madenciliği çalışmaları yoğun olarak öğrenmenin ölçümü ve gelecekteki çıktılarını tahmin etmeye odaklanmıştır. Öğrenme materyalleri ve öğretim yöntemleri gibi girdilerin nasıl çıktılar verdiği ölçülerek öğretim kalitesinin artırılması çalışmaları yapılmıştır.

1.14.     DİĞERLERİ

Veri üretimi devam ettikçe yeni veri madenciliği uygulamaları ortaya çıkmaya devam edecektir. Değişen şey verinin şekli ve formatı olsa da çalışmanın amacı hep benzer olacaktır: veri içerisinde gizli kalmış bilgileri, örüntüleri veya kuralları ortaya çıkarmak. Nasıl büyük veri kavramıyla birlikte veri madenciliği yeni duruma kendini adapte ettiyse diğer veri türlerine de adapte edecektir. Asıl olan veri madenciliği yapmanın gerisindeki itici güçtür. Örneğin üretim mühendisliği adı verilen yeni bir alan yardımıyla veri madenciliği fabrikalardaki üretim kalitesini ve verimliliğini artırmada kullanılmaya başlanmıştır. Bu alanlara yenileri eklenecektir. Yeter ki gerçek dünya problemi ile veri madenciliği algoritmaları arasında doğru bağlar kurabilelim.

Atıf vererek kullanılabilir. Atıf Bilgisi:

Takcı, Hidayet, "Teori ve Uygulamada Veri Madenciliği", Nobel Akademik Yayıncılık, Ankara, Aralık 2020 

 

Yorumlar

Bu blogdaki popüler yayınlar

VERİ MADENCİLİĞİ NEDİR?

Python Temelleri

MAKİNE ÖĞRENMESİ NEDİR?