VERİ MADENCİLİĞİ NEDİR?

 

Veri madenciliği; veri boyutlarındaki artış ve bu verilerin anlamlı hale getirilmesi ihtiyacı nedeniyle matematik, istatistik, yapay zekâ, makine öğrenmesi, veritabanları, görselleştirme gibi birçok farklı alanın bir araya gelmesiyle ortaya çıkmış bütüncül bir veri analizi disiplinidir. Düşük boyutlu verilerde başarısı kanıtlanmış tekniklerin büyük boyutlu verilerde yetersiz kalması veri madenciliğini güdüleyen sebeplerden biri olmuştur.

Veri madenciliği, kendini oluşturan alt alanların hepsinden daha fazlasını ifade eder. Tekniklerin bir harmoni içerisinde bir araya gelmesiyle oluşmuş karma bir yapının adıdır veri madenciliği. Örneğin, veri madenciliğinde en fazla öne çıkan konu makine öğrenmesi algoritmaları olmasına rağmen veri madenciliği ondan daha fazlasıdır. Çünkü veri madenciliği problemlerinde makine öğrenmesi algoritmaları kullanılmakla birlikte veriye dair ön işlem ve son işlem gibi prosedürler de yerine getirilmektedir.

VERİ MADENCİLİĞİ NEDİR?

Veri madenciliği, büyük hacimli veri içerisinde yer alan anlamlı fakat gizli kalmış bilgi, örüntü veya kuralların otomatik veya yarı otomatik yöntemler yardımıyla çıkarılmasıdır[1]. Veri madenciliği kimi zaman veriden anlamlı bilgi çıkarma sürecinin tamamına verilen isimdir kimi zaman da o sürecin bir parçasına verilen isimdir. 

Özellikle yüksek boyutlu verilerden anlamlı bilgiler çıkarmak tek seferde ve kolayca yapılabilecek bir görev değildir. Bir disiplin içerisinde yaklaşmak ve adım adım ilerlemeye ihtiyaç vardır. Bugüne kadar birbirini seri şeklinde takip eden bir süreç ile ifade edilen veri madenciliği süreci günümüzde bir döngü şeklinde ilerlemektedir. Anlamlı bilgiyi bir sefer bulmak artık yeterli değildir yeni veriler arttıkça anlamlı bilgi bulma süreci yeniden başlatılmalı ve döngü devam etmelidir.

Her veri madenciliği çalışmasında önce üzerinde çalışma yapılacak alanla ilgili veri toplanır. Bu veri kimi zaman veritabanlarında hazır halde de bulunabilir. Konuyla ilgili verilerin tamamıyla çalışmak performans sorunlarına neden olacağından verinin bir kısmı seçilir. Bu işlem örneklem alma olarak da görülebilir. Veri seçimi aşamasının sonunda elde edilen veri hedef veri (target data) olarak isimlendirilir. Üzerinde analiz yapılacak veri gürültülerden arındırılmış veri olmalıdır. Kaliteli veri kaliteli sonuç vereceği için veri kalitesini artıracak çalışmalar veri önişleme (data pre-processing) adımında yerine getirilir. Bu adımın çıktısı ve bir sonraki adımın girdisi önişlenmiş veridir. Bazen veri madenciliği algoritmalarına uygunluk için bazen de özet veriler daha değerli veriler olduğu için dönüştürme adımında çizgisel veri özetlenir ve özet bilgiler dönüştürülmüş veri olarak isimlendirilir. Dönüştürme için bir örnek bir web oturumu boyunca kullanıcının bağlanmış olduğu sayfalara ait özet bilgilerdir. Doğrudan her bir bağlantı isteğiyle çalışmaya uygun olmayan algoritma özet verilerle çalışmaya uygundur ve bu nedenle dönüşüm işlemi yerine getirilir. Dönüştürülmüş veri üzerinde artık veri madenciliği algoritmaları çalıştırılabillir. Hangi veri madenciliği algoritmasının kullanılacağını veri madenciliği sürecinde hedeflenen bilgi belirler. Amaç girdi verilerinin kategorilere ayrılması ise sınıflandırma algoritmaları, amaç girdi verilerinin kümelere ayrılması ise kümeleme algoritmaları, amaç veriler arası ilişki elde etmek ise birliktelik kuralları madenciliği algoritmaları bu aşamada kullanılır. Son aşamada ise algoritma çıktılarının değerlendirilmesi ve yorumlanması yer alır. Veriden anlamlı bilgiye geçişteki son aşama yorum ve değerlendirme olup sürecin başarısı elde edilen bilgi veya kuralların kalitesi ile ölçülür. Bu bilgiler kimi zaman stratejik bir kararın alınmasında kimi zaman da bir hastaya teşhis konmasında kullanılabilir.  

Veri madenciliği teknikleriyle elde edilen anlamlı bilgi kapsamlı bir sürecin sonucudur. Bu süreç kimi yerde veritabanlarından anlamlı bilgi keşfi olarak da bilinir. Veri, Bilgi ve Anlam üçlüsü ile ifade edilebilecek süreç alt kırılımlarda ön işlem, madencilik, son işlem gibi alt adımlardan meydana gelir. Sürecin ilk aşaması problem tanımıdır. Bu aşamada veriler yardımıyla elde edilecek anlamlı bilginin ne olduğu tarif edilir. Örneğin, bilgisayar destekli bir karar verme sisteminde elde edilmesi hedeflenen bilgi belirtilerden hastalık teşhisi olabilir. Problem tanımına uygun olarak veri toplama işlemi yerine getirilir. Hastalık teşhisi örneği özelinde bugüne kadar karşılaşılan belirtiler ve hastalıklara ait veriler bir araya getirilir. Veri toplama aşamasının devamında veri içerisinde yer alan gürültü giderilir. Bu işlem ilişkisiz verilerin ayrılması veya tekrar eden verinin silinmesi şeklinde yerine getirilir. Veriye makine öğrenmesi algoritmaları uygulamadan önce yapılması gereken son işlem verinin dönüştürülmesidir. Veri üzerinde ön işlem faaliyetleri bittikten sonra probleme uygun veri madenciliği algoritması veriye uygulanarak örüntüler elde edilir. Bu örüntüler kurulacak hastalık teşhis sisteminin girdilerini oluşturmaktadır.

VERİ MADENCİLİĞİNİN DÜNÜ, BUGÜNÜ

Veri madenciliği ilk olarak 1990’lı yıllarda bir akademik disiplin olarak ortaya çıkmıştır. 1990’lı yıllar bilgisayarların yaygınlaştığı, saklama birimlerinin kapasitesinin arttığı ve aynı zamanda web teknolojileri sayesinde kullanılabilir elektronik verinin arttığı yıllardır.  Bu dönemde verilerin hacmi artmış ve verilerden anlam çıkarmak geleneksel yöntemler için imkânsız hale gelmiştir. Daha önceleri bellek birimlerinin yetersizliğinden dolayı kayıt altına alınamayan veriler veya belirli bir süre sonunda silinmek zorunda kalınan veriler artık sahibine güç veren en değerli kaynak haline gelmiştir. Veri madenciliği sayesinde geleneksel tekniklerle görülemeyen ilişkiler görülmeye başlanmış, görselleştirme imkânları ile veri ve olaylar hakkında yorum yapılabilir hale gelmiş ve öğrenen sistemler inşa edilebilmiştir.    

Veri madenciliği tekniklerini kullanmak için motive edici çok sayıda sebep vardır. Örneğin, firmalar arası kızışan rekabet firmaları veri madenciliği yapmaya mecbur bırakmıştır. Rakibine karşı avantaj sağlamak isteyen firmalar müşterilerini tanımaya girişmiş ve bunun sonucu olarak müşterisinin nelerden hoşlandığını, müşterisinin kendisine sadakatini ve diğer davranış özelliklerini elde etmiştir. Müşteriyi tanımak firmayı diğerinden bir adım öne geçirmiş ve böylece veri firmalar için avantaja dönüşmüştür. Benzer şekilde Pazar sepeti analizi yapan firmalar müşterilerin alış veriş bilgilerine dayalı olarak onlara yeni ürün tavsiyelerinde bulunabilmiş ve hatta raf düzenini müşteri verilerine dayalı olarak yerine getirmiştir. Klasik reklamcılık yerini hedefli reklamcılığa bırakmış ve yine veri merkezli bakış açısıyla geri dönüşü olan reklamlar yapma imkânı elde edilebilmiştir.

Ticari baskıya ek olarak bilimsel çalışmalar da bizleri veri madenciliği yapmaya zorlamaktadır. Saniyede terabytler seviyesinde veri toplayan uyduların görüntü verilerini klasik yöntemlerle analiz edebilmek mümkkün değildir. İnsan geni ve hastalıklar arasındaki ilişkileri bulabilmek için, akan veriyi analiz edebilmek için, insan gücüyle tespiti mümkün olmayan anormallikleri tespit edebilmek için, sismik verileri analiz edebilmek için ve daha birçok ihtiyaç için de veri madenciliği bir zorunluluktur.

Ticari veya bilimsel kaygılarla, günümüzün şartları dolayısıyla ve artan veri nedeniyle veri madenciliği kaçınılmaz bir teknik haline gelmiştir. Bu nedenle bugün veri madenciliğinin girmediği alan yok denecek kadar azdır. Dünyada hala gizli bulunan ve açığa çıkmayı bekleyen milyonlarca bilgi ve kural bulunmaktadır. Bunların açığa çıkarılması veri madenciliği süreçleri ile mümkün olacaktır.

Malum olduğu üzere son dönemde artık büyük hacimli veri yerine büyük veri konuşulmaya başlamıştır. Veri madenciliği teknikleri ile büyük veri ilişkisi de bu kapsamda merak edilen konulardan birisidir. Veri madenciliği ile büyük verinin ilişkisi en az büyük hacimli veri ile veri madenciliği ilişkisi kadar yoğundur. Büyük veri daha çok verinin yapısı ve kaynağı ile ilgilidir. Daha önce farklı kaynaklardan gelen veriye yeni kaynaklar eklenmiştir. Örneğin, daha önce gündemde olmayan IoT (Internet of Things – Nesnelerin İnterneti) cihazlarının verileri artık gündemdedir. Bununla birlikte yeni veri kaynakları da veri madenciliği teknik ve algoritmaları ile işlenebilir durumdadır. İşlenemeyecek boyutta veriler üzerinde veri boyutunu düşürücü teknikler kullanılmakta ve veri madenciliği teknikleri büyük veri analitiğinde kullanılabilmektedir.

VERİ MADENCİLİĞİ VE İLİŞKİLİ KONULAR

Veri madenciliğinin kökeninde matematik, istatistik, yapay zekâ, doğal dil işleme, veritabanları, makine öğrenmesi, istatistik gibi birçok alan bulunmaktadır. Veri madenciliği bu alanlardan bazı yetenekler kullanırken o alanların gelişimine de katkı sağlamıştır. Örneğin, veri madenciliği OLAP analizi ve SQL sorguları nedeniyle veritabanı teknolojisi ile alakalıdır fakat veri madenciliği OLAP ve SQL sorgularından daha fazlasını ifade etmektedir. Tarihsel verilerden öğrenme gerçekleştirdiği için Makine öğrenmesi ile alakalıdır fakat veri madenciliği öğrenmeden daha fazlasını yerine getirmekte ve aynı zamanda veriyi açıklamaktadır. İstatistik ile alakalıdır fakat geleneksel istatistik teknikleri ile yapılamayan çalışmalar veri madenciliği ile yerine getirilebilmektedir.

Veri madenciliği ve veritabanı teknolojisi

Veri madenciliği algoritmaları çizgisel verilerle çalışacak şekilde geliştirilmiştir. Her ne kadar sonradan diğer türden veriler analiz edilebilir hale gelse de klasik yapı çizgisel veriler ile çalışmak üzere tasarlanmıştır. Çizgisel veriler aynı zamanda ilişkisel veritabanlarında tutulan veri tipidir. Dolayısıyla veri madenciliği ile veritabanları arasındaki en güçlü ilişki veri tipiyle ilgilidir. Çizgisel veriler iki tür veritabanı işleme mantığında tutulur. Bunlardan ilki canlı verilerin saklandığı OLTP veritabanları diğeri ise çevrimdışı verilerin saklandığı OLAP veritabanlarıdır.     

Çevrimiçi veriler OLTP (OnLine Transaction Processing) veri tabanlarında saklanır. Mevcut işleyiş içerisinde yerine getirilen her bir işlem (transaction) OLTP veritabanını günceller. Veriler çevrimdışı olduğunda ise OLAP (OnLine Analytical Processing) veritabanlarında tutulur. OLAP veri tabanları adından da anlaşılacağı üzere analiz amaçlı olarak tarihsel verilerin tutulduğu veritabanlarıdır. Örneğin bir öğrenci bilgi sisteminde aktif döneme ait veriler OLTP üzerinde fakat geçmiş yılların verileri OLAP üzerinde şeklinde düşünülebilir. Ya da mezun olmuş kişilere ait veriler çevrimdışı olarak tutulur. İhtiyaç duyulduğunda gidip veri alınır ama güncelleme yapılmaz.

Verilerin analizi amacıyla geliştirilen OLAP daha çok ileri seviye bir raporlama aracıdır. Veri madenciliği OLAP tan farklıdır. OLAP ile elde edilemeyen tipteki raporlar veri madenciliği sayesinde elde edilebilmektedir. OLAP sayesinde biz yıllara göre, bölgelere göre ortalama satış rakamlarını elde edebiliriz fakat gelecek altı ayda ne miktarda satış yapabileceğimizi veya hangi tipteki müşterilerin bizler için kazançlı müşteriler olabileceğini OLAP ile bulamayız. OLAP sayesinde verileri roll-up veya drill-down, sorgu performansını artırabiliriz ama daha iyi sebep sonuç ilişkileri kurabilmek için veri madenciliği ihtiyaçtır.

Belirli bir amaca uygun olarak farklı sistemlerin geçmiş verilerini tutan OLAP veritabanları bir araya getirilmek istendiğinde bu veriler adına veri ambarı (data warehouse) denen yerde tutulur. Veri ambarları (data warehouse), farklı kaynaklardan gelerek birleştirilen, analiz amaçlı verilerin - zaman boyutu ile birlikte - tutulduğu ortamlardır. Veritabanlarında tutulan veri ile de veri madenciliği yapmak mümkün olsa bile verilerdeki birleştirme hataları, özetlenmemiş veri ile çalışma zorluğu ve sadece tek bir zaman dilimine ait veriler veri madenciliğinden beklenen faydanın elde edilememesine sebep olur.

Veri madenciliğinde verinin tamamı ile çalışmak performans sorunlarından dolayı istenen bir durum değildir. Örneğin, Türkiye İstatistik Kurumu (TÜİK) nüfus verileri ile çalışırken verinin tamamı yerine parçaları üzerinde çalışmayı tercih eder. Işte veri ambarlarının parçalarına Data Mart adı verilir. Dolayısıyla aslında veri madenciliği yaparken veri ambarları yerine data marts ile çalışma yapılır.

Veri madenciliği çalışmalarının amacı verilerden anlamlı bilgiler çıkarmak olduğu gibi veritabanı teknolojisinin en önemli bileşeni olan SQL sorgularının amacı da anlamlı bilgi elde etmektir. Dolayısıyla veri madenciliği ile veritabanları arasında SQL gibi arakesit bir teknoloji de bulunmaktadır. 

Veri madenciliği ve istatistik

Veri madenciliği ile istatistik arasında sıkı bir bağ vardır. Şu anda veri madenciliği algoritması olarak kullanılan birçok yöntem kaynağını istatistikten alır. Buna en iyi örneklerden birisi regresyon analizidir. Ayrıca veri madenciliği temel görevleri arasında yer alan özetler ve görselleştirme konusu da yine istatistik alanından veri madenciliği alanına transfer edilmiş konular arasındadır. Veri madenciliği görevleri açıklamalı ve tahminsel modeller olarak ikiye ayrılır. Bu ayrım aslında istatistikte yer alan betimsel istatistik ve çıkarımsal istatistik ile doğrudan ilişkilidir.

Betimsel istatistiğin amacı veri üzerinde yapılan matematiksel işlemler sonucu veriyi açıklayan ortalama, standart sapma ve medyan gibi tanımlayıcı istatistiklerin elde edilmesidir. Aynı zamanda sayısal özetler, korelasyon, çizgi grafik ve histogram yöntemi yardımıyla verilerin açıklanması da betimsel istatistikler sınıfına girmektedir. 

Çıkarımsal istatistik ise programlama dilleri ya da uygulamalar yardımıyla makine öğrenmesi veya başka metotlar yardımıyla istatistiksel model kurulmasıdır. Modellerin eğitiminde adına eğitim verisi dediğimiz etiketli veriler kullanılır. Bu modeller test verileriyle kullanılarak tahmin işlemi gerçekleştirilir.

Sadece verinin analizi ve ondan anlam çıkarılması bağlamında değil verinin analize hazır hale getirilmesinde de istatistik tekniklerinden yararlanılır. Veri toplama, toplanan verilerden örnek seçimi, örnek seçiminin yöntemleri tamamen istatistik alanının konularıdır. 

İstatistik, uzun yıllardır veri analizi için kullanılmaktadır fakat veri madenciliği daha farklı bir alanda çalışır. Boyut farkı vardır, istatistik daha küçük boyutlu verilerle çalışırken veri madenciliğinde binlerce hatta milyonlarca veri bulunmaktadır.

Veri madenciliği ve makine öğrenmesi

Makine öğrenmesi bilgisayarların nasıl öğrenebileceği ile ilgilenen bir yapay zekâ alt alanıdır. Veri madenciliği sürecinde analize hazır hale gelen verilere uygulanan algoritmaların önemli bir kısmı makine öğrenmesi algoritmalarıdır. Makine öğrenmesi algoritmaları öğrenim türlerine göre çeşitli kategorilere ayrılırlar. En temel iki kategori denetimli ve denetimsiz makine öğrenmesi algoritmalarıdır. Denetimli makine öğrenme algoritmaları tahminsel yöntemler olarak da bilinir. Tahminsel yöntemlerin amacı, geçmiş verileri kullanarak bugün ve gelecek için tahminler ortaya koymaktır. Bunu yaparken geçmiş verileri tümevarım yöntemleriyle harmanlar ve modeller inşa eder. Bu modeller ilk kez rastlanan olaylar için sonuçlar üretir. Denetimsiz makine öğrenme algoritmaları ise açıklayıcı modeller olarak da bilinir. Veriler arasındaki ilişkilere dayalı olarak kümelerin elde edilmesi veya elemanlar arası birlikteliklerin bulunması denetimsiz teknikler için örnekler oluşturur.

Veri madenciliği ile makine öğrenmesi algoritmaları arasında sıkı bir ilişki bulunur. Her bir problemin geri planında o problemi çözen bir makine öğrenmesi algoritması bulunur. Örneğin, istisna saptanması bir veri madenciliği problemidir ve geri planında sınıflandırma algoritmaları bulunur. Anormallik tespiti bir veri madenciliği problemidir ve geri planında doğrusal regresyon gibi bir makine öğrenmesi algoritması bulunur. Örnekleri çoğaltmak mümkündür. Bununla birlikte genel bir kural olarak veri madenciliğinin amaç olduğu yerde makine öğrenmesi algoritmaları bizi o amaca götüren araçlar olarak görülebilir.

VERİ MADENCİLİĞİ TEKNİKLERİ

Veri madenciliği çalışmaları kaba bir tasnife göre keşif ve analiz görevlerinden oluşur. Keşif görevi; verinin açıklanması, istatistiksel olarak özetlenmesi, grafik ve şekillerle görselleştirilmesi gibi özellikler içerir. Keşif görevi, üzerinde çalışılan veri içerisinde önemli bir bilgi olup olmadığına dair ilk ipuçlarını verir. Keşif görevini analiz görevi takip eder. Veriler arasında kayda değer bilgi olup olmadığı keşif yardımıyla anlaşıldıktan sonra analiz görevi yardımıyla bilginin diğer ayrıntıları ortaya çıkarılır. Veri madenciliği sürecinde keşif ve analiz görevi örüntü keşfi ve örüntü analizi olarak yer alır. Veri analiz görevinin yerine getirilmesinde açıklamalı veya tahminsel yöntemler kullanılır. Açıklamalı yöntemler analiz yöntemleri olduğu gibi kimi zaman keşif amaçlı olarak da kullanılır. Veri madenciliği ile analiz yaparken karşımıza çıkan modüllere veri madenciliği teknikleri o teknikleri yerine getiren yöntemlere de veri madenciliği algoritmaları adı verilmektedir. Temel veri madenciliği teknikleri aşağıda sunulmuştur.

Özetler ve görselleştirme

Veri madenciliği çalışmalarında genellikle veriyi karakterize eden bir model kurulur ve bu modele göre veri açıklanır veya veriden bilgi elde edilir. Bir modeli kurmadan önce verinin anlaşılmaya ihtiyacı vardır. Bilgi keşif faaliyetleri olarak görülebilecek bu çalışmalar yardımıyla veriler çeşitli şekillerde özetlenir ve veri hakkında değerli bilgiler elde edilir. Verilerle ilgili değerli bilgilerden en bilinen iki tanesi ortalama ve standart sapmadır. Ortalama, verilerin hangi değer etrafında toplandığını, standart sapma ise verilerin ortalamadan ne kadar saptığını gösterir. Kimi zaman ortalama yerine mod ve medyan gibi özet bilgiler de kullanılmaktadır. Ortalama ve standart sapmanın aykırı değerlerden olumsuz etkilenmesi nedeniyle diğer ek ölçümlere ihtiyaç duyulur. 

Veriler hakkında değerli ön bilgiler elde edebilmek için bir diğer araç görselleştirmedir. Görselleştirme işlemi farklı renk, şekil ve konum bilgisine sahip noktalar yardımıyla yerine getirilir. Renkler verinin karakteristiği hakkında bilgi verir. Ormanlık bir alanda yeşil renklerin kullanımı veya denizlerin olduğu bölgede mavi renk kullanımı görselleştirmede en sık rastlanan durumdur. Renklerdeki ton kullanımı da görselleştirmeyi zenginleştirir. Koyu yeşil renk daha yoğun bir orman bitki örtüsünü, açık mavi renk daha sığ denizleri ifade eder örneğin. Noktaların sahip olduğu şekiller ve konum bilgisi de yine benzer şekilde veriyi sunmakta bize yardımcı olurlar. Başta histogtamlar olmak üzere veri madenciliğinde kullanılan birçok görsel öge bulunur. Tekil değişkenler hakkında bilgi veren histogramlar hangi değerlerde yığılma olduğunu bize hızlıca sunarlar. Bazen aykırı değerlerin tespitinde de kullanılan kutu çizgileri, sıcaklık dağılımını veren sıcaklık haritaları ve bölgenin yüzeyi hakkında bilgi veren izohips eğrileri de görselleştirme yetenekleri arasında sayılır. Görselleştirme seçenekleri arasında en ilgili çekici olanlarından birisi hiç şüphesiz OLAP küpleridir. Çizgisel verilerin çok boyutlu görünümünü sunan OLAP küpleri yine veri analizinde oldukça önemli kolaylıklar sağlayan bir seçenektir.

Görselleştirme araçlarının en önemli avantajı insan algısına yakın olmasıdır. Binlerce satır çizgisel veri ile anlatılamayacak bilgiler tek bir resim ile rahatça sunulabilir. Çok sayıda işlem sonuncunde elde edilebilecek veriler arası ilişki de yine görselleştirme yardımıyla kolayca elde edilebilir. Adına saçılma çizgileri denen bir görselleştirme aracı veriler arası ilişkiyi tek bir görsel ile bize sunabilir. Dolayısıyla özetler ve görselleştirme araçları veri madenciliğinde bilgi keşfi bağlamında oldukça önemli avantajlara sahip tekniklerdir.

Sınıflandırma

Kaynakların dökümünde ve sayımında en önemli nokta benzer olanların bir araya getirilmesidir. İlk kez görülen bir elemanın daha önceden bilinen kategorilerden birine atanmasına sınıflandırma adı verilir. Sınıflandırma, veri madenciliğinden en sık karşılaşılan problemdir. Belirtilerine dayalı olarak kişilerin kanser olup olmadığının tespit edilmesi, indeks terimlerine dayalı olarak metinlerin kategorilerine ayrılması veya n-gram dizilimlerine göre metinlerin yazarının bulunması bir sınıflandırma problemidir. Gerçek hayatta sıklıkla karşımıza çıkan sınıflandırma problemleri sınıflandırma algoritmaları yardımıyla çözülür. Sınıflandırma algoritmaları için en bilinen yöntem karar ağaçlarıdır. İnsan öğrenmesini taklit eden yapay sinir ağları, marjin maksimizasyonunda kullanılan destek vektör makineleri veya olasılığa dayalı bayes algoritması da sınıflandırma problemlerinin çözümünde kullanılır. 

Sınıflandırma algoritmaları öğrenim tekniği açısından denetimli öğrenim kategorisinde yer alır. Sınıflandırma işlemi etiketli eğitim verilerinden model oluşturma ve modele dayalı olarak yeni elemanların bir kategoriye atanması şeklinde gerçekleşir. Sınıflandırma modelinin oluşturulmasına kullanılan eğitim verisi giriş değişkenleri ve sınıf etiketi şeklinde verilerden oluşur. Bir öğretmenin öğrencilerine bir konuyu öğretmesinden esinlenen modele bu benzerlikten dolayı kimi zaman öğretmenli öğrenme adı da verilmiştir.

Eğitim verileri yardımıyla modelin elde edilmesi tümevarım (induction) olarak bilinir. Model oluşturmada kullanılan algoritmaya da tümevarım algoritması denir. Örneğin, yapay sinir ağlarına dayalı olarak bir model ortaya konacağı zaman öğrenim algoritmasına “yapay sinir ağı tümevarımı” adı verilir. Sınıflandırma algoritmaları aynı zamanda tümevarım yöntemleridir. Oluşturulan model yardımıyla sınıflandırma işlemi ise tümdengelim (deduction) olarak bilinir.

Sınıflandırma modelinde hedef çıktısı nominal bir değer alır.

Regresyon

Tahminsel modeller kategorisinde yer alan bir diğer veri madenciliği tekniği regresyon analizidir. Regresyon analizi ile sınıflandırma arasındaki en önemli fark sınıflandırma tekniğinde elde edilen çıktı değişkeninin türü nominal (veya kategorik) iken regresyon da çıktı değişken türünün sürekli olmasıdır. Sınıflandırma ve regresyon arasındaki farkı anyalabilmek için en iyi örnek k en yakın komşu sınıflayıcısı ve k en yakın komşu regresyonudur. K en yakın komşu sınıflayıcısına göre sınıflandırma test verisine en benzer k adet eğitim verisi örneğinin sınıf etiketlerinin çoğunluk oylamasından elde edilirken k en yakın komşu regresyonunda çıktı değeri k adet komşunun ortalaması şeklinde hesap edilir. Mantık aynı ve her ikisinde de hedef çıktı için bir değer bulunmak istenmektedir bununla birlikte elde edilen çıktıların hesap yöntemi faklı olabilmektedir.  

Regresyon analizi geleceğe dair bilgi elde ederken de sıklıkla kullanılır. Geçmiş veriler yardımıyla elde edilen regresyon denkleminde yeni bir değerin denkleme girilmesiyle gelecekteki bir değer elde edilebilir. Örneğin, 1990-2010 yılları arası verilerle elde edilen bir eğri sayesinde 2020 yılı için sonuç elde edilebilir. Nokta değer tahmini olarak da bilinen bu yöntem sayesinde sadece prediction (tahmin) değil aynı zamanda forescasting (kestirim) yapma imkânı da olabilecektir. 

Kümeleme

Kümelemenin amacı veritabanında yer alan kayıtların özelliklerine göre farklı grublara bölünmesidir. Işlemin nihai çıktısı grup içinde yer alan noktaların birbirine benzemesi fakat grup dışındakilere benzememesidir. Sınıflandırmaya benzemez çünkü sınıflandırma önceden tanımlı bir ayrımı öngörür. Kümeleme ise çalışma anında ortaya çıkan bir bölümlemeyi işaret eder. Ilk kez meydana gelen durumlar hakkında hüküm vermek için sınıflandırma yöntemine göre daha iyi sonuç veren bir yöntemdir. Örneğin, daha önce meydana gelmiş saldırıların tespit edilmesinde sınıflandırma yöntemleri etkili olmasına ragmen ilk kez meydana gelen saldırılarda kümeleme yöntemi etkili olabilmektedir.

 Bağlantı analizi

Bağlantı analizi veriler arasındaki ilişkileri tanımlamaya yardımcı olmak için veriyi keşfetmeye yönelik bir açıklama yaklaşımıdır. En genel iki yaklaşımı birliktelik kuralları keşfi ve sıralı örüntü keşfidir. Birliktelik kuralları keşfi ödeme işlemi gibi bir olaydaki kuralları bulur. Pazar sepeti analizi en çok bilinen birliktelik kuralları keşfi örneğidir. Sıralı örüntü keşfi de birliktelik kuralları keşfine benzerdir aradaki tek fark benzerlik zamanın farklı boyutlarında meydana gelmektedir.

Birliktelikler X=>Y şeklinde yazılır, X kural öncesi veya kuralın sol tarafı olarak isimlendirilir, Y ise kural sonrası veya kuralın sol tarafı olarak bilinir. Örneğin, “eğer insanlar nal alıyorsa çivide alır”, gibi bir uyum kuralında, önde gelen “nal almaktır”, sonda gelen ise “çivi almaktır”.

Anormallik tespiti

Açıklamalı veri analizinde önemli konulardan biri veriler arası ilişkilerin kurulması ise diğeri de hiç şüphesiz verideki anormalliklerin bulunmasıdır. Verideki anormallikleri bulabilmek için yapılması gereken şey normal olanın ne olduğunun elde edilmesidir. Kimi zaman istatistiksel bir teknik olan aykırı değerlerin tespiti (outlier detection) konusu ile karıştırılsa da anormallik tespiti aykırı değerlerin tespitinden fazlasını ifade etmektedir. 

Sıklıkla tahminsel modeller yardımıyla çözülen problem normal duruma ait veriler yardımıyla normal sınıfının eğitimi ve normal sınıfından sapmaların da anormal olarak etiketlenmesi şeklinde ilerler. Burada dikkat edilmesi gereken konu elde edilen normal profillerinin her sistem veya durum için özel olmasıdır. Örneğin, alışveriş konusunda bir anormallik tespiti yapılacaksa herkes için bir normal durum profili bulunmalı ve bu normal durumundan sapma gösteren anormal olarak etiketlenmelidir. Yoksa A kişisinin normali ile B kişisi için anormal etiketi vermek mümkün değildir. Sadece topluca ifade edilebilen bir normal, örneğin toplumsal normlar gibi varsa o zaman herkes için tek bir normal profili olur ve ondan sapmalar etiketlenebilir.



[1] Fayyad, Usama M.; Piatetsky-Shapiro, G.; Smyth, P.J. (Fall 1996). "From Data Mining to Knowledge Discovery in Databases". AI Magazine. 17 (3): 37–54. ISSN 0738-4602.

 

Yorumlar

Bu blogdaki popüler yayınlar

Python Temelleri

MAKİNE ÖĞRENMESİ NEDİR?