MAKİNE ÖĞRENMESİ NEDİR?

MAKİNE ÖĞRENMESİNE GİRİŞ

Makine öğrenmesi açık şekilde programlanmadığı halde deneyimlerden otomatik şekilde öğrenen ve öğrendiklerini pekiştiren sistemler geliştirmeye odaklanmış bir yapay zekâ alt alanıdır. Makine öğrenmesi veriye erişen ve kendi kendine öğrenen bilgisayar programları geliştirme ile ilgilidir. Yoğun olarak denetimli ve denetimsiz öğrenme yöntemleri şeklinde karşımıza çıkan makine öğrenmesinin dört farklı öğrenme türü vardır:

· Denetimli öğrenme (supervised learning): Bugün ve gelecek hakkında tahminler üretmek üzere etiketli veri yardımıyla geçmiş verilerden öğrenen ve bunu daha önce hiç görnediği verilere uygulayarak sonuçlar elde eden öğrenme şeklidir. Öğrenim verisinden elde edilen modellerin yeni verilere uygulanması sıklıkla sınıflandırma olarak bilinir. Sınıflandırma görevini yerine getiren fonksiyona ise sınıflandırma denklemi adı verilir. Öğrenim verisinden model öğreniminde öğrenme eğrileri kullanılır ve model yeteri kadar veri ile eğitildikten sonra öğrenme sona erdirilir. Hangi miktarda veri ile öğrenim yapılacağı öğrenme verisinin miktarı ve model performansı arasındaki ilişkiden elde edilir. Öğrenim eğrisi üzerinde öğrenim verisi arttığı halde model performansı artmadığında öğrenme verisi boyutu sabitlenir.

· Denetimsiz öğrenme (unsupervised learning): Denetimli öğrenmenin aksine etiketli eğitim verisi bulunmaz. Bu yöntemin amacı veri içerisinde gizli bulunan örüntülerin açığa çıkarılmasıdır. Veri etiketler yerine bizzat kendi özellikleriyle açıklanır. İşlemin başında hangi veri bileşeninin hangi grupta olacağı bilinmezken işlem sonunda her bir veri bileşeni kendiyle ilgili bir gruba atanır. En bilinen denetimsiz öğrenme tekniği kümeleme olup işlem başında hangi kümeye ait olacağı bilinmeyen veri elemanları benzerlik ve uzaklık yöntemleri yardımıyla kendi kümelerini bulurlar.

· Yarı denetimli öğrenme (semi-supervised learning): Model eğitimi için etiketli ve etiketsiz veriler birlikte kullanılır. Az miktardaki etiketli veri yardımıyla önce veriler kümelere ayrılır daha sonra küme bilgisi yardımıyla elde edilen sınıf etiketleri sınıflandırma için kullanılır. Verilerin az olan kısmıı etiketli daha büyük kısmı ise etiketsiz veridir. Bu türden sistemler genel olarak öğrenim oranlarını artırmaktadır.

· Takviyeli öğrenme algoritmaları (reinforcement learning) eylemler üreterek çevresi ile etkileşime giren ve hataları veya ödülleri keşfeden bir öğrenme yöntemidir. [1]

1.1. Öğrenme ve öğrenme türleri

1.1.1. Denetimli öğrenme

Denetimli öğrenme, bir öğretmen eşliğinde hangi girdilerin hangi çıktılarla eşleşeceğini ifade eden bir makine öğrenmesi görevidir. Sistemdeki öğretmen fonksiyonu eğitim verisindeki etiketler ile sağlanır. Böylece geçmiş örnekler yardımıyla gelecek için tahmin yapma imkanı doğar. Eğitim verileri yardımıyla öğrenen sistem öğrendiklerini test verisi üzerinde uygular. Bu işleme sınıflandırma adı verilir. Dolayısıyla sınıflandırma; sınıfı bilinmeyen bir kaydın daha önceden eğitilmiş kategorilerden birine atanması görevi olarak tarif edilebilir. Ayrıca eğitim verileri yardımıyla öğrenmeye tümevarım (induction) öğrendiklerini test verisi üzerinde uygulamaya da tümdengelim (deduction) adı verilir.

Denetimli öğrenim verilerin bir kümesine ihtiyaç duyar. Veri kümesinde x⁽ⁱ⁾, giriş değişkenini veya özellik değerlerini, y⁽ⁱ⁾ ise çıktı veya hedef değişkeni ifade etmektedir. Bu noktada bir eğitim verisi örneği (x⁽ⁱ⁾,y⁽ⁱ⁾) şeklinde sunulur. N adet eğitim örneği {(x⁽ⁱ⁾,y⁽ⁱ⁾); i=1,2,…,N} ise eğitim kümesi olarak isimlendirilir. Denetimli öğrenim için hedef; eğitim seti yardımıyla h:x->y ilişkisini sağlayan h(x) fonksiyonunun elde edilmesidir. Tarihsel veri ile ilişkisinden dolayı (historical) denetimli öğrenim fonksiyonu olarak h seçilmiştir. Daha anlaşılır bir form olarak sunulmak istendiğinde sınıflandırma modeli şu şekildedir:

y=h(x)

Denetimli öğrenimde tahmin etmeye çalıştığımız hedef değişken eğer sürekli bir değişken ise bu bir regresyon problemine, ayrık bir değişkense o zaman da sınıflandırma problemine dönmektedir.

1.1.2. Denetimsiz öğrenme

Denetimsiz öğrenme, etiketsiz veri üzerinde önceden bilinmeyen kalıpları bulmaya yardımcı olan ve kendi kendine organize olan bir öğrenim türüdür. Makine öğrenmesinde önemli yöntemlerden biridir. İlk kez meydana gelmiş olayların anlamlandırılmasında, daha önceden örneği olmayan durumların modellenmesinde etkili bir yöntemdir. Denetimli öğrenme yöntemine göre daha karmaşık kıyaslama görevlerini yerine getirir.

Denetimsiz öğrenme için örneklerden birisi daha önceden örneğini hiç görmediğimiz bir canlı türünü sınıflayabilmektir. Örneğin daha önce hiç “atmaca” görmemiş birisi diğer kuş türleri hakkındaki bilgilerini kullanarak atmacanın da bir kuş olduğunu söyleyebilir. Veya bir çocuk ayakları, gözleri, yürüme şekline bakarak daha önce tanımadığı canlıları tanıdıklarına benzeterek bir yorumda bulunabilir.

İnsanların bir öğretmen olmaksızın kendi kendine öğrenmeye başlaması da aslında denetimsiz öğrenimin bir örneğini teşkil eder.

Denetimsiz öğrenme, bir model inşa etmeye ihtiyaç duymayan bir makine öğrenmesi tekniğidir. Öğrenmenin bu türü yardımıyla verilerdeki bilinmeyen her türlü örüntünün tespit edilmesi imkânı vardır.

Denetimsiz tekniklerden öne çıkan ikisi Kümeleme ve Birliktelik Kuralları Analizidir. Kümeleme daha önceden hangi grubua düşeceği bilinmeyen verilerin birbirlerine yakınlık veya uzaklıklarına dayalı olarak bir gruba atanması şeklinde meydana gelir.

Denetimsiz öğrenme teknikleri yardımıyla yapılabilecek önemli işlemlerden birisi anormallik tespitidir. Anormallik tespiti, veri kümesindeki olağandışı işlemleri bulmak için yararlı kullanılır ve böylece önemli veri noktalarını keşfedebilir.

Gözetimsiz öğrenmenin en büyük dezavantajı, veri sıralama hakkında kesin bilgi alamamanızdır.

1.1.3. Yarı denetimli öğrenme

Öğrenme algoritmalarında takviyeli öğrenme tekniği de bulunmasına rağmen temel iki öğrenme tekniği her zaman denetimli öğrenme ve denetimsiz öğrenme şeklinde iki sınıfa ayrılır. Bununla birlikte gerek denetimli öğrenme tekniğinin gerekse denetimsiz öğrenme tekniğinin kendine has dezavantajları bulunmaktadır. Örneğin, denetimli öğrenme algoritmalarının en önemli dezavantajı veri kümelerinin konu uzmanı yardımıyla etiketlenmesi ihtiyacıdır. Bu durum büyük boyutlu veriler için büyük sorun demektir. Denetimsiz öğrenme algoritmalarında ise en önemli sorun uygulama sepktrumunun sınırlı olmasıdır.

Bu dezavantajlarla baş edebilmek için yarı denetimli öğrenme kavramı ortaya atılmıştır. Bu türden öğrenmede öncelikle etiketsiz veri etiketli veriler yardımıyla etiketlenir. Bu işlem etiketli verilerle aynı kümede yer alan etiketsiz verilere etiket atanması şeklinde meydana gelir. Yarı denetimli öğrenmede temel prosedür denetimsiz öğrenme algoritmaları yardımıyla etiketsiz benzer verilerin kümelenmesidir. Böylece kümeleme yardımıyla etiketsiz veriden etiketli veri elde edilir ve bu veriler diğer etiketsiz verileri sınıflandırmada kullanılır.

1.1.4. Takviyeli öğrenme

Takviyeli öğrenme hedef odaklı öğrenme olup maksat en iyi sonuçları elde edecek eylemlerin yapılmasının teşvik edilmesidir. Bu türden öğrenim bi nevi deneme-yanılma yöntemine benzemektedir.

Takviyeli öğrenme mevcut durumda en iyi sonucu veren yerine ileride daha iyi sonuçlar verecek tercihleri önceler. Yani günü kurtaran değil yarınları kurtaran çözümleri size sunar. Kısa süreli karlı olan bir yatırım yerine size uzun planda kazandıracak şeyleri önerir.

Takviyeli öğrenme kapsamında öğrenen sisteme ajan (agent) adı verilir. Ajanın amacı çevresel faktörler yardımıyla en iyi sonucu elde etmektir. Çoğu zaman denetimli öğrenme iyi bir öğrenme yöntemi olmasına ragmen elimizde etiketli veri yoksa ve ajan kendi bilgileri haricinde bir bilgiye sahip değilse o zaman takviyeli öğrenme öne çıkacaktır.

Takviyeli öğrenme için en iyi örnek markow karar süreci olarak bilinir. Takviyeli öğrenme geçmişte verdiği kararlardan yararlanır ve münkün olan en iyi bilgiyi yakalamaya çalışır.

1.2. Makine öğrenmesi algoritmaları

Yapay zekânın alt dallarından birisi olan makine öğrenmesi farklı öğrenim türleriyle ilişkili çok sayıda makine öğrenme algoritmasıyla çalışır. Her bir algoritma gerçek hayatta bir problemin çözümüne yardımcı olur. Makine öğrenmesi algoritmaları veri madenciliği süreci veya veri analitiği süreci dediğimiz sürecin kalbini oluşturur. Veri madenciliği ve makine öğrenmesi birbiriyle ayrılmaz ikili olup aralarındaki ilişki araç ve amaç ilişkisidir. Amaç veri madenciliği araç ise makine öğrenme algoritmalarıdır.

Makine öğrenmesi algoritmaları ile alışık olduğumuz algoritmalar arasında da aslında bir fark bulunur. Klasik algoritmaların en önemli özelliklerinden birisi açık, net, sonlu olması iken makine öğrenmesi algoritmalarında her zaman problemlerin çözümü için net ve sonlu çözümler olmayabilir. O nedenle klasik programlama yetenekleri ile çözülemeyen problemler, sıklıkla makine öğrenmesi algoritmaları olarak karşımıza çıkar.

Klasik programlama ve algoritmaların yetersiz kaldığı durumda karşımıza sezgisel algoritmalar çıkmaktadır. Dolayısıyla makine öğrenme algoritmalarının önemli bir kısmı sezgisel algoritmalar olarak karşımıza çıkmaktadır.

Makine öğrenme algoritmaları başlığında elbette çok fazla sayıda algoritma vardır fakat bu yazıda sık kullanılan makine öğrenme algoritmaları kabaca açıklanacaktır.

1.2.1. Doğrusal regresyon

Regresyon analizinin amacı, bağımsız değişkenlerdeki (x) değişime dayalı olarak bağımlı değişkendeki (y) değişimin açıklanmasıdır. Amacı giriş ve çıkış değişkenleri arasındaki ilişkiyi yakalamak olan regresyon analizi için nedenselliği (sebep-sonuç ilişkisi) açıklayan bir algoritmadır denebilir. Giriş ve çıkış değişkenleri arasında bir ilişki her halükarda bulunabilir fakat eğer bağımsız değişken(ler) bağımlı değişkendeki değişimi yeteri kadar açıklayabilirse ancak o zaman elde edilen model tahmin için kullanılabilir.

Regresyon analizinini tek giriş değişkeni ile tek çıkış değişkeni arasındaki ilişkiyi ifade eden sürümüne basit doğrusal regresyon (simple linear regression) adı verilir. Eğer giriş değişkeni birden fazla çıkış değikeni tek ise ona da çoklu doğrusal regresyon (multiple linear regression) adı verilir.

Regresyon analizi yardımıyla aşağıdaki türden bilgiler elde edilebilir.

· Öğrencinin derse katılımıyla dönem sonu başarısı arasındaki ilişkinin elde edilmesi.

· Demografik özellikler ile suç arasındaki ilişkinin elde edilmesi.

· Beslenme ile kanser arasındaki ilişkinin ölçülmesi.

Basit doğrusal regresyon aşağıdaki şekilde ifade edilebilir.

y = b₀ + b₁x ± є

Burada y, tahmin edilen çıktı değerini vermek üzere b₀başlangıç değerini, b₁ giriş değişkeni katsayısını, x giriş değerini, epsilon ise hata miktarını vermektedir.

Bağımlı değişken ile bağımsız değişken arasında çok sayıda regresyon modeli ortaya konabilir. Bunların en iyisinin hangisi olduğunu seçmede en küçük kareler yöntemi kullanılır. Gözlem değerleri (gerçek değerler) ile tahmin değerleri arasındaki farkların karesi toplamı hangi modelde en küçük ise o model seçilir. En küçük kareler yönteminin esası hatayı minimize eden modelin seçimidir.

Çoklu doğrusal regresyon ise aşağıdaki denklem ile sunulur.

y = b₀ + b₁x₁ + b₂x₂ + … + b_nx_n ± є

Basit doğrusal regresyon ile aradaki tek fark artan giriş değişkenlerinin sayıdır. Ayrıca basit doğrusal regresyon tek bir giriş değişkeni ile tek bir çıkış değişkeni arasındaki ilişkiye odaklanmışken çoklu doğrusal regresyon birden çok giriş değişkeni ile tek bir çıkış değişkeni arasındaki ilişkiye odaklanmıştır.

1.2.2. Lojistik regresyon

Doğrusal regresyon gibi amacı bir veya birden çok bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi modellemektir. Lojistik regresyonun doğrusal regresyondan farkı ise bağımlı değişkeninin sürekli değil kategorik türde olmasıdır.

Lojistik modelin parametreleri kolaylıkla yorumlanabilir ve matematiksel olarak kullanımı kolay fonksiyonlar üretilebilir. Lojistik modele dayalı analizleri yapabilmeyi sağlayan çok sayıda bilgisayar paket programı (SPSS, SAS, Tanagra vb.) mevcuttur.

Doğrusal regresyon bağımsız değişken(ler) ile bağımlı değişken arasında doğrusal bir ilişkinin bilindiği durumlar için uygundur. Lojistik regresyon ise bağımlı değişken ile bağımsız değişken(ler) arasındaki ilişkinin doğrusal olmadığı durumlar için uygundur. Doğrusal regresyon denkleminde hedef bağımlı değişkenin değerinin tahminidir. Lojistik regresyonda ise hedef bağımlı değişkenin olasılığıdır.

Doğrusal regresyon ile lojistik regresyon arasındaki formül açısından farklılık ise doğrusal regresyon formülünün sigmoid fonksiyonundan geçirilmesi sonucu lojistik regresyon denkleminin elde edilmiş olmasıdır.

1.2.3. Karar ağacı

Ham verilerden bir ağacın elde edildiği (ağaç tümevarımı yardımıyla) ve bu ağaca dayalı olarak yeni kayıtların sınıflara atandığı makine öğrenmesi algoritmasıdır. Bir karar ağacı, kararları ve karar almayı görsel ve açık bir şekilde temsil etmek için kullanılır.

Karar ağacı algoritmasında tahminci değişkenler düğümleri, hedef değişkenler yaprakları oluşturur ve model ağaç veri yapısı ile sunulur. Kökten yapraklara kadar bilgi kazancı metriğine dayalı olarak bölümleme yapılarak ağaç meydana getirilir.

Karar ağaçlarında kökten yapraklara kadar bölünmenin geri planında ağaç tümevarımı vardır. Ağaç tümevarımının ise en önemli dayanak noktası bilgi kazancı metriğidir. Bilgi kazancı bir düğümün bölünme kararıyla ilgilidir. N adet nitelikten oluşan bir veri setinde kth sıradaki düğünden (k+1)th sıradaki düğüme geçip geçmeme kararı aşağıdaki mantığa göre bilgi kazancı ile ölçülür.

Bilgi kazancı = (kth düğümün homojenlik değeri) – ((k+1)th düğümlerin toplam homojenlik değeri)

Bilgi kazancı eğer pozitif bir değerse ağaç yeni düğümlere bölünür, aksi takdirde ağaç yeni düğümlere bölünmez.

Homojenlik ölçümünde de gini index, entropy ve missclassification error gibi değerlere göre karar verilir.

1.2.4. Destek vektör makineleri

İleri seviye veri analizlerini bünyesinde toplayan veri madenciliği kendi içerisinde temelde iki gruba ayrılır. Bu gruplardan birisi açıklamalı modelleri diğeri ise tahmini modellerdir. Bu gruplama içerisinde destek vektör makineleri tahmini modeller grubuna girer. Her ne kadar sınıflandırma için de regresyon analizi için de teknikler içerse bile sıklıkla sınıflandırma maksadıyla kullanılır.

İlk olarak 1963 yılında Vladimir Vapnik ve Alexey Chervonenkis tarafından temelleri atılan algoritmanın gelişimi 1995 yılında Vladimir Vapnik, Berhard Boser ve Isabelle Guyon tarafından yapılan çalışma sayesinde olmuştur. Temel olarak doğrusal ayrılabilir uzayda sınıflandırma için geliştirilen algoritmanın amacı; iki boyutlu uzayda verileri ayıracak çizgileri, çok boyutlu doğrusal uzayda ise verileri ayıracak düzlemleri bulmaya çalışır. Asıl amacı doğrusal ayrılabilir uzaylar olsa da doğrusal olmayan verileri de ayıran algoritma bu amaçla kernel fonksiyonlarını kullanır.

Destek vektör makineleri parametrik olmayan sınıflayıcılardır. Bu nedenle; dağılım hakkında herhangi bir ön bilgiye sahip olmadığımız veri setlerinde de yüksek başarımlar elde etme olanağı sunar. Girdi verisi doğrusal olarak ayrılabildiğinde; verileri ayırabilecek sonsuz sayıdaki doğru içerisinden marjini en yüksek yapacak olan doğru seçimi yapmaya çalışılır. Eğer bütün verileri eksiksiz şekilde iki farklı sınıfa ayıran bir marjin elde edilebildiyse bunun adı Hard Marjin aksi takdirde Soft Marjin’dir. Girdi verileri doğrusal olarak ayrılamadığında ise orijinal çalışma verisini yüksek boyuta dönüştürmek için doğrusal olmayan haritalama kullanılır. Verinin taşındığı yeni boyutta marjini en büyük ayrıcı düzlem bulunmaya çalışılır.

Algoritmanın destek vektör makinesi adını almasının sebebi şudur. Karar yüzeyi adını verdiğimiz iki sınıfı birbirinden ayıran düzlemin iki tarafında farklı sınıflara ait veriler bulunur. Bu veriler üzerinden geçen vektörlere destek vektörleri, destek vektörlerini ayıran çizgi veya düzleme de destek vektör makineleri adı verilir.

Destek vektör makinesi için karar sınırı veya destek vektör makinesi wx+b=0 denklemi ile ifade edilebilir. Bu durumda destek vektörleri; wx+b=+1 ve wx+b=-1 olacaktır. Burada destek vektörleri arasındaki marjin genişliği 2/|w| olarak elde edilir. Destek vektör makineleri için birçok seçenek olmasına rağmen maksat marjinin maksimize edilmesi diğer ifadeyle w değerini minimize ve 2/|w| değerini maksimize etmedir.

1.2.5. Naïve Bayes algoritması

Makine öğrenmesi algoritmaları arasında olasılığa dayalı modeller kullanmak istediğimizde karşımıza naive bayes algoritması çıkar. Naive bayes algoritması bayes teoremine dayanır. Algoritma bir model öğrenmek yerine eğitim verileri yardımıyla olasılıklar öğrenir. Bu yönüyle k en yakın komşu algoritması gibi tembel öğrenici kategorisine girmektedi. Önemli özelliklerinden birisi ise diğer birçok algoritmasının aksine balans olmamış (dengesiz) veri kümelerinde de başarılı sonuçlar verebilmektedir.

Algoritmanın temel fikri sınıflandırılacak bir kaydın bütün sınıflar için olasılığının hesap edilmesi ve en yüksek olasılığı veren sıfına kaydın atanmasıdır. Algoritmanın en sorunlu olduğu durum test verileri içerisinde daha önce hiç meydana gelmemiş bir durum olduğunda meydana gelir. Sıfır frekans sorunu olarak da bilinen bu durumda test sınıfı için bayes değeri sıfır olarak hesap edilir ve atama gerçekleşmez.

Bugüne kadar başta istenmeyen postaların ayıklanması olmak üzere birçok problemde başarıyla kullanılmıştır. Az miktarda veriyle bile iyi sonuçlar verdiği de bilinmektedir. Bayes algoritmasının performansı yüksektir ve bunun nedeni sınıflandırma işlemlerinde yapılan işlemlerin karmaşıklık derecesinin düşük olmasıdır.

1.2.6. K en yakın komşu algoritması

Öncelikle k-NN algoritmasının ana felsefesi nedir kısmından başlamak gerekirse; k-NN (k en yakın komşu algoritması - k-nearest neighbor algorithm) bir nesnenin sınıfını o nesnenin en yakınındaki k nesneye bakarak tespit eden bir makine öğrenmesi algoritmasıdır. Peki bu yakınlık nasıl ifade ediliyor? Yakınlık geometrik bir yöntem olan öklidyen uzaklığı (euclidian distance) ile ifade ediliyor. Uzaklık ile yakınlık madem birbirinin tersidir o zaman en yakını bulmak için uzaklık değeri en düşük olan elemanlara bakacağız. En yakındaki k adet komşu bulunduktan sonra ise bulunan k tane komşunun sınıfına bakılır. Sınıf sayma yaparak komşular en çok hangi sınıftan ise test elemanın sınıfı da odur diyeceğiz.

k-NN algoritması diğer makine öğrenme algoritmalarından farklı olarak eğitim ve test aşamalarından oluşmaz. Bu durum naïve bayes algoritması için de geçerlidir. Yani bu algoritmada model inşa etme veya model öğrenme yoktur. O nedenle tembel öğrenici (lazy learner) olarak bilinir. Her seferinde yeniden ve doğrudan veri ile çalışıyor bu algoritmamız. Konunun anlaşılabilmesi için C dilinde örnek bir kodlama verilecektir. Kodlama anlaşılabilir olsun diye de adımlar şeklinde ele alınmıştır.

Adım 1. Kullanacağımız kütüphaneleri ekleriz

Uygulamamız C ile yazılacağı için #include bildirimi ile kütüphane ekleme yapacağız.

#include<stdio.h>

#include<conio.h>

#include<string.h>

#include<stdlib.h>

#include<math.h>

<stdio.h> kütüphanesi standart kütüphane olup printf(“mesaj”) gibi ifadeleri kullanabilmek için eklenmiştir.

<conio.h> klavyeden karakter değer alma, ekranı bekletme gibi fonksiyonları vardır. Sonuçları görene kadar ekran bekletme için kullanılmıştır.

<string.h> metinsel işlemler yapabilmek için eklenmiştir.

<stdlib.h> ve <math.h> ise matematiksel işlemler gibi diğer işlemler için eklenmiştir.

Adım 2. Bildirimleri ve değişken tanımlarını yaparız.

struct trainData

{

int k;

float SL;

float SW;

float PL;

float PW;

char label[15];

float sim;

};

struct trainData egitim[150];

struct trainData test;

trainData isimli structure yardımıyla kullanacağımız veri setinin (iris data) yapısı tanımlanır. Veri setinde yer alan satırlar aynı türde veriler içermediği için dizi yerine struct yapısı tercih edilmiştir. Tanımlanan tipten türetilmiş eğitim[] isimli struct dizisi elimizdeki 150 adet veriyi, test isimli struct yapısı ise sınıfını bulacağımız veriyi temsil etmek üzere tanımlanmıştır.

long double fark(float, float);

long double kare(float);

float similarity(struct trainData, struct trainData);

fark, kare, similarity gibi fonksiyonlar euclidian distance için kullanılacaktır.

FILE *oku;

FILE türünde tanımlanan oku isimli işaretçi ise dosyamız için mantıksal bir karşılık sağlayacaktır. İşlemler fiziksel dosya ile değil onun mantıksal sunumu olan oku üzerinden yapılacaktır.

Ayrıca;

int i,k,c,z;

// indis ve geri dönüş değerleri için tanımlanmıştır.

float attr[150][5];

// 4 tanesi özellik değerleri 1 tanesi sınıf olmak üzere

char str[15];

// dosyadan verileri parça parça okumak için

gibi değişken tanımlama ifadeleri yardımıyla da ihtiyaç duyulan diğer değişkenler tanımlanmıştır.

Adım 3. Dosya okuma ve diziye veri aktarmalarını yaparız.

oku=fopen("iris.txt","r");

if (oku!=NULL)

{

k=0;

{

egitim[k].k=k;