Makine Öğrenimi Terimleri: Algoritmalar, Örnekler ve Pratik

Giriş

Makine öğrenimi (ML), bilgisayarların açıkça programlanmadan veri yoluyla öğrenmesini sağlayan bir yapay zeka alanıdır. Genel tanımlar ve türler için SAP ve AWS gibi güvenilir kaynaklarda özetlenen temel ilkeler, bu alanın temellerini oluşturur (SAP, AWS).

Neden terimleri bilmek önemlidir?

Terimler, projeyi doğru planlamak, doğru algoritmayı seçmek ve model sonuçlarını anlamak için gereklidir. Aşağıda hem tanımsal hem de uygulamaya yönelik kısa açıklamalar ve örnekler bulacaksınız.

Temel terimler ve pratik örnekleri

Denetimli öğrenme (Supervised learning): Etiketli verilerle (girdi + doğru çıktı) eğitilen modellerdir. Sınıflandırma ve regresyon problemlerinde kullanılır. (Kaynak: AWS.) Örnek: E-posta gelen kutusunda spam/söz konusu olmayan mail ayrımı.
Denetimsiz öğrenme (Unsupervised learning): Etiket yokken örüntüleri keşfeder; kümeleme ve boyut indirgeme sık kullanılan yaklaşımlardır. Örnek: Müşteri segmentasyonu için k-means.
Takviyeli öğrenme (Reinforcement learning): Bir ajanın ödül sinyalleriyle çevre içinde optimal strateji öğrenmesidir. Oyun ve kontrol problemlerinde kullanılır.
Özellik mühendisliği (Feature engineering): Ham veriden model için anlamlı değişkenler oluşturma, seçme ve dönüştürme sürecidir. Doğru özellikler model performansını ciddi şekilde artırabilir (Kaynak: Tahliz).
Aşırı uyum (Overfitting): Modelin eğitim verisine fazla uyum sağlayıp yeni verilerde kötü performans göstermesidir; belirtileri yüksek eğitim doğruluğu ama düşük test doğruluğudur (Kaynak: Tahliz).
Model değerlendirme: Modelleri karşılaştırmak için doğruluk, precision/recall, F1, ROC-AUC gibi metrikler kullanılır. Bu terimler ve tanımlar için Google'ın makine öğrenimi sözlüğü faydalıdır (Google).
Çapraz doğrulama (Cross-validation): Veri setini birden çok katmana bölerek modelin genelleme yeteneğini daha güvenilir ölçme yöntemidir; k-fold en sık kullanılan yaklaşımdır.

Algoritma türleri ve örnek kullanım alanları

Algoritma	Kısa açıklama	Tipik kullanım
Lineer/Sigmoid regresyon	Basit, yorumlanabilir; doğrusal ilişkiler için uygundur.	Fiyat tahmini, temel sınıflandırma
Karar ağaçları, Random Forest	Tablolar üzerinde güçlü; eksik veriye dayanıklı ve yorumlanabilir.	Kredi skorlama, özellik önem sıralaması
Destek Vektör Makineleri (SVM)	Özellik uzayında sınır bulma; küçük-orta boy verilerde etkilidir.	Metin sınıflandırma, görüntü küçük ölçekli sınıflandırma
K-means, Hiyerarşik Kümeleme	Denetimsiz kümeleme yöntemleri.	Müşteri segmentasyonu
PCA (Başlıca Bileşen Analizi)	Boyut indirgeme; görselleştirme ve gürültü azaltma için kullanılır.	Özellik sıkıştırma, hız artırma
Sinir Ağları (Neural Networks)	Çok sayıda parametreyle karmaşık ilişkileri öğrenebilir; büyük veri ve hesaplama gücü gerektirir.	Görüntü/ses/metin işleme
Gradient Boosting (XGBoost, LightGBM)	Birçok tabular veri yarışmasında başarılı; iyi performans ve esneklik sağlar.	Tablolar üzerinde yüksek doğruluk gerektiren uygulamalar

Çapraz doğrulama: Kısa uygulama rehberi

Çapraz doğrulama, model seçiminde ve hiperparametre ayarlamada veri kaynaklı sapmaları azaltır. Kısa adımlar:

Veriyi rastgele karıştırın.
k'yı seçin (genelde 5 veya 10).
Her katmanda model eğitilip doğrulama skoru hesaplanır.
Tüm katmanların ortalaması modelin güvenilir skorunu verir.

Detaylı tanımlar ve terimler için Google'ın makine öğrenimi sözlüğü yönlendirici olabilir (Google Developers).

Aşırı uyumu önleme stratejileri

Daha fazla veri toplayın veya veri artırma (augmentation) kullanın.
Model karmaşıklığını azaltın (daha basit model, daha az parametre).
Regularizasyon uygulayın (L1/L2, dropout gibi).
Çapraz doğrulama ile gerçekçi performans tahmini yapın.
Erken durdurma (early stopping) uygulayarak eğitim sırasında doğrulama kaybı artınca eğitimi durdurun.

Pratik proje akışı ve kontrol listesi

Uygulanabilir kısa akış (başlangıç için):

Problemi tanımla: sınıflandırma mı, regresyon mu, yoksa keşif mi?
Veri toplama ve kalite kontrol: eksik/aykırı değer analizi.
Özellik mühendisliği: kategorik dönüşümler, tarih-ten çıkarımlar, ölçekleme.
Veriyi eğitim/test olarak ayır (ör. %80/%20) ve cross-validation planı hazırla.
Basit bir baseline model kur (ör. lojistik regresyon veya karar ağacı).
Modeli değerlendir, hiperparametre araması yap (grid/random search) ve sonuçları karşılaştır.
Seçilen modeli test setinde doğrula, deploy öncesi performans/kapsam kontrolleri yap.
Üretime alındıktan sonra izleme: veri kayması, performans düşüşü, geri kapsama kontrolü.

Sık yapılan hatalar ve kısa çözümleri

Veri sızıntısı (data leakage): Geleceğe dair bilgiyi eğitim sırasında kullanmaktan kaçının; özelliğin kaynağını doğrulayın.
Ölçekleme eksikliği: Özellikle SVM ve mesafe tabanlı algoritmalar için standardizasyon gereklidir.
Sınıf dengesizliği: Dengesiz veri için ağırlıklandırma, yeniden örnekleme (oversampling/undersampling) veya uygun metrikler kullanın.

Makine Öğrenimi Temel Terimleri: Algoritmalar ve Örnekler