Neden bu ayrım karar vericiler için kritik?
Denetimli vs denetimsiz öğrenme sorusu teknik bir detay gibi görünse de proje bütçesini, zaman çizelgesini ve başarı ölçütlerini doğrudan etkiler. Denetimli öğrenme genellikle etiketli veri gerektirir (ör. “bu işlem dolandırıcılık mı?”), denetimsiz öğrenme ise etiket olmadan verideki yapıları keşfetmeye odaklanır (ör. müşteri segmentleri). Bu fark; veri toplama maliyeti, ekip yetkinlikleri, modelin nasıl değerlendirileceği ve üretimde nasıl izleneceği gibi konuları belirler.
Bu yazı; kavramsal ayrımı netleştirir, tipik kullanım senaryolarını listeler ve pratik bir seçim çerçevesi sunar. Tanımlar ve örnekler, yaygın referanslara dayalıdır (Stanford CS229; scikit-learn User Guide).
Hızlı tanımlar (makine öğrenimi terimleri)
Denetimli öğrenme (supervised learning)
Denetimli öğrenmede model, girdi (X) ile etiket (y) arasındaki ilişkiyi öğrenir ve yeni X’ler için y tahmini yapar. Tipik görevler sınıflandırma ve regresyondur (Stanford CS229).
- Sınıflandırma: Spam e-posta tespiti, müşteri kaybı (churn) olasılığı, tıbbi görüntüden sınıf tahmini.
- Regresyon: Talep tahmini, teslimat süresi tahmini, fiyat tahmini.
Denetimsiz öğrenme (unsupervised learning)
Denetimsiz öğrenmede veri etiketsizdir; model verinin içindeki örüntüleri/yapıları keşfetmeye çalışır. En yaygın örnekler kümeleme (clustering) ve boyut indirgeme (dimensionality reduction) teknikleridir (scikit-learn User Guide).
- Kümeleme: K-means ile benzer müşterileri gruplama.
- Boyut indirgeme: PCA ile yüksek boyutlu veriyi daha az bileşene indirip görselleştirme/ön işleme.
Not: “Denetimsiz öğrenme” teriminin sınırları akademide tartışılabilir; bazı yaklaşımlarda eğitim sinyali verinin içinden türetilen kısıtlar/ön görevler üzerinden gelir (arXiv:1904.03259).
Hangi durumda hangisini seçmelisiniz? (kısa karar ağacı)
1) Tahmin etmek istediğiniz “etiket” tanımlı mı?
- Evet → Denetimli öğrenme genellikle ilk adaydır (Stanford CS229).
- Hayır → Denetimsiz öğrenme ile keşif, segmentasyon veya temsil/özellik çıkarımı daha uygun olabilir (scikit-learn User Guide).
2) Etiket üretebiliyor musunuz (maliyet, süre, doğrulama)?
- Etiket üretimi pahalı ya da yavaşsa: denetimsiz ön adımlar, yarı-denetimli veya öz-denetimli (self-supervised) stratejiler gündeme gelebilir (Stanford CS229). Gartner’ın özet yazısı da makine öğrenimini farklı türlerde konumlandırır ve yaklaşım seçiminin probleme/bağlama göre değiştiğini çerçeveler (Gartner).
3) Başarıyı nasıl ölçeceksiniz?
- Denetimli: Net metrikler (ör. doğruluk, F1, RMSE) tanımlamak görece kolaydır (Stanford CS229). Daha ayrıntı için: Model değerlendirme metrikleri.
- Denetimsiz: “Doğru cevap” olmadığı için değerlendirme daha çok iş hedefiyle (ör. segmentlerin kampanya performansı) veya yardımcı metriklerle yapılır; bu da proje tasarımını kritik hale getirir (scikit-learn User Guide).
Pratik kural: Güvenilir etiketli veri varsa denetimli bir “baseline” kurmak çoğu ekip için hızlı öğrenme sağlar; etiketler yoksa denetimsiz keşif ve veri hazırlığı, sonraki denetimli aşamaların netleşmesine yardımcı olur.
Denetimli öğrenme: Ne zaman güçlü bir seçim?
Tipik iş problemleri
- Risk skorlama: Dolandırıcılık, kredi riski, ters ibraz olasılığı.
- Müşteri analitiği: Churn, upsell olasılığı, yaşam boyu değer tahmini (LTV).
- Operasyon: Talep tahmini, envanter optimizasyonu için girdi üretimi, arıza tahmini.
Avantajlar
- Hedef netliği: “Model neyi optimize ediyor?” sorusu daha nettir (Stanford CS229).
- Ölçülebilirlik: Offline test/validasyon çerçevesi daha standardize edilebilir.
- Üretime taşıma: İzleme metrikleri (tahmin hatası, kalibrasyon) daha doğrudan kurulabilir.
Sınırlamalar
- Etiket bağımlılığı: Etiket üretimi pahalı, yavaş veya tutarsız olabilir.
- Dağılım kayması: Veri zamanla değiştiğinde performans düşebilir; izleme ve yeniden eğitim planı gerekir.
Denetimsiz öğrenme: Ne zaman mantıklı?
Tipik kullanım senaryoları
- Segmentasyon: Müşteri grupları, içerik kümeleri, davranış profilleri.
- Anomali keşfi: “Normal” davranışı öğrenip sapmaları işaretlemek (senaryoya göre hibrit yaklaşım gerekebilir).
- Boyut indirgeme: PCA gibi yöntemlerle gürültüyü azaltmak, görselleştirmek veya denetimli modele giriş özelliklerini iyileştirmek (scikit-learn User Guide).
- Özellik çıkarımı / temsil öğrenme: Denetimli modele daha iyi giriş temsilleri üretmek (Stanford CS229; scikit-learn User Guide).
Avantajlar
- Etiket gerektirmemesi: Keşif ve başlangıç analizinde hızlı bir başlangıç sağlayabilir.
- Veriyi “anlama”: Veri kalitesi sorunlarını (aykırı değerler, beklenmedik kümeler) erken görünür kılabilir.
Sınırlamalar
- Değerlendirme zorluğu: Kümeler teknik olarak “iyi ayrışmış” görünse bile iş hedefiyle örtüşmeyebilir.
- Yorumlama riski: Sonuçların aksiyona dönüşmesi için alan bilgisi gerekir; aksi halde sadece görselleştirme olarak kalabilir.
Karışık yaklaşımlar: Yarı-denetimli ve öz-denetimli stratejiler
Pratikte “sadece denetimli” veya “sadece denetimsiz” yaklaşım yerine, ikisini birleştiren desenler sık görülür: etiketsiz veriyle temsiller/özellikler hazırlayıp, az etiketli veriyle hedefe yönelik modeli eğitmek (Stanford CS229). Bu çerçeve, “denetimsiz” teriminin neden bazen tartışmalı bulunduğunu da açıklar: bazı yöntemlerde denetim sinyali dışarıdan değil, verinin kendisinden türetilir (arXiv:1904.03259).
- Yarı-denetimli: Az etiket + çok etiketsiz veri ile eğitim (yaklaşım seçimi probleme göre değişir).
- Öz-denetimli: Etiket yerine veriden türetilen “ön görevler” ile temsil öğrenme; ardından denetimli ince ayar.
Uygulamada başarıyı belirleyen kısım: Veri ön işleme ve özellik mühendisliği
Birçok projede algoritma seçiminden önce, veriyi modellemeye uygun hale getirmek önemli zaman ve efor gerektirir: eksik değer stratejileri, kategorik değişken kodlama, ölçekleme, metin/vektörleştirme ve uçtan uca boru hattı (pipeline) kurma gibi (scikit-learn User Guide). Özellikle tekrar üretilebilirlik için pipeline yaklaşımı kritik bir pratik olarak öne çıkar (scikit-learn User Guide).
Denetimli ve denetimsiz için ortak “minimum” veri kontrol listesi
- Hedef tanımı (denetimli için): Etiket hangi anda ölçülüyor? Zaman çizelgesinde karışma var mı?
- Eksik değerler: Silme mi, istatistiksel doldurma mı, ayrı “eksik” kategorisi mi?
- Ölçekleme: K-means, PCA gibi yöntemler ölçekten etkilenir; standardizasyon/min-max gibi seçenekleri değerlendirin (scikit-learn User Guide).
- Kategorik kodlama: One-hot, ordinal kodlama gibi seçeneklerin modele etkisini test edin.
- Veri sızıntısı (leakage) kontrolü: Etiket sonrası oluşan bilgiyi modele girdi olarak vermeyin. İlgili rehber: Veri sızıntısı (leakage) nedir?
- Pipeline: Ön işleme + model adımlarını tek akışta kurup eğitim/validasyon ayrımında tutarlılık sağlayın (scikit-learn User Guide).
Özellik mühendisliği: Ne zaman gerekli, ne zaman azaltılabilir?
Özellik mühendisliği; ham veriyi daha sinyal taşıyan değişkenlere dönüştürme pratiğidir. Bazı model aileleri bu ihtiyacı azaltabilir; ancak özellikle tabular (tablo) veride iyi tasarlanmış özellikler hâlâ belirleyici olabilir. Ekip kapasitesi sınırlıysa şu akış çoğu durumda işe yarar:
- Baseline kurun: Basit bir model + temel ön işleme ile referans performans oluşturun.
- En pahalı veriyi erken test edin: Etiket veya kritik özellikler pahalıysa, küçük örneklemde değerini ölçün.
- Özellik adaylarını küçük deneylerle eleyin: Her ek özelliğin katkısını mümkün olduğunca izole edin.
Model seçimi: Karar vericiler için pratik bir çerçeve
Model seçimi çoğu zaman “en karmaşık model” demek değildir. Öğretici bir başlangıç kuralı olarak, veri azsa ve gürültü fazlaysa daha basit ve düzenlileştirilmiş modeller; veri büyüdükçe ve ilişkiler karmaşıklaştıkça daha esnek modeller tercih edilebilir. Bu, mutlaka deneysel doğrulama gerektiren genel bir sezgidir (Stanford CS229).
Denetimli tarafta hızlı seçim ipuçları
- Yorumlanabilirlik önemliyse: Doğrusal modeller, basit ağaç tabanlı yöntemler; ayrıca açıklanabilirlik araçları.
- Performans kritikse: Tabular veride gradient boosting gibi güçlü yöntemler veya probleme uygun derin öğrenme.
- Operasyonel kısıtlar: Gecikme (latency), maliyet, güncelleme sıklığı ve veri erişimi.
Denetimsiz tarafta hızlı seçim ipuçları
- Segmentasyon: K-means başlangıç için yaygın; ancak ölçekleme ve küme sayısı seçimi dikkat ister (scikit-learn User Guide).
- Boyut indirgeme: PCA, veri keşfi ve bazı ön işleme senaryolarında yararlı olabilir (scikit-learn User Guide).
Değerlendirme ve başarı kriterleri
Denetimli öğrenmede metrik seçimi
- Sınıflandırma: Accuracy tek başına yanıltıcı olabilir; dengesiz sınıflarda F1, ROC-AUC, PR-AUC gibi metrikler daha anlamlı olabilir.
- Regresyon: MAE/RMSE gibi hata metrikleri; iş etkisini yansıtan eşik bazlı metrikler.
- Validasyon tasarımı: Zaman serilerinde rastgele bölmek yerine zaman bazlı ayrım gerekebilir.
Denetimsiz öğrenmede “ne iyi?” sorusu
Denetimsizde değerlendirme çoğu zaman iki katmanlıdır:
- İç metrikler: Örn. küme ayrışmasını ölçen skorlar (her problem için uygun olmayabilir).
- Dış/iş metrikleri: Segmentlerin kampanya tepkisi, anomali uyarılarının operasyonel değeri gibi.
Bu nedenle denetimsiz bir projede, başlangıçtan itibaren “çıktı nasıl kullanılacak?” sorusunu netleştirmek gerekir; aksi halde sonuçlar aksiyona dönüşmeyebilir.
Karşılaştırma tablosu: Denetimli vs denetimsiz
| Kriter |
Denetimli öğrenme |
Denetimsiz öğrenme |
| Girdi |
Etiketli veri (X, y) |
Etiketsiz veri (X) |
| Amaç |
Tahmin (sınıflandırma/regresyon) |
Yapı keşfi (kümeleme, boyut indirgeme) |
| Başarı ölçümü |
Daha doğrudan metriklerle |
Daha dolaylı; iş etkisiyle birlikte |
| Ana maliyet sürücüsü |
Etiket toplama + veri hazırlığı |
Problem çerçevesi + yorumlama + veri hazırlığı |
| Tipik çıktı |
Skor/etiket tahmini |
Kümeler, bileşenler, temsiller |
Kurumsal gerçeklik: Değer nereden geliyor?
Birçok kurumda kısa vadeli ölçülebilirlik nedeniyle denetimli kullanım senaryolarıyla başlamak daha yaygın olabilir; çünkü KPI’lara bağlamak ve A/B gibi deneylerle etki ölçmek daha kolaydır. Ancak bu, her durumda denetimli yaklaşımın “daha yüksek ekonomik değer” ürettiği anlamına gelmez; değer, kullanım senaryosu ve operasyonel entegrasyonla belirlenir.
Gartner’ın özet içeriği, makine öğrenimini üç temel tür (denetimli, denetimsiz, pekiştirmeli) olarak sınıflandırır ve yaklaşım seçiminin probleme göre değiştiğini anlatır (Gartner). Bu yazıda, Gartner kaynağı bir sınıflandırma/çerçeve referansı olarak kullanılmış; sayısal pazar payı veya gelir iddiası kurulmamıştır.
İki örnek yol haritası (saha pratiğine yakın)
Örnek 1: Churn (müşteri kaybı) tahmini
- Etiketi tanımla: “30 gün içinde aboneliği iptal eden” gibi net bir tanım.
- Veri pencerelerini ayır: Etiket sonrası olayları girdi özelliklerine sokmamak için zaman penceresi kurgula (veri sızıntısı riskini azaltmak için).
- Baseline: Basit bir model + temel ön işleme.
- Özellik mühendisliği: Kullanım sıklığı, son etkileşim zamanı, ürün içi davranış özetleri.
- Üretim: Skorların aksiyona dönüşeceği süreç (kampanya, müşteri başarısı) ile entegre et.
Örnek 2: Müşteri segmentasyonu + denetimli kampanya hedefleme
- Denetimsiz başlangıç: K-means/PCA ile segment adayları üret (ölçekleme dahil) (scikit-learn User Guide).
- Segmentleri doğrula: Her segmentin ürün kullanımı ve gelir/retansiyon profili farklı mı?
- Hedef tanımla: “Kampanyaya yanıt” gibi etiket oluşturabiliyorsan denetimli modele geç.
- Hibrit yaklaşım: Segment ID’lerini veya PCA bileşenlerini denetimli modele özellik olarak eklemeyi test et.
Uygulama öncesi son kontrol: Karar verici kontrol listesi
- Problem tanımı: Tahmin mi (denetimli) yoksa keşif mi (denetimsiz)?
- Etiket stratejisi: Etiket üretimi mümkün mü, kalite nasıl denetlenecek?
- Değerlendirme planı: Offline metrik + online/iş etkisi ölçümü nasıl yapılacak?
- Veri hazırlığı sahipliği: Ön işleme ve pipeline kimde, nasıl versiyonlanacak?
- Operasyon planı: İzleme, yeniden eğitim, veri kayması alarmı.
Sonuç
Denetimli öğrenme, etiketli veriyle ölçülebilir hedefler sunduğu için birçok senaryoda hızlı ilerleme sağlar. Denetimsiz öğrenme ise etiket olmadan keşif, segmentasyon ve temsil üretimiyle hem tek başına fayda sağlayabilir hem de denetimli projelerin veri hazırlığını ve model girişlerini iyileştirebilir (Stanford CS229; scikit-learn User Guide). En iyi seçim, verinizin gerçekliği (etiket maliyeti dahil), başarı ölçütleriniz ve çıktıyı kullanacak operasyonel süreçlerinizle birlikte yapılır.
Kaynakça
Yorumlar