
Ürün ekipleri model performansını çoğu zaman tek bir sayıya indirgemek ister: ROC AUC, F1, doğruluk (accuracy) ya da RMSE. Bu metrikler değerlidir; ancak iş KPI’ları (ör. gelir, maliyet, risk, elde tutma, müşteri memnuniyeti) ile aynı şey değildir. Model metriğindeki iyileşmenin iş KPI’ına otomatik yansımayabileceği; bu nedenle hedeflerin, kabul kriterlerinin ve canlı etki ölçümünün ayrıca tasarlanması gerektiği, Google’ın ML proje yönetimi rehberinde açıkça vurgulanır (Google Developers: Measuring success in ML projects).
Bu yazı, veri bilimi ile ürün/iş paydaşlarının aynı dili konuşabilmesi için model değerlendirme metriklerini iş KPI’larına eşleme sürecini adım adım bir çerçeveye oturtur.
Karışıklığı azaltmak için dört kavramı ayrı düşünün:
Pratik kural: KPI “neden”i, model metriği “nasıl”ı, kabul hedefi “ne zaman yeter”i, eşik ise “hangi noktada aksiyon”u temsil eder.
Modeliniz bir skor üretse bile, gerçek dünyada bir karar mekanizmasını tetikler: onayla/engelle, göster/gösterme, önceliklendir/geri sıraya at vb. Eşleme çalışması bu sorularla başlar:
Bu çıktılar, hangi metriğin “ana metrik” olacağına temel oluşturur.
Uygulamada en sık sorun, aynı anda her şeyi optimize etmeye çalışmaktır. Google rehberi, projeyi yönetilebilir ve kıyaslanabilir kılmak için tek bir ana metrik üzerinde uzlaşmayı; diğer önemli metrikleri ise “kabul hedefi/koruyucu metrik” gibi rollerle çerçevelemeyi önerir (Google Developers: Measuring success in ML projects).
Kabul hedefleri, “modeli canlıya almak için minimum çıta”dır. Tipik örnekler:
Not: Evrensel “doğru eşik” yoktur. Eşik, hata maliyeti ve operasyon kapasitesiyle birlikte belirlenir; canlıda ölçüm planı da bu çerçevenin parçasıdır (Google Developers: Measuring success in ML projects).
Aşağıdaki örnek tamamen temsilidir; amaç yöntemi somutlaştırmaktır.
İki eşik seçeneği düşünün:
Hesap:
Bu maliyet varsayımları altında Eşik A daha iyi görünür. Ancak “günde en fazla 60 inceleme yapabilirim” gibi bir kapasite kısıtı varsa, bu kez Eşik B (veya aradaki başka bir eşik) operasyonel olarak tek uygulanabilir seçenek olabilir. Bu nedenle eşik seçimi, teknik metrik + kapasite + maliyet üçlüsüdür.
Offline metrikler yön gösterir; fakat iş etkisi için kontrollü canlı ölçüm gerekir. Google rehberi bu ayrımı özellikle vurgular (Google Developers: Measuring success in ML projects). Metric tree ve etki/lift gibi kavramlar, uygulamalı eğitim içeriklerinde iş-metrik köprüsü olarak ele alınır (Coursera: Measure ML Impact & Business Value (course overview)).
Tanımlar ve formüller için scikit-learn dokümantasyonu referans alınabilir (scikit-learn: precision/recall/F-score support):
KPI eşlemesi açısından pratik yorum:
ROC AUC, farklı eşiklerde ayrıştırma gücünü özetler. Ancak pozitif sınıfın çok nadir olduğu senaryolarda, Precision-Recall eğrisi ve onun alanı (AUC-PR / auPRC) çoğu zaman daha bilgilendirici bir görünüm sağlayabilir. Bu tür değerlendirmeler (auROC/auPRC) ve eşik incelemesi, Vertex AI değerlendirme rehberinde ele alınır (Vertex AI: Evaluate classification/regression models).
Aynı model, farklı eşiklerde bambaşka bir iş davranışı üretir. Bu yüzden eşik seçimi, KPI eşlemesinin merkezindedir:
Eşik ve dilim bazlı değerlendirme yaklaşımı için bkz. (Vertex AI: Evaluate classification/regression models).
Regresyon modellerinde metrik seçimi, “hata”nın işte nasıl maliyet yarattığına bağlıdır:
Not: İş maliyeti asimetrikse (örn. “eksik tahmin” ile “fazla tahmin”in maliyetleri farklıysa), tek bir özet metrik yerine asimetrik maliyeti yansıtan karar kuralı veya özel bir kayıp yaklaşımı daha uygun olabilir.
| İş hedefi / KPI | Yakın model metrikleri | Eşik ve süreç notu |
|---|---|---|
| Risk azaltma (kaçırılan kritik olay maliyeti yüksek) | Recall, AUC-PR (auPRC) | Düşük eşik daha çok yakalama sağlar; FP artışının operasyon maliyetini ayrıca modelleyin (Vertex AI: Evaluate classification/regression models). |
| Müşteri deneyimi (haksız engelleme/yanlış alarm maliyeti yüksek) | Precision, F-beta (precision ağırlıklı) | Yüksek eşik daha az yanlış alarm; FN riskini kabul hedefleriyle sınırlayın (Google Developers: Measuring success in ML projects). |
| Manuel inceleme maliyeti / operasyon kapasitesi | Seçilen kayıt sayısı, precision@k | “Günde N kayıt” gibi kapasite hedefi eşik ayarını belirler; dilim bazında izleyin (Vertex AI: Evaluate classification/regression models). |
| Gelir/CTR gibi optimizasyon KPI’ları (sıralama/öneri etkisi) | Offline proxy metrikler + online deney | Offline metrikler yön gösterir; KPI doğrulaması için kontrollü rollout/deney gerekir (Google Developers: Measuring success in ML projects). |
Jeneratif sistemlerde “tek doğru cevap” her zaman tanımlı değildir. Kalite, fayda, güvenlik, üslup ve görev başarısı gibi boyutlar birlikte değerlendirilir; bu da tek bir offline metriği doğrudan tek bir iş KPI’ına bağlamayı zorlaştırabilir.
Pratik yaklaşım: Önce ürün seviyesinde ölçülebilir ara hedefler (ör. görev tamamlama oranı, kullanıcı geri bildirimi, belirli hata türlerinin sıklığı) tanımlayın; sonra kontrollü ölçümle bunların KPI üzerindeki etkisini doğrulayın. Metric tree ve deney/lift kavramlarının uygulamalı anlatımı için bkz. (Coursera: Measure ML Impact & Business Value (course overview)).
Model metriklerini iş KPI’larına eşlemek; karar maliyetlerini yazma, ana metriği belirleme, kabul hedefleri koyma, eşik ve dilim analizleriyle güvence alma ve en sonunda canlı ölçümle etkiyi doğrulama sürecidir. Başarı ölçümünün model doğruluğundan daha geniş bir çerçeve olduğu, Google’ın proje rehberinde özellikle vurgulanır (Google Developers: Measuring success in ML projects).
Yorumlar