Sentetik Veri Üretimi: YData, Gretel ve Privacy-Preserving ML 2026
Sentetik veri nedir? Gerçek veri kümelerinin istatistiksel dağılımını, korelasyon yapısını ve domain kısıtlarını koruyarak üretken modellerle (GAN, VAE, diffusion, LLM) yeniden üretilen, tek bir bireye geri-ilişkilendirilemeyen yapay veri kümesidir. 2024-2026 döneminde KVKK denetimlerinin sıkılaşması, GDPR Article 25 (privacy by design) yaptırımları ve ABD eyalet düzeyi yasaların (CPRA, CTDPA, VCDPA) yayılması, kurumsal ML ekiplerini eğitim verisini ham haliyle paylaşmaktan vazgeçirdi. Gartner’ın 2024 “Hype Cycle for Privacy” raporuna göre 2026 itibarıyla AI projelerinin tahminî %60’ı en az bir aşamada sentetik veri kullanacak; 2021’de bu oran %1 seviyesindeydi. YData Synthetic, Gretel, MOSTLY AI ve Tonic gibi sağlayıcılar bu boşluğu doldurmak için fidelity (sadakat), utility (faydalılık) ve privacy (gizlilik) üçgenini ölçülebilir hâle getirdi.
Bu yazıda sentetik veri üretiminin teknik temellerini, YData ve Gretel başta olmak üzere önde gelen platformların karşılaştırmasını, differential privacy ile entegrasyonunu, üretim pipeline’larında karşılaşılan tipik hataları ve 2026 itibarıyla privacy-preserving ML için pratik karar çerçevesini ele alıyoruz. Hedef kitle: veri bilimi liderleri, ML platform mühendisleri, KVKK/uyum sorumluları ve regüle sektörlerde (fintech, sağlık, telco) PoC yöneten ekipler.
Sentetik Veri Nedir, Anonimleştirmeden Farkı Ne?
Klasik anonimleştirme (k-anonymity, l-diversity, t-closeness) gerçek satırları maskeleyerek korur; ancak Sweeney’nin 2000’li yıllardaki ünlü Massachusetts valisi çalışmasından bu yana defalarca gösterildi ki, yeterli quasi-identifier kombinasyonu ile re-identification riski yüksek kalır. NIST’in NISTIR 8053 raporu k-anonymity’nin tek başına yetersiz olduğunu net biçimde belgeledi. Sentetik veri ise satır-bazlı eşleme yerine, kaynak dağılımı öğrenen bir generative model çıktısıdır; teorik olarak hiçbir sentetik satır gerçek bir bireye karşılık gelmez.
İdeal sentetik veri kümesi üç eksende ölçülür: fidelity (marginal ve joint dağılımların gerçek veriye yakınlığı, KS-test, Wasserstein distance, correlation matrix delta), utility (TSTR — Train Synthetic Test Real metriği; sentetik üzerinde eğitilen modelin gerçek test setindeki AUC/F1 düşüşü), privacy (membership inference attack başarı oranı, DCR — Distance to Closest Record, ε-differential privacy garantisi).
| Yaklaşım | Re-ID Riski | Utility Kaybı | Yasal Kapsam | Tipik Kullanım |
|---|---|---|---|---|
| Pseudonymization (hash, tokenize) | Yüksek (key sızıntısı) | Çok düşük (~%2) | GDPR Art.4(5) — hâlâ kişisel veri | Internal analytics |
| K-anonymity (k≥5) | Orta (auxiliary join ile yüksek) | %10-25 (generalization) | Kısmî — quasi-identifier seçimi kritik | Yayınlanan istatistik raporları |
| Differential Privacy (ε=1) | Düşük (matematiksel garanti) | %15-40 (noise injection) | Tam — formal proof | Aggregate query, US Census 2020 |
| Synthetic Data (GAN/VAE, no DP) | Düşük-orta (memorization riski) | %5-20 (TSTR delta) | Belirsiz — vendor garantisi | ML training, test data |
| Synthetic Data + DP (ε≤5) | Çok düşük | %10-30 | Güçlü — DP garantisi taşınır | Regüle sektör paylaşımı |
2024’te ENISA’nın “Data Protection Engineering” raporu, sentetik veri + DP kombinasyonunun GDPR’ın “fully anonymous data” eşiğine yaklaşan tek pratik yöntem olduğunu vurguladı; saf GAN çıktısının hâlâ kişisel veri sayılma riski olduğunu belirtti.

Generative Model Aileleri: GAN, VAE, Diffusion, LLM-tabular
Tabular sentetik veri üretimi için dört ana model ailesi yarışıyor. Her birinin tipik veri tipinde (kategorik, sürekli, mixed, time-series) güçlü ve zayıf yanları var.
- CTGAN / TVAE (2019, NeurIPS): Xu et al. tarafından geliştirilen, mode-specific normalization ile sürekli değişkenlerin multi-modal dağılımını yakalayan referans model. Avantaj: kategorik ağırlıklı tablolarda güçlü, açık kaynak (SDV kütüphanesi). Dezavantaj: 100+ kolonda training instability, eğitim 30-90 dk (orta tablo). Ne zaman seç: ≤50 kolon, ≤1M satır, mixed-type tablo.
- CTAB-GAN+ (2022): CTGAN’in long-tail ve skewed dağılım sorunlarını iyileştiren versiyon; ödeme tutarı, sigorta tazminat gibi log-normal değişkenlerde ~%15 fidelity artışı raporlandı.
- TabDDPM (2023, ICML): Diffusion-based tablo modeli; Kotelnikov et al. CTGAN’e göre ortalama %30 daha düşük utility loss bildirdi. Avantaj: en yüksek fidelity. Dezavantaj: training maliyeti CTGAN’in 3-5 katı, GPU gerekli.
- LLM-based (GReaT, 2023; TabuLa, 2024): Pre-trained LLM’i tabular satır = string token dizisi olarak fine-tune eden yaklaşım. Few-shot sentetik üretimde güçlü; ancak inference maliyeti yüksek, 1M satır üretim saatler sürebilir.
- Bayesian Networks / Copulas: Klasik istatistik yaklaşımı; küçük tablolarda (<100K satır) CPU üzerinde dakikalar içinde sonuç verir, açıklanabilir; ancak yüksek-boyutlu non-linear ilişkilerde yetersiz.
YData Synthetic: Açık Kaynak Lider
YData Synthetic (GitHub’da yaklaşık 1.4K star, 2024 sonu itibarıyla), Portekiz merkezli YData’nın PyPI paketi (ydata-synthetic). CTGAN, TVAE, CGAN, WGAN-GP ve time-series için TimeGAN, DoppelGANger sarmalayıcılarını tek API altında sunar. Sürüm 1.3.x serisi 2024’te Pydantic 2 desteği ve fabric entegrasyonu getirdi.
Mimaride RegularSynthesizer ve TimeSeriesSynthesizer sınıfları, ModelType enum’u ile model seçimi ve fit_sample() pattern’i benimsendi. Eğitim sonrası model pickle ile diske yazılır; üretim aşamasında stateless inference. YData’nın ticari ürünü Fabric ise sentetik veri üretiminin yanında veri kalitesi profilleme (ydata-profiling — eski pandas-profiling, ~12K star) ve drift monitoring sunar.
| Bileşen | Lisans | Tipik Tablo Boyutu | Hız (1M satır) | Privacy Modu |
|---|---|---|---|---|
| ydata-synthetic (OSS) | MIT | ≤5M satır, ≤200 kolon | 20-60 dk (1 GPU) | DP yok, yalnız fidelity |
| ydata-profiling | MIT | ≤10M satır | 1-5 dk (CPU) | Yok (rapor aracı) |
| YData Fabric (SaaS) | Ticari, tahminî $1.5-5K/ay | Sınırsız (cluster) | 5-15 dk (managed) | DP opsiyonel, audit log |
| YData Fabric (on-prem) | Enterprise, fiyat sorulur | Sınırsız | Müşteri donanımı | DP + air-gapped |
Pratik bir YData örneği — Türkiye’de bir orta ölçekli bankanın kredi başvuru tablosu (yaklaşık 800K satır, 64 kolon: mixed-type) için CTGAN ile 45 dk eğitim, ardından 100K sentetik satır üretimi 3 dk; KS-test ortalaması 0.04 (ideal <0.05), TSTR AUC delta 0.018 (model 0.84 → 0.822) seviyesinde sonuç verir. Önemli ipucu: discrete_columns parametresine TÜM kategorik kolonları (boolean dahil) açıkça vermek, mode collapse riskini düşürür.
Gretel: Cloud-Native Privacy Platform
Gretel.ai (San Diego, 2019 kuruluşlu, Crunchbase’e göre $67M total funding) cloud-first model benimsedi. Üç ana ürün: Gretel Tabular (LSTM ve ACTGAN tabanlı), Gretel Transform (NER + classification ile PII tespit + redaction), Gretel Navigator (LLM-tabanlı sentetik üretim, 2024 GA). Gretel SDK Python ile gretel_client üzerinden çağrılır; eğitim ve inference Gretel Cloud’da gerçekleşir, müşteri verisi opsiyonel olarak müşterinin VPC’sinde işlenebilir (Hybrid Cloud SKU).
Gretel’in farkı, Synthetic Quality Score (SQS) adında 0-100 arası birleşik bir metrik raporlamasıdır; field correlation, deep structure ve column-wise distribution stability’nin ağırlıklı ortalamasıdır. SQS ≥80 production-ready kabul edilir. Ek olarak Privacy Protection Level (PPL) raporu DCR ve NNDR (Nearest Neighbor Distance Ratio) bazlı sınıflandırma yapar.
- Avantaj: Managed servis, dakikalar içinde kurulum, çoklu model otomatik seçim, audit trail.
- Dezavantaj: Vendor lock-in, hassas veride cloud onayı KVKK için ek değerlendirme gerektirir, fiyat GA pricing’e göre $295/ay başlangıç tahminî üst plana doğru hızla artıyor.
- Ne zaman seç: Hızlı PoC, ML platform ekibi küçük, regüle ama cloud onaylı sektör (US fintech, modern SaaS).
- Ne zaman kaçın: Veri yurt-içi kalmak zorunda, on-prem GPU mevcut, derin model özelleştirme gerekli.

Differential Privacy ile Entegrasyon
Differential Privacy (DP), Dwork ve Roth’un 2014’teki temel monografisinde formalleştirilen, bir sorgu sonucunun tek bir bireyin veri kümesinde olup olmamasına göre matematiksel olarak sınırlı miktarda değişebileceğini garanti eden çerçevedir. ε (epsilon) bütçesi ne kadar küçükse koruma o kadar güçlü; tipik production değerleri ε ∈ [1, 10]. US Census Bureau 2020 nüfus sayımı sonuçlarını ε=19.61 ile yayımladı; akademik standartlar ε≤3 önerir.
DP-GAN, DP-SGD (Abadi et al., 2016) optimizer’ı ile eğitilir: her batch gradient’ine clip + Gaussian noise eklenir. Sonuç: model parametreleri DP garantisi taşır ve post-processing teoreminden ötürü tüm sentetik çıktılar da aynı ε garantisini miras alır.
| Kütüphane | DP Mekanizması | Tablo Desteği | Tipik ε Önerisi | Hız Etkisi |
|---|---|---|---|---|
| Opacus (Meta) | DP-SGD | Custom model wrap | 1-8 | ~2-3x yavaşlama |
| TensorFlow Privacy | DP-SGD + RDP accountant | Keras model wrap | 1-10 | ~2-4x yavaşlama |
| SmartNoise SDK (OpenDP) | Laplace, Gaussian, exponential | SQL + tabular | 0.5-5 | Sorgu bazlı, %20-50 |
| Gretel DP mode | DP-SGD (managed) | Otomatik | 1-10 (UI seçim) | ~2x yavaşlama |
| YData + Opacus (manuel) | DP-SGD entegrasyon | Mümkün, custom kod | 1-8 | ~3x yavaşlama |
Pratik kural: ε=1 “akademik altın standart”, ε=3 “üretim için iyi denge”, ε=10 “zayıf ama bazı şeylerden iyi”. KVKK kapsamında henüz spesifik bir ε eşiği yok; ancak veri sorumlusu olarak DP kullanımı, sentetik veriyi “kişisel veri olmaktan çıkarma” argümanını güçlendirir — yine de bireysel risk değerlendirmesi şart.
YData vs Gretel vs MOSTLY AI vs Tonic: Karşılaştırma
Sentetik veri pazarında dört oyuncu öne çıkıyor: YData (OSS güçlü, ticari büyüyor), Gretel (cloud-first, geniş ekosistem), MOSTLY AI (Avusturya, enterprise odaklı, 2017 kuruluş), Tonic.ai (test data odaklı, dev experience iyi). Aşağıdaki tablo 2024-2026 dönemine ait kamuya açık bilgilere ve vendor docs’a dayanır; fiyatlar yaklaşık ve müzakereye açıktır.
| Kriter | YData | Gretel | MOSTLY AI | Tonic.ai |
|---|---|---|---|---|
| OSS sürüm | Var (MIT) | Kısmî (gretel-synthetics) | Yok | Yok |
| Tabular fidelity (TSTR delta) | 0.02-0.04 | 0.015-0.03 | 0.01-0.025 | 0.02-0.04 |
| Time-series | TimeGAN, DoppelGANger | DGAN | TimeMOSTLY | Sınırlı |
| Differential Privacy | Manuel (Opacus) | Managed DP-SGD | Managed DP | Sınırlı |
| Multi-tablo (referential integrity) | Sınırlı | Relational beta | Multi-table güçlü | Subsetter güçlü |
| Deployment | Self-host, SaaS, on-prem | Cloud, Hybrid | Self-host, SaaS | SaaS, self-host |
| Başlangıç fiyat (yaklaşık) | OSS bedava, Fabric $1.5-5K/ay | $295/ay developer | Enterprise quote | $199/ay starter |
| Türkiye/KVKK uyum kolaylığı | Yüksek (self-host) | Orta (cloud onay) | Yüksek (on-prem) | Orta |
Karar matrisi:
- Maliyet sıfır, ML ekibi güçlü, veri yurt-içi kalsın: ydata-synthetic + Opacus (DP) self-host.
- Hızlı PoC, US/EU cloud kabul: Gretel — 1 günde demo.
- Enterprise on-prem, multi-tablo, GDPR sıkı: MOSTLY AI.
- Dev/test environment için anonim copy: Tonic.ai — subsetter + masking güçlü.
Bu seçim sürecinde sıkça veri yönetişimi ve KVKK katalog tarafıyla, ham veri sınıflandırması ve PII envanteri olmadan başlanmaması gerektiğini hatırlatmak gerek; aksi takdirde sentetik üretim “neyi koruduğunu bilmeyen” bir süreç hâline gelir.
Privacy-Preserving ML Pipeline’ında Sentetik Verinin Yeri
Sentetik veri tek başına bir gümüş kurşun değil; PPML araç kutusunun bir parçası. Pratik bir kurumsal pipeline aşağıdaki katmanları içerir:
- Katman 1 — Data discovery & classification: Tüm tablolarda PII/PHI/PCI tespiti (Presidio, AWS Macie, GCP DLP).
- Katman 2 — Access control & masking: Row/column-level security (Snowflake masking policies, BigQuery authorized views).
- Katman 3 — Federated learning veya sentetik veri üretimi: Veriyi hareket ettirmeden eğit ya da paylaşılabilir kopya üret.
- Katman 4 — Differential privacy: Model çıktısı veya sentetik çıktıya formal garanti ekle.
- Katman 5 — Secure enclave / Confidential computing: AMD SEV, Intel TDX ile hesaplama sırasında bellek şifreleme.
- Katman 6 — Audit, lineage, model card: ML model kart şeffaflığı (Mitchell et al. 2019), training data provenance.
Sentetik veri özellikle cross-organization data sharing, dev/test environment seed, imbalanced class augmentation (fraud detection’da pozitif sınıf %0.3 → SMOTE yerine CTGAN ile %5 dengeleme) ve edge case generation (otonom araç senaryo sentezi, NVIDIA DRIVE Sim) kullanım senaryolarında öne çıkar.

Sentetik Veri Üretiminde Tipik Hatalar ve Anti-Pattern’ler
Üretim ortamına geçişte ekiplerin tekrar tekrar yaptığı hatalar mevcut. Her birinin altında nasıl önleneceği:
- Hata 1 — Memorization’ı kontrol etmemek: GAN bazı satırları neredeyse birebir kopyalayabilir (özellikle nadir kategorilerde). Çözüm: DCR (Distance to Closest Record) histogramı çiz, en yakın %1 dilimi kontrol et, anomali varsa ε düşür veya rare-category drop yap.
- Hata 2 — Test setine sentetik veri sızdırmak: TSTR yapılırken test set HER ZAMAN gerçek olmalı. Sentetik test seti utility ölçümünü şişirir.
- Hata 3 — Referential integrity’yi unutmak: Müşteri-sipariş tablolarında foreign key ilişkisi kırılırsa sentetik veri JOIN’lerde anlamsızlaşır. Çözüm: SDV’nin HMA1 veya MOSTLY AI multi-table modu, veya post-processing FK reconstruction.
- Hata 4 — Domain constraint ihlali: “Doğum tarihi 1850” veya “negatif sipariş tutarı” gibi mantıksız satırlar. Çözüm: Pydantic validator + reject sampling, veya constrained generation (SDV constraints API).
- Hata 5 — Class imbalance’ı modellememek: %0.3 pozitif fraud oranını öğrenmesi için stratified sampling veya conditional generation gerekli.
- Hata 6 — Tek bir metric’e güvenmek: Sadece KS-test geçmesi yetmez; correlation matrix, PCA görseli, TSTR ve privacy metric’leri birlikte raporlanmalı.
- Hata 7 — DP olmadan “anonim” iddiası: Pazarlama materyalinde “GDPR uyumlu sentetik veri” demeden önce hukuki görüş + DP garantisi ekle.
Bu konularda kurum içinde standart oluştururken veri kalitesi pratikleri ve dbt analytics engineering disiplinlerinden gelen “test as code” yaklaşımını sentetik veriye taşımak; her üretim run’ı için fidelity/utility/privacy üçlüsünün CI’da bir Markdown raporla yayımlanması en sağlıklı yoldur.
Sektörel Kullanım Senaryoları ve ROI
2024-2026’da sentetik veri olgunlaştıkça sektörel use case’ler belirginleşti. Aşağıdaki tablo, kamuya açık vaka çalışmaları ve vendor case study’lerinden derlenmiş yaklaşık iyileştirme aralıklarıdır:
| Sektör | Use Case | Tipik Fayda | Önerilen Vendor |
|---|---|---|---|
| Bankacılık (fintech) | Fraud detection, credit scoring | Pozitif sınıf augmentation ile recall +%8-15 | YData (on-prem), MOSTLY AI |
| Sağlık | Klinik araştırma cohort paylaşımı | IRB sürecini haftalardan günlere indirir | MOSTLY AI, Gretel (DP modu) |
| Telco | CDR (call detail record) analitik dış paylaşım | Müşteri PII’sı olmadan vendor ile çalışma | YData self-host |
| E-ticaret | Dev/staging environment seed | Production-like test, GDPR temiz | Tonic.ai, Gretel |
| Sigorta | Claim prediction | Düşük frekanslı kazaların oversampling’i | YData (CTAB-GAN+) |
| Otonom araç / robotik | Edge case scenario | Gerçek ortamda toplanması maliyetli senaryoların simülasyonu | NVIDIA Omniverse, custom |
| Kamu / istatistik | Microdata yayını | NSO’lar (Office for National Statistics gibi) artık sentetik mikro veri yayınlıyor | SmartNoise, IPUMS-style DP |
ROI hesaplaması yaparken sentetik veri yatırımının üç ana getirisi sayılabilir: (1) Time-to-data kısaltma — KVKK/IRB onayı için aylar yerine günler; tahminî %60-80 hızlanma. (2) Risk maliyeti azaltma — KVKK idari para cezaları 2024’te tahminî üst limit 9.4 milyon TL seviyesinde, sentetik üretim ile re-ID riski ölçülebilir biçimde düşer. (3) ML utility artışı — class imbalance’ın çözülmesi ile downstream model performansında %5-15 iyileşme tipik.
Ömer Önal’ın orta ölçekli kurumlarla yürüttüğü danışmanlık projelerinde, sentetik veri PoC’lerinin başlangıçta tek bir yüksek-değerli use case’e (genelde fraud veya credit scoring) odaklanmasının, multi-tenant bir platform kurmaya çalışmaktan çok daha hızlı ROI ürettiği gözleniyor. Pipeline tarafında Spark + Kafka data pipeline ile entegrasyon, ham veriyi sentetik kopyayla feature store’a aynı şemada yazmayı kolaylaştırır; downstream uygulamalar değiştirilmeden test edilebilir.

2026 Trendleri: LLM, Foundation Model ve Multimodal Sentetik Veri
Üç ana trend 2026 yol haritasını şekillendiriyor:
- LLM-tabular ürün konsolidasyonu: Gretel Navigator, MOSTLY AI’ın 2024 LLM lansmanı, YData’nın Fabric LLM entegrasyonu. Foundation model + tabular fine-tune, few-shot sentetik üretimi mainstream yapıyor. Maliyet düşerse 2026 sonu itibarıyla CTGAN’in yerini büyük ölçüde alabilir.
- Multimodal sentetik veri: Resim + metin + tabular birlikte üretim — örneğin tıbbi görüntüleme + tanı raporu + hasta tablosu. NVIDIA MAISI, MedGAN benzeri girişimler. Buradaki en büyük sorun cross-modal consistency.
- Sentetik veri governance ve EU AI Act: 2024’te yürürlüğe giren EU AI Act’in high-risk AI sistemlerinde training data documentation şartı, sentetik veri üretimini “kayıt altına alınmış” bir disiplin haline getiriyor; ham veri kullanmaktan kaçınmak hukuki yükü azaltıyor.
Buna paralel olarak, “model collapse” tartışması — sentetik veri üzerinde eğitilen modellerin tekrar sentetik veri üretmesi, generations arası kalite kaybı (Shumailov et al. 2024, Nature) — kurumsal kullanıcılar için bir uyarı: real-data anchor olmadan sürekli sentetik beslenen pipeline’lar 3-5 generation içinde marjinal dağılımları kaybedebilir. Çözüm: her batch’te en az %10-20 gerçek veri karışımı.
Vector ve embedding tarafında sentetik üretim ise vector veritabanı seçimi ile birlikte planlanmalı; sentetik metin → embedding → vector store akışında embedding kalitesi gerçek veriye göre tipik olarak %5-10 düşüktür ve retrieval recall’ü etkiler.
SSS — Sık Sorulan Sorular
Sentetik veri GDPR ve KVKK açısından “kişisel veri” sayılır mı?
Tek başına GAN/VAE çıktısı, doğrudan re-identification garantisi taşımadığı için “büyük olasılıkla” kişisel veri olmaktan çıkar; ancak ENISA 2024 raporu DP olmadan üretilen sentetik verinin hâlâ membership inference attack’a açık olabileceğini belirtir. Hukuki güvence için DP-SGD ile ε≤3 üretim + risk değerlendirme dokümantasyonu önerilir.
YData Synthetic ile Gretel arasında nasıl seçim yapmalıyım?
Veri yurt-içinde kalmak zorunda, ML ekibiniz güçlü ve maliyeti minimize etmek istiyorsanız ydata-synthetic OSS sürümünü self-host edin. Hızlı PoC, yönetilen servis, otomatik kalite raporları öncelikse ve cloud kabul ediyorsa Gretel. Multi-table ilişkisel veride MOSTLY AI tercihinizi gözden geçirin.
Sentetik veride ne kadar utility kaybı normaldir?
TSTR (Train Synthetic Test Real) AUC delta’sı ≤0.03 mükemmel, 0.03-0.06 üretim için kabul edilebilir, ≥0.10 modeli yeniden eğitmek veya hyperparameter tuning gerekir. DP eklendiğinde ek %5-15 utility kaybı beklenir; ε azaldıkça kayıp artar.
Differential Privacy zorunlu mu, yoksa opsiyonel mi?
Teknik olarak opsiyonel ancak regüle sektörlerde, hassas PII içeren tablolarda, dış paylaşım senaryolarında ve “fully anonymous” iddiası gerekli her durumda kuvvetle önerilir. Internal analytics + non-PII tablolarda DP’siz GAN çoğu zaman yeterli ve daha hızlıdır.
Sentetik veri üretimi için minimum kaç satıra ihtiyaç var?
Pratik alt sınır yaklaşık 5.000-10.000 satır; bu aralığın altında dağılım istatistikleri güvenilmez. İdeal aralık 50.000-1.000.000. Üst sınır model ve donanıma bağlı: ydata-synthetic CTGAN tek GPU’da 5M satıra kadar konforlu, üzerinde batching gerekir.
Sonuç
Sentetik veri 2026 itibarıyla “deneysel” raftan çıkmış, regülasyon baskısı ve ML talebinin kesiştiği noktada zorunlu bir kurumsal yetkinlik haline geldi. Karar çerçevesi üç soruyla netleşir: (1) Veri nereye gidiyor? İçeride kalıyorsa OSS + self-host, dışarı çıkıyorsa DP + audit; (2) Hangi metrik kritik? Fidelity (analytics), utility (ML training), privacy (paylaşım) — üçü için ayrı eşikler belirlenmeli; (3) Kim sahiplenecek? ML platform ekibi mi, data governance ekibi mi, KVKK uyum ekibi mi — RACI olmadan sentetik veri raflarda kalır.
Pratik bir başlangıç planı: 30 günlük PoC’de tek bir high-value tablo (kredi başvuru, fraud, klinik cohort) seçilir; ydata-synthetic CTGAN veya Gretel ile baseline üretim yapılır; fidelity (KS<0.05), utility (TSTR AUC delta<0.05) ve privacy (DCR median > eğitim setinin median’ı) hedeflenir. 90 günlük scaling fazında DP entegrasyonu ve CI/CD’ye TSTR raporlamasının eklenmesi tavsiye edilir.
Eğer kurumunuzda KVKK uyumlu bir sentetik veri stratejisi tasarlamak, mevcut ML pipeline’ınıza DP-SGD entegre etmek veya vendor seçim sürecinde bağımsız bir değerlendirme istiyorsanız, iletişim sayfası üzerinden ulaşabilirsiniz; orta-ölçekli kurumlar için 4-8 haftalık bir advisory paketiyle “PoC’den production’a” yol haritası çıkarıyoruz.
Dış otorite kaynakları: YData Synthetic GitHub, Gretel.ai Documentation, CTGAN paper (Xu et al., 2019), ENISA Data Protection Engineering 2024, NIST IR 8053 De-Identification, DP-SGD (Abadi et al., 2016), Model Collapse — Shumailov et al., Nature 2024.










Ömer ÖNAL
Mayıs 16, 2026Veri mühendisliği projelerinde sıkça gördüğüm darboğaz: pipeline mimarisine yatırım yapmadan önce veri kalitesi metriklerinin baseline’ı yok. Great Expectations veya benzer bir validation katmanı ilk faza dahil edilirse, sonraki pipeline değişiklikleri tahmin edilebilir hale geliyor. Yorumlarınız ne yönde?