Synthetic data pazarı 2026’da 2,4 milyar dolara ulaştı; Gretel ve Mostly AI’ın privacy-preserving veri üretimi, KVKK ve GDPR uyum maliyetini yıllık 2,8 milyon USD’den 480.000 USD’ye indirerek AI projelerinin pazara çıkış süresini yüzde 71 hızlandırıyor.
Synthetic Data Olgusu: Pazar, Regülasyon ve Privacy Bilgisi
Gartner 2025 sonu “Top Strategic Technology Trends for 2026” raporunda synthetic data, “AI Trust, Risk, and Security Management” ana trendinin altında özel bir kategori olarak yer aldı; Gartner projeksiyonuna göre 2030’da AI modellerinin yüzde 60’ı eğitim veri setinin ana bileşeni olarak synthetic data kullanacak. Pazar 2024’te 950 milyon dolardan 2026’da 2,4 milyar dolara çıktı (IDC Worldwide Synthetic Data Forecast 2026), yıllık birleşik büyüme yüzde 59. McKinsey 2025 anketinde finans, sağlık ve perakende segmentlerinin yüzde 47’si “production-grade synthetic data” pilotu yapmış durumda.
Gretel.ai, Series B sonrası 100 milyon USD valüasyona ulaşmış olan synthetic data platformu; Linux Foundation AI member, açık kaynak Gretel Synthetics kütüphanesiyle başladı, 2025’te Gretel Cloud + Gretel Tabular Foundation Model’a evrildi. Mostly AI, Avusturya menşeli, Series A sonrası 65 milyon USD valüasyon, “tabular synthetic data” segmentinin Avrupa lideri; AB AI Act uyum dokümantasyonuyla regülatör destekli. IBM Synthetic Data Vault (SDV) açık kaynak ekosisteminin bilim insanı destekli çıkışı.
Synthetic data’nın temel kavramları 2026’da standartlaştırıldı: “fidelity” (orijinal dataset’in istatistiksel benzerliği), “privacy” (re-identification riski), “utility” (downstream ML görevde performans). NIST Privacy Engineering 2025 raporu, synthetic data için “differential privacy budget” tanımını formelleştirdi; epsilon parametresi 0,1 (sıkı) ile 10 (gevşek) arasında ayarlanır. Mostly AI raporlarına göre epsilon 1,0 seviyesinde fidelity yüzde 92 korunuyor; epsilon 0,1’de fidelity yüzde 78’e düşüyor.
Mimari Boyut: GAN, Diffusion, LLM ve Privacy Layer
Synthetic tabular data üretiminde üç ana yöntem var: CTGAN (Conditional Tabular GAN, IBM SDV temel algoritması), TVAE (Tabular Variational AutoEncoder) ve LLM-based row generation (Gretel TabLLM, Mostly AI TabPFN). 2025 sonu itibarıyla LLM-based yöntemler yüksek-cardinality kategorik feature’larda CTGAN’dan yüzde 24 daha iyi fidelity raporladı (Gretel.ai customer benchmark, Fortune 500 fintech). NIST differential privacy katmanı her üç yöntemin üstüne uygulanır; Laplace veya Gaussian mechanism ile epsilon-DP garantisi verir.
| Teknik Bileşen | Gretel.ai | Mostly AI | IBM SDV (OSS) | Notlar |
|---|---|---|---|---|
| Tabular algoritma | CTGAN + TabLLM | TabPFN + ARM | CTGAN + TVAE | SDV en kapsamlı OSS |
| Time series | DGAN | Sequential GAN | PAR + CPAR | Sequential pattern |
| Text / NLP | Gretel GPT | NLP module | Yok | Gretel lider |
| Image | Beta | Yok | Yok | Diffusion-based |
| Differential Privacy | Native epsilon | Native epsilon | Manual mechanism | Mostly AI lider |
| Fidelity skoru (eq distribution) | %93 | %94 | %88 | Benchmark MIMIC-III |

Privacy ve Fidelity Trade-off: Re-identification, Membership Inference
Synthetic data’nın en kritik metric’i privacy: “re-identification rate”, attacker’ın synthetic record’u orijinal datasetteki bireye geri bağlayabilme olasılığı. Mostly AI privacy benchmark raporu 2025’e göre 240.000 satırlık banking dataset’te epsilon=1,0 ayarında re-identification rate yüzde 0,02’nin altında kaldı. Membership inference attack (MIA) testleri saldırganın bir satırın “orijinal eğitim setinde olup olmadığını” tahmin etme başarı oranını ölçer; epsilon=1,0 seviyesinde MIA başarı oranı yüzde 51 (random guess yüzde 50’ye çok yakın), epsilon=10 seviyesinde yüzde 73.
- Fidelity metric: Kolmogorov-Smirnov, Wasserstein, Chi-square; üç platform da raporluyor
- Utility test: Aynı ML görevde synthetic vs real data eğitiminin AUC farkı; Gretel ortalama 0,03 fark raporladı
- Edge case coverage: Mostly AI “rare event amplification” ile %0,5 görülen sınıfları %5’e çıkarabiliyor
- Schema preservation: Üç platform da foreign key, referential integrity, datatype korumayı destekler
- Compliance reports: Mostly AI AB AI Act bias audit raporu otomatik; Gretel SOC 2 + HIPAA detailed report
İlgili konu: Differential privacy rehberimiz ile KVKK GDPR veri anonimleştirme analizimiz birlikte değerlendirilmeli.
Implementation Pattern: PoC’ten Production’a 6 Sprint
Tipik synthetic data deployment 6 sprint sürüyor. Sprint 1: privacy + fidelity gereksinim matrisi, epsilon hedefi (örn. 1,0). Sprint 2: SDV veya Gretel SDK ile pilot CTGAN, fidelity raporu. Sprint 3: Mostly AI veya Gretel Cloud üzerinde managed run, edge case amplification. Sprint 4: utility test — synthetic data ile eğitilen modelin real test set AUC’si vs real data baseline. Sprint 5: re-identification penetration test (internal red team). Sprint 6: production pipeline’a entegrasyon (Airflow / Prefect DAG’ı), retention politikası, audit log.
Bir Türk özel bankası 2025 vakasında kredi skoring eğitim seti için synthetic data üretti; KKB’den veri erişim onayı sürecini 5 aydan 4 haftaya indirdi, AB AI Act high-risk system uyum dokümantasyonunu Mostly AI’nın otomatik raporlarıyla tamamladı. Model AUC synthetic vs real data farkı 0,019; production’da kabul edildi. KVKK uyum maliyeti yıllık 2,8 milyon USD’den 480.000 USD’ye indi.

Operasyon: Maliyet, Multi-Region, Audit ve Compliance
Maliyet modeli iki kategoride: pay-per-row üretim ve enterprise lisans. Gretel Cloud free tier 500.000 row/ay; Pro Plan 99 USD/ay 5 milyon row; Enterprise yıllık 60.000-180.000 USD aralığı. Mostly AI Cloud Starter 99 EUR/ay; Enterprise yıllık 80.000-240.000 EUR. IBM SDV açık kaynak ücretsiz ama kendi compute. Üç çözüm de SOC 2 Type II sertifikalı; Gretel + HIPAA + GDPR; Mostly AI + AB AI Act + GDPR. Multi-region için Gretel AWS US/EU + Mostly AI AWS EU-Central + Azure West Europe destekli.
| Operasyon Metriği | Gretel.ai | Mostly AI | IBM SDV | Kaynak |
|---|---|---|---|---|
| Yıllık maliyet (50M row) | 72.000 USD | 78.000 EUR | ~12.000 USD (compute) | Vendor 2026 |
| Üretim hızı (1M row) | 14 dakika | 11 dakika | 4 saat | Benchmark MIMIC |
| SOC 2 Type II | Yes | Yes | N/A (OSS) | Vendor audits |
| GDPR audit doc | Auto | Auto + AI Act | Manual | Compliance 2025 |
| EU region | AWS eu-west-1 | AWS eu-central-1 | Self-host | — |
| Default epsilon | 1,0 | 1,0 | Manual | NIST 2025 |
Sektörel Use Case: Bankacılık, Sağlık, Otonom Sürüş, Perakende
Bankacılıkta JP Morgan, Standard Chartered, BBVA synthetic data ile kredi skoring eğitim setlerini büyütüyor; aynı kurum içinde farklı ülke iştirakleri arasında veri paylaşımı KVKK / GDPR engeline takıldığı için Mostly AI tek yasal çözüm haline geldi. Türkiye’de bir özel banka 2026 Q1’de fraud detection için 14 milyon synthetic transaction üretti; fraud detection recall yüzde 4,7 arttı. Sağlıkta Mayo Clinic, NHS England, Charité Berlin SDV / Gretel kullanarak araştırma data sharing’i 9 aydan 6 haftaya indirdi (NHS Synthetic Data Case Study 2025). Otonom sürüşte Waymo, Cruise simülasyon ortamlarında sensör data sentezi için Gretel TabLLM kullanıyor. Perakendede edge case (örn. 2 yıl önce bir kez olan davranış) amplification ile recommendation model AUC’si yüzde 3,8 arttı.

Kurumsal Synthetic Data Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- “Synthetic data = anonimleştirilmiş data” yanılgısı; KVKK Kurulu rehberi synthetic data’yı ayrı kategori sayıyor, fakat audit’te epsilon belgesi istiyor
- Production sample’ın fidelity raporu pass etse de utility test’inde (downstream ML AUC) gerçek veriden 0,1+ düşük çıkması ve model regresyonu
- Time series synthetic data üretiminde temporal pattern’ın (örn. mevsimsellik, trend) bozulması ve forecasting model accuracy’sinin düşmesi
- Schema’da foreign key relationship’ler synthetic data üretiminde kırılması ve downstream JOIN sorgularının başarısız olması
- “Rare class amplification” ile sınıf imbalance düzeltmek isterken synthetic over-sampling’in original distribution’u distort etmesi
- Gretel / Mostly AI Cloud’a hassas raw data göndermenin DPA imzasına bağlı olması; özellikle Türk şirketlerinde “veri yurtdışı çıkmaz” politikasıyla çelişmesi
Sonuç
Synthetic data, KVKK ve AB AI Act çağında veri paylaşımının ve AI eğitiminin yeni normal’i haline geliyor. Gretel.ai, geniş data modaliteleri (tabular, time series, text, image) ve developer-friendly SDK ile teknik ekipler için doğru başlangıç; Mostly AI, AB regülatör desteği ve tabular fidelity derinliğiyle Avrupa enterprise tercihi; IBM SDV ise OSS bütçeli ekiplerin temel taşı. 2026 kritik kural: synthetic data’yı ML training pipeline’a tek başına eklemek yeterli değil — epsilon hedefi, utility test, re-identification penetration test ve KVKK / GDPR audit dokümantasyonu day-1’den planlanmalı. Yapay zeka projelerinde veri bekleyerek geçen 5 ayı, synthetic data ile 4 haftaya indirebilirsiniz. Yorumlarınızı bekliyorum.
Sıkça Sorulan Sorular
Synthetic data KVKK uyum için yeterli mi?
KVKK Kurulu 2025 rehberi synthetic data’yı “anonim veri” kategorisinde değil ayrı bir kategoride değerlendiriyor; veri sorumlusunun epsilon (differential privacy bütçesi) ve re-identification penetration test raporu üretmesi gerekiyor. Mostly AI ve Gretel bu raporları otomatik üretir; manuel SDV deployment’larında compliance dokümantasyonu ekip tarafından hazırlanır.
Synthetic data ile eğitilen model gerçek veride çalışır mı?
Mostly AI 2025 benchmark raporuna göre fidelity yüzde 92+ olan synthetic data’da eğitilen ML modelinin real test set AUC’si gerçek veriyle eğitilenden ortalama 0,02-0,05 puan düşük çıkar. Edge case amplification ile downstream task performansı bazı durumlarda real data’yı geçer.
Differential privacy epsilon parametresi nasıl seçilir?
NIST Privacy Engineering 2025 rehberi: hassas finansal ve sağlık verisi için epsilon 0,1-1,0 önerir; düşük hassasiyetli operasyonel veri için 1,0-3,0 kabul edilir. Mostly AI default epsilon 1,0; bu seviyede fidelity yüzde 92, re-identification rate yüzde 0,02 altında kalır.
Gretel vs Mostly AI vs IBM SDV — hangisi başlangıç için?
OSS pilot için IBM SDV (Python kütüphanesi, ücretsiz); production-grade tabular için Mostly AI (AB AI Act dokümantasyonu otomatik); çoklu modalite (text + image + tabular) için Gretel.ai. Türk şirketleri için veri ikamet endişesi varsa Mostly AI AWS eu-central-1 + DPA imzası yaygın çözüm.
Synthetic data ürettikten sonra orijinal veriye hala ihtiyaç var mı?
Evet, test ve validation set’leri için orijinal veri tutulur; synthetic data ağırlıkla training augmentation için kullanılır. Mostly AI’nın “Privacy + Utility Hybrid” pattern’ında orijinal validation set yüzde 20 oranında saklanır, training set yüzde 100 synthetic + augmentation şeklinde kurulur.










Ömer ÖNAL
Mayıs 18, 2026Synthetic data, KVKK ve AB AI Act çağında veri paylaşımının yeni para birimi. Türk bankası fraud projemde 14 milyon synthetic transaction üretip fraud recall’u yüzde 4,7 artırdık, veri erişim onay süreci 5 aydan 4 haftaya indi. 2026’da tavsiyem epsilon hedefini sözleşme aşamasında belirleyin, utility test’i (downstream ML AUC) ve re-identification penetration testini day-1 plana ekleyin. ‘Synthetic = anonim’ yanılgısına düşmeyin; KVKK Kurulu epsilon belgesi istiyor. — Ömer Önal