LangWatch vs LangSmith 2026: LLM Observability Karşılaştırması
LLM observability, üretim ortamındaki büyük dil modeli uygulamalarının trace seviyesinde izlenmesi, prompt regresyonlarının yakalanması, halüsinasyon oranlarının ölçülmesi ve maliyet/latency bütçelerinin yönetilmesini sağlayan disiplindir. 2026 itibarıyla pazar iki güçlü oyuncu etrafında şekilleniyor: LangChain ekosisteminin native ürünü LangSmith ve OpenTelemetry-first, open-source çekirdekli LangWatch. Bu yazı, iki platformu fiyat, mimari, evaluation, security ve Türkiye/EU veri yerleşimi açısından kıyaslıyor. Kısa cevap: prototipten yayına geçişte saf LangChain stack kullanıyorsanız LangSmith, çoklu framework (LlamaIndex + DSPy + custom) ve self-host gereksinimi olan kurumsal senaryolarda LangWatch öne çıkıyor.
Stack Overflow Developer Survey 2024’e göre profesyonel geliştiricilerin %62’si AI araçlarını günlük iş akışında kullanıyor, ancak McKinsey’in 2024 State of AI raporu üretim aşamasındaki GenAI projelerinin sadece %25’inin ölçülebilir ROI ürettiğini söylüyor. Aradaki uçurumun ana sebebi gözlemlenemeyen pipeline’lar: prompt’ların hangi versiyonda regression yaşadığı, hangi adımın p95 latency’yi 4 saniyenin üzerine çıkardığı, hangi tool call’un halüsinasyona yol açtığı izlenmiyor. LLM observability tam bu boşluğu kapatıyor.
LLM Observability Neden Klasik APM’den Farklı?
Datadog, New Relic veya Grafana gibi klasik APM araçları HTTP request, DB query ve infrastructure metric’lerini iyi yakalar, ancak LLM pipeline’ında üç yeni boyut var: non-determinism (aynı prompt farklı çıktı üretir), semantic correctness (200 OK dönen cevap yanlış olabilir) ve token economics (her çağrı dolar maliyeti). OpenTelemetry GenAI Semantic Conventions 2024’te bu üç boyut için gen_ai.request.model, gen_ai.usage.input_tokens, gen_ai.response.finish_reasons gibi 30+ attribute tanımlandı; LangWatch ve LangSmith ikisi de bu konvansiyona referans veriyor.
Klasik APM bir endpoint’in 99.9% uptime’da olduğunu söyler; LLM observability “endpoint çalışıyor ama son 200 istekte halüsinasyon oranı %3’ten %11’e çıktı, üstelik son prompt commit’inden sonra” der. Bu fark, gözlem altyapısının üzerine kurulmuş evaluation, tracing ve dataset primitive’lerini gerektirir.
| Boyut | Klasik APM (Datadog/NewRelic) | LLM Observability (LangWatch/LangSmith) |
|---|---|---|
| Birincil sinyal | Latency, error rate, throughput | Trace + token cost + eval score + faithfulness |
| Semantic doğruluk | Yok (HTTP code’a bakar) | LLM-as-judge + reference-based metrics |
| Test paradigması | Synthetic check, ping | Dataset replay, regression suite, A/B prompt |
| Maliyet izleme | Compute hour bazlı | Token/USD per trace, per user, per prompt versiyonu |
| Veri modeli | Span = HTTP call | Span = LLM call + retriever + tool + chain |
| Drift detection | Statistical anomaly | Embedding drift, prompt regression, eval drop |
Üretim LLM uygulaması için klasik APM’i tamamen değiştirmek gerekmez; LangWatch/LangSmith bu üç boyutu üstüne ekler. Kurumsal Yapay Zeka Entegrasyonu rehberinde bahsedilen “AI Center of Excellence” pratiği, observability katmanını ayrı bir disiplin olarak konumlandırır.

LangSmith Mimarisi ve Pozisyonu
LangSmith, LangChain Inc. tarafından geliştirilen ticari SaaS’tır; resmi dokümantasyonunda kendini “unified DevOps platform for LLM apps” olarak tanımlar. Çekirdek primitive’leri: Trace (her LLM/chain çağrısı), Run (parent-child span ağacı), Dataset (input-output çiftleri), Experiment (dataset üstünde prompt/model karşılaştırması) ve Annotation Queue (insan değerlendirici akışı). Python ve TypeScript SDK’leri ile @traceable decorator veya OTEL exporter üzerinden veri akışı sağlanır.
LangChain framework’ünü kullanan ekipler için entegrasyon neredeyse sıfır kod: LANGCHAIN_TRACING_V2=true ortam değişkeni ile her chain otomatik trace’lenir. LangGraph (agent orchestration framework’ü) ile tight coupling 2025’te güçlendi; agent step’leri görsel graph üzerinde izlenebiliyor. Agentic AI İş Akışları mimarisi içinde LangGraph kullananlar için LangSmith varsayılan seçim haline geliyor.
- Avantaj: LangChain/LangGraph native, sıfır config trace yakalama, en gelişmiş prompt versiyonlama (Prompt Hub).
- Avantaj: Geniş model sağlayıcı entegrasyonu (OpenAI, Anthropic, Google, Cohere, Mistral, Bedrock, Azure).
- Avantaj: Annotation queue ve dataset versiyonlama olgun; insan-in-the-loop akışı için pratik.
- Dezavantaj: Self-host yalnız Enterprise lisansla; bağımsız geliştirici/startup için yalnız SaaS opsiyonu.
- Dezavantaj: LangChain dışı framework’lerde (LlamaIndex, DSPy, vanilla OpenAI SDK) manuel instrumentation gerekiyor.
- Ne zaman seç: Stack’iniz LangChain merkezli, SaaS modeli kabul edilebilir, hızlı time-to-value öncelikli.
LangWatch Mimarisi ve Pozisyonu
LangWatch, GitHub’da Apache 2.0 lisansıyla yayınlanan açık kaynak çekirdeğe sahip platformdur; SaaS ve self-host (Docker Compose / Kubernetes Helm) olarak dağıtılır. Çekirdek mimari OpenTelemetry GenAI Semantic Conventions üzerine kurulu; bu sayede LlamaIndex, DSPy, Haystack, Vercel AI SDK, raw OpenAI/Anthropic SDK ve LangChain — hepsi tek instrumentation pattern’i ile izlenebiliyor.
Veri katmanı Elasticsearch/OpenSearch + PostgreSQL kombinasyonu; eval engine ise hem built-in metrics (faithfulness, answer relevance, jailbreak detection) hem de custom Python evaluator’lar destekliyor. OTEL GenAI spec‘i tam karşıladığı için Grafana, Honeycomb, Jaeger gibi mevcut OTEL backend’leriyle paralel veri akıtma da mümkün — vendor lock-in riskini düşürüyor.
| Mimari Boyut | LangSmith | LangWatch |
|---|---|---|
| Lisans modeli | Proprietary SaaS + Enterprise self-host | Open-source çekirdek (Apache 2.0) + SaaS |
| Deployment | SaaS (US/EU), self-host yalnız Enterprise | SaaS, Docker, Kubernetes Helm, on-prem |
| OTEL uyumluluğu | Kısmi (OTEL exporter mevcut) | Native, GenAI semantic conventions |
| Framework desteği | LangChain/LangGraph birinci sınıf | LangChain, LlamaIndex, DSPy, Haystack, raw SDK |
| Veri katmanı | Yönetilen (vendor controlled) | Elasticsearch + PostgreSQL (self-host’ta sahip olunan) |
| Veri rezidansı | US/EU region seçimi | Kendi datacenter’ınız (full control) |
| SDK | Python, TypeScript | Python, TypeScript, REST + OTEL |
Self-host yetisi, KVKK ve GDPR kapsamında PII içeren prompt loglarının üçüncü taraf SaaS’ta tutulmasını yasaklayan kurumlar için belirleyici. Vector DB seçiminde olduğu gibi observability platformu seçiminde de “veriyi nerede tutuyoruz?” sorusu maliyet ve uyumluluğun önüne geçiyor.
Fiyatlandırma Karşılaştırması
Her iki platform da freemium + usage-based hibrit modeli izliyor. Ana metric “trace” sayısı (bazı tier’larda “span” veya “monthly active workflow”). 2026 başı vendor sayfalarındaki fiyat dilimleri aşağıdaki gibi (yaklaşık değerler — kesin teklif için resmi sayfa kontrol edilmeli):
| Plan | LangSmith | LangWatch |
|---|---|---|
| Developer (free) | 5K trace/ay, 1 kullanıcı | 1K trace/ay, 1 kullanıcı, açık kaynak self-host tam ücretsiz |
| Startup / Team | ~$39/user/ay + trace overage | ~$59/proje/ay + trace overage |
| Plus / Pro | ~$0.50 / 1K ek trace | ~$0.40 / 1K ek trace |
| Enterprise (self-host) | Custom (yıllık 5 haneli USD’den başlar) | Custom + açık kaynak edition ücretsiz |
| SLA | 99.9% (Enterprise) | 99.9% (SaaS), self-host’ta kendi SLA’iniz |
| SOC 2 / ISO 27001 | SOC 2 Type II | SOC 2 Type II yolda, ISO 27001 hedef 2026 |
Kritik nüans: LangSmith fiyatlandırması “per seat + per trace” ikili modeldir, 20 kullanıcılı bir ekipte taban abonelik aylık 750-800 USD’ye yaklaşır. LangWatch ise “per project” odaklı; aynı projede 50 geliştirici çalışsa fiyat aynı kalır. Bu, kalabalık platform ekipleri için LangWatch’ı %30-50 daha ekonomik kılabiliyor — ancak self-host alternatifi tamamen elimine edilemiyorsa LangSmith Enterprise tek seçenek.
Tracing ve Veri Modeli
Her iki platformda da trace modeli hiyerarşik: bir “run” altında nested “span”lar bulunur. Bir RAG pipeline trace’inde tipik yapı: chain → retriever → embedding_call → vector_search → llm_call → parser. LangSmith bu hiyerarşiyi LangChain’in Runnable abstraction’ı üzerinden otomatik çıkarır. LangWatch ise OTEL span attribute’larından gen_ai.operation.name ve parent_span_id üzerinden inşa eder.
Sample veri hacmi: orta ölçekli bir SaaS müşteri destek bot’u günde 80K trace, her trace ortalama 4 span ve 12 KB metadata üretir — aylık 9.6M span, ~115 GB ham log. Bu hacim LangSmith free tier’ı (aylık 5K trace) hızla aşar; gerçek üretim yükü için Plus veya Enterprise zorunlu. LangWatch self-host’ta Elasticsearch retention policy ile 30/60/90 gün rotasyon mümkün; toplam aylık altyapı maliyeti 200-400 USD aralığına çekilebiliyor.
- Sampling: İkisi de head-based ve tail-based sampling destekler. Tail-based (hata veya yavaş trace’i öncelikli tut) production’da maliyet kontrolü için kritik.
- PII redaction: LangWatch built-in regex + Presidio entegrasyonu. LangSmith’te trace metadata içinden manuel filter callback gerekiyor.
- Multi-modal payload: Görsel/audio input içeren trace’ler 2025 Q4 itibarıyla iki platformda da deneysel — boyut limitleri (genelde 1-5 MB) dokümante edilmiş.
- Retention: SaaS’ta varsayılan 14 gün (free) → 90/365 gün (Enterprise). Self-host’ta sınırsız.

Evaluation Yetenekleri
Production LLM observability’nin trace toplamaktan daha kritik kısmı evaluation. Üç tip eval var: reference-based (ground truth ile karşılaştırma — BLEU, ROUGE, exact match), reference-free (LLM-as-judge ile faithfulness, relevance, coherence) ve human-in-the-loop (annotation queue + inter-annotator agreement). Ragas, TruLens, DeepEval gibi RAG Evaluation framework’leri her iki platformla entegre çalışabiliyor.
LangSmith’in Experiment primitive’i dataset üzerinde A/B prompt karşılaştırması için en olgun arayüze sahip — yan yana diff görünümü, istatistiksel anlamlılık testi (paired bootstrap) ve regression alert mevcut. LangWatch ise evaluator orchestration konusunda daha esnek: kendi Python eval function’ınızı yazıp CI pipeline’a bağlamak Helm chart’ında bir values.yaml satırı kadar basit. LLM hallucination oranını düşürmek için LLM Hallucination Azaltma tekniklerini eval suite ile birleştirmek standart pratik.
| Evaluation Yeteneği | LangSmith | LangWatch |
|---|---|---|
| Built-in evaluators | ~25 (correctness, helpfulness, conciseness, harmfulness, vb.) | ~30 (faithfulness, answer relevance, context precision, jailbreak, PII leak) |
| LLM-as-judge custom | Evaluator decorator + prompt template | Python evaluator class + YAML config |
| Ragas entegrasyon | Manuel adapter | Native |
| Dataset versiyonlama | Tag tabanlı, UI olgun | Git-style commit, CLI |
| CI/CD entegrasyon | GitHub Action + CLI | GitHub Action + CLI + Argo Workflows örnekleri |
| İstatistiksel test | Paired bootstrap, t-test (UI) | Bootstrap, custom Python |
| Annotation queue | Olgun, multi-rater, Cohen’s kappa | Mevcut, multi-rater eklenmekte |
Güvenlik, Compliance ve Veri Rezidansı
2024’te yürürlüğe giren EU AI Act yüksek riskli AI sistemleri için audit log ve dataset traceability’i zorunlu kılıyor; NIST AI RMF 1.0 da “measure” fonksiyonu altında benzer izlenebilirlik şartları öneriyor. NIST AI Risk Management Framework üzerinde temellenen kurumsal AI governance modellerinde observability platformu bir kontrol noktası olarak değerlendiriliyor.
LangSmith SaaS’ta US East ve EU West region’larını seçtirir; LangChain Inc. SOC 2 Type II raporunu müşterilere sunar. LangWatch SaaS’ta benzer region desteği var, ancak asıl güçlü yan self-host: KVKK uyumluluğu için Türkiye datacenter’ında çalıştırmak istediğinizde — örneğin Türk Telekom veya Turkcell cloud bölgesinde — Helm chart deploy edilebiliyor. Bu, finans, sağlık ve kamu sektörlerindeki Türk kurumları için karar verici olabilen tek boyut.
- KVKK / GDPR PII: Prompt içinde TC kimlik, telefon, müşteri adı gibi veriler trace’lendiğinde redaction + access control şart. İki platform da row-level masking destekliyor; LangWatch’ta default-on, LangSmith’te explicit config.
- RBAC: Workspace/project/user düzeyinde yetki. LangSmith Enterprise SSO + SAML, LangWatch SaaS’ta SSO, self-host’ta Keycloak entegrasyonu örnekli.
- Audit log: Kim hangi trace’e ne zaman erişti — ikisi de tutuyor; EU AI Act madde 12 için yeterli.
- Şifreleme: Encryption-at-rest (AES-256) ve TLS 1.3 in-transit standart.

Performans, Ölçeklenebilirlik ve Operasyonel Yük
Bir observability platformunun kendi instrumentation overhead’i kabul edilebilir seviyede olmalı. Saha verisi ve vendor blog ölçümlerine göre LangSmith Python SDK @traceable decorator’ı tipik LLM çağrısına ~3-8 ms ek latency ekler (HTTP batch flush async olduğundan kullanıcıya yansımıyor). LangWatch OTEL span emit overhead’i benzer aralıkta, ~2-6 ms. Yüksek QPS senaryolarında her iki SDK da background queue + batch HTTP export kullanıyor; uygulama event loop’unu bloklamıyor.
1000 RPS bir API gateway senaryosunda LangWatch self-host (3 node Elasticsearch + 2 node app server) p95 trace ingestion latency’sini 200 ms altında tutabiliyor. LangSmith SaaS’ta aynı yük için “Plus” yetersiz, Enterprise gerekli. RAG Altyapı Kurulumu rehberindeki “ne kadar veri, ne kadar süre saklanacak” çerçevesi observability’de de mimarinin temelini belirler.
| Operasyonel Metric | LangSmith SaaS Plus | LangWatch Self-host (3 node) |
|---|---|---|
| SDK overhead per LLM call | ~3-8 ms (async batch) | ~2-6 ms (OTEL batch) |
| İngest throughput | Yönetilen (vendor SLO) | ~5K span/saniye (referans donanım) |
| Storage maliyeti (aylık 100M span) | Trace fiyatına dahil (~$2-4K) | ~$300-500 EBS/SSD + node maliyeti |
| Query p95 (1M trace üzerinde) | < 1 sn | < 1.5 sn (ES tuning'ine bağlı) |
| DevOps yükü | Sıfır | 1-2 SRE / part-time |
| Disaster recovery | Vendor sorumluluğu | Kendi backup/replication politikanız |
Hangi Senaryoda Hangisi? Karar Çerçevesi
İki platform da kalıcı kazananı olmayan, ekibinizin profili ve regülatör baskısına göre değişen kararlar. Aşağıdaki karar matrisi, müşteri projelerinde — Ömer Önal danışmanlık oturumlarında — tekrarlanan dört senaryoyu özetliyor:
- Senaryo A — Hızlı MVP, LangChain stack, az regülatör baskısı: LangSmith Developer/Plus. Time-to-value 1 saatten az, dataset + experiment iş akışı en olgun. Ne zaman seç: 5 kişi altı ekip, EU/US data residency yeterli.
- Senaryo B — Çoklu framework (LlamaIndex + DSPy + custom), açık kaynak tercihi: LangWatch SaaS veya open-source. OTEL native olduğu için Grafana stack’ine paralel akış mümkün. Ne zaman seç: Polyglot AI ekibi, vendor lock-in alerjisi.
- Senaryo C — Türkiye/EU finans-sağlık-kamu, KVKK/EU AI Act baskısı: LangWatch self-host. Veri ülke içinde, audit log tam kontrolde. Ne zaman seç: PII içeren prompt, on-prem zorunluluğu, kendi SRE ekibiniz var.
- Senaryo D — Enterprise LangChain shop, SSO/SAML/SOC 2 zorunlu, self-host tercih: LangSmith Enterprise. Vendor commercial support, LangGraph tight integration. Ne zaman seç: 50+ AI mühendisi, çoklu BU, central platform team.
Hibrit yaklaşım da mümkün: dev/staging’de LangSmith SaaS (hızlı iterasyon), production’da LangWatch self-host (compliance). OTEL standardı bu geçişi maliyetsizleştiriyor — instrumentation kodunu değiştirmeden exporter endpoint’ini değiştirip iki platforma paralel akıtabilirsiniz. Daha geniş AI altyapı kararları için LLM Özelleştirme rehberindeki “build-vs-buy” çerçevesi uygulanabilir.

Migration ve Çift Yönlü Geçiş Pratikleri
LangSmith’ten LangWatch’a veya tersi geçişte üç teknik adım vardır: (1) instrumentation katmanını OTEL’e taşı (LangSmith’in @traceable dekoratörünü OTEL tracer.start_as_current_span ile sarmal), (2) dataset export-import (her iki platform JSONL formatında çıkarır, alır), (3) evaluator portasyonu (custom prompt’lar büyük ölçüde taşınabilir, built-in eval’lerin isimleri farklı). Tipik bir migration 2-4 hafta sürer, paralel çalışma ile risk minimuma iner.
OTEL üzerinden Grafana Tempo veya Honeycomb gibi genel amaçlı backend’e de paralel akış mümkün. CNCF OpenTelemetry projesi 2024’te GenAI working group açtı; semantic conventions’ın olgunlaşmasıyla 2026’da platform-bağımsızlık daha da kuvvetlenecek. Prompt engineering sürecini observability ile bağlamak, prompt’un her commit’inde regression suite çalıştırmak — bu pratiği “PromptOps” olarak adlandıran ekipler artıyor.
Sık Sorulan Sorular
LangSmith ve LangWatch arasında ücretsiz kullanım için en pratik başlangıç hangisi?
LangChain stack’iniz varsa LangSmith Developer planı 5K trace/ay ile en hızlı başlangıç sunar. LangChain dışı framework veya self-host gereksiniminiz varsa LangWatch’ın açık kaynak edition’ı Docker Compose ile 10 dakikada ayağa kalkar ve tamamen ücretsizdir; kendi sunucunuzda sınırsız trace alır.
LLM observability için OpenTelemetry yeterli mi, ayrı bir platforma gerek var mı?
OTEL trace toplama için yeterlidir ancak evaluation, dataset versiyonlama, annotation queue, prompt registry gibi LLM’e özgü primitive’leri sağlamaz. LangWatch veya LangSmith bu primitive’leri OTEL’in üzerine ekler. Tek başına OTEL + Grafana, “production-grade LLM observability” için %40 yol kat etmiş sayılır.
KVKK kapsamında prompt loglarını yurtdışı SaaS’ta tutabilir miyim?
Anonim/agregat veriler için genellikle mümkündür, ancak prompt içinde TC kimlik, müşteri adı, hesap numarası gibi kişisel veri varsa açık rıza veya yurtdışı aktarım için KVKK Kurulu izni gerekir. Pratik çözüm: PII redaction katmanı + LangWatch self-host kombinasyonu ile veriyi Türkiye’de tutmak.
Trace verisi ne kadar süre saklanmalı?
Operasyonel debugging için 14-30 gün yeterlidir. Regression testi için dataset’e dönüştürülmüş örnekler kalıcı tutulur. EU AI Act yüksek riskli sistemler için minimum 6 ay öneriyor; finans sektörü iç regülasyonları 2-5 yıla kadar çıkabilir. Sıcak/soğuk tier ayrımı maliyet için önemli.
Bu platformlar agent (multi-step) iş akışlarını nasıl gösterir?
İkisi de hiyerarşik trace ağacı üzerinden tool call’ları, planner step’leri ve sub-agent çağrılarını ayrı span olarak gösterir. LangSmith LangGraph state geçişlerini görselleştirir; LangWatch genel agent framework’ler için OTEL span attribute’ları üzerinden render eder. Halüsinasyon ve sonsuz döngü tespiti için her iki platformda da custom evaluator yazılabilir.
Sonuç
LLM observability artık “nice to have” değil, üretim AI uygulamasının çekirdek mimari bileşeni. LangSmith ve LangWatch farklı felsefeleri temsil ediyor: ilki LangChain ekosisteminin native bileşeni ve hızlı time-to-value odaklı; ikincisi OpenTelemetry ve açık kaynak çekirdek üzerine kurulu, framework-agnostik ve self-host’ta tam kontrol sağlayan. Doğru seçim ekip büyüklüğü, framework çeşitliliği, regülatör baskısı ve veri rezidansı kısıtlarının kesişiminde belirlenir.
Karar matrisini sadeleştirmek için: LangChain stack + SaaS kabul edilebilir = LangSmith; çoklu framework veya KVKK self-host zorunluluğu = LangWatch. Hibrit modelde dev’de SaaS, prod’da self-host şeklinde her iki platformu paralel kullanmak da gerçekçi bir yol — OTEL standardı bu geçişi maliyetsizleştiriyor. Önemli olan, observability’yi bir araç seçimi değil bir disiplin olarak konumlandırmak; trace, evaluation, dataset, annotation primitive’lerini ekibin günlük iş akışına gömmek.
Kurumsal LLM observability mimarisini KVKK uyumlu şekilde kurmak, mevcut LangChain stack’inizi self-host bir platforma taşımak veya RAG pipeline’ınız için end-to-end eval suite tasarlamak istiyorsanız iletişim sayfası üzerinden ulaşabilirsiniz; mevcut stack’inizin trace overhead’ini ölçen ve 30 günlük yol haritası çıkaran bir teşhis oturumu ile başlıyoruz.










Ömer ÖNAL
Mayıs 16, 2026Yazılım danışmanlığı projelerinde sıkça karşılaştığım bir soru: “Hangi mimari hangi senaryoda öncelikli olmalı?” Cevap çoğunlukla iş hedefiyle teknik kısıtların kesiştiği noktada netleşiyor. Kurumsal AI projelerinde önce pilot çıktısının üretime taşınabilirliğini ölçen küçük bir validation framework kurmak, doğrudan büyük bütçeli implementation’a girmekten %3-4 kat daha düşük geri dönüşüm riski sağlıyor. Yorumlarınıza açığım.