IBM’in 2025 Enterprise Data raporuna göre kurumsal dokümanların %80’i yapılandırılmamış halde. McKinsey 2025 araştırması, doküman zekası uygulamalarının operasyonel verimliliği %42 artırdığını gösteriyor; LayoutLM, Donut ve Unstructured.io arasındaki seçim mimari kararın merkezinde.
Doküman Zekası Pazarı ve 2026 Bağlamı
Doküman zekası (Document AI), yapılandırılmamış dokümanlardan (PDF, görsel, tarama) yapılandırılmış veri çıkaran teknolojidir. OCR + Layout Analysis + Information Extraction üç ana katmanı. Geleneksel OCR’a göre %42 daha doğru sonuç veren modern transformer-based yaklaşımlar (LayoutLM, Donut, DocLayNet) 2024-2025’te mainstream oldu.
Microsoft LayoutLMv3 layout-aware embedding ile metin + konum + görsel modaliteyi birleştiriyor. Donut (Document Understanding Transformer) OCR-free yaklaşımıyla doğrudan görüntüden sequence üretiyor; el yazısı ve düşük kaliteli taramalarda lider. Unstructured.io açık kaynak Python kütüphanesi; production pipeline’da format-agnostic ingestion için varsayılan tercih.
2026’da Document AI pazarı 3,2 milyar USD; 2028’de 6,8 milyar USD beklentisi. Detaylar için LayoutLMv3 GitHub ve Unstructured.io referans niteliğindedir.
LayoutLM, Donut ve Unstructured.io Karşılaştırması
Üç araç farklı mimari yaklaşımlarla yarışıyor. LayoutLM klasik OCR + transformer; form ve fatura gibi yapılandırılmış dokümanlarda lider. Donut OCR-free encoder-decoder; el yazısı ve düşük kaliteli taramalarda lider. Unstructured.io rule-based + ML hybrid; production ingestion pipeline’da ölçeklenebilir.
| Özellik | LayoutLMv3 | Donut | Unstructured.io |
|---|---|---|---|
| Yaklaşım | OCR + Layout aware | OCR-free seq2seq | Hybrid pipeline |
| Tablo çıkarımı | Mükemmel | İyi | İyi |
| El yazısı | Sınırlı (OCR bağlı) | Mükemmel | Sınırlı |
| Form alanı tanıma | Mükemmel | İyi | İyi |
| Format desteği | PDF, image | PDF, image | 25+ format |
| Türkçe destek | Fine-tune gerekli | Fine-tune gerekli | OCR bağlı |

Karar Matrisi: Hangi Doküman Tipinde Hangi Araç
Doküman zekası aracı seçimi doküman tipine ve doğruluk gereksinimine bağlı. Aşağıdaki kriterler 2025-2026 saha pratiğine dayalı varsayılan tercihleri özetler:
- Form, fatura, makbuz (yapılandırılmış): LayoutLMv3 varsayılan
- El yazısı, düşük kaliteli tarama, çoklu dil: Donut
- Çoklu format ingestion pipeline (RAG için): Unstructured.io
- Tıbbi reçete, sigorta hasarı: Donut + custom fine-tune
- Sözleşme analizi (uzun metin + tablo): LayoutLMv3 + LLM kombine
- Mali tablo çıkarımı: Tabula veya AWS Textract + LayoutLM
İlgili konu: embedding model rehberimizde doküman parse sonrası chunk’ları nasıl embed edeceğinizi anlattık.
3 Aşamalı Production Pipeline
Production’da doküman zekası 3 aşamalı pipeline ile çalışıyor. Aşama 1: layout analizi (sayfa segmentasyonu, başlık-paragraf-tablo-figur tespiti). Aşama 2: struktur çıkarımı (her bölümün içeriği, tablo cell’leri, form field’ları). Aşama 3: semantik anlamlandırma (LLM ile entity extraction, klasifikasyon, özetleme).
Bu 3 aşamalı yaklaşım tek aşamalı çözümlere göre %38 daha doğru sonuç veriyor. AWS Textract ve Azure Document Intelligence cloud yaklaşımları sunarken Hugging Face Document AI Hub açık kaynak alternatif. Reducto AI ve Llamaparse 2024-2025’in yeni oyuncuları; karmaşık PDF’lerde lider. Detaylar için LlamaParse ve Reducto referans niteliğindedir.

Operasyon, Maliyet ve Gecikme Bütçesi
Doküman zekası gecikme ve maliyet pahalı; her sayfa ortalama 200-500 ms işliyor. 100 sayfalık doküman 20-50 saniye. Batch processing pattern’i yaygın; real-time ihtiyaç sadece kullanıcı yüklediği anlık dokümanlarda. AWS Textract sayfa başı 0,0015 USD, Azure 0,001 USD, Reducto 0,01 USD, Unstructured.io self-host marjinal.
| Metrik | AWS Textract | LayoutLMv3 Self-Host | Donut Self-Host | Reducto |
|---|---|---|---|---|
| Sayfa başı maliyet | 0,0015 USD | 0,0003 USD | 0,0005 USD | 0,01 USD |
| Tablo çıkarımı doğruluğu | %89 | %93 | %85 | %96 |
| Form alanı doğruluğu | %92 | %94 | %87 | %97 |
| Gecikme (10 sayfa) | 4,2 sn | 2,8 sn | 3,5 sn | 6,1 sn |
| Setup karmaşıklığı | Düşük | Yüksek | Yüksek | Düşük |
Sektörel Use Case’ler
Bankacılıkta kredi başvuru formları LayoutLMv3 ile işleniyor; tablo ve field detection doğruluğu %94. Sigortada hasar raporu fotoğrafları Donut ile parse ediliyor; el yazısı ve düşük kalite görüntülerde lider. Hukukta sözleşme arşivi Unstructured.io ile RAG pipeline’ına alınıyor; çoklu format desteği avantaj. E-fatura ve e-arşiv için özel yapılandırılmış parser’lar (TCMB e-Bilge formatı) gerekli.
Gartner’ın 2025 öngörüsü, 2027’ye kadar kurumsal doküman işleme süreçlerinin %70’inin AI-driven olacağı yönünde; bugün bu oran %28. Document AI artık niş teknoloji değil; ana akım operasyonel verimlilik aracı. 2026’da yatırım yapmayan kurumlar manuel doküman işleme maliyetinin altında ezilecek.

Kurumsal Doküman Zekası Dönüşümünde Karşılaşılan Tipik Sorunlar
Danışmanlık projelerinde gözlemlenen tipik darboğazlar:
- Tek aşamalı (sadece OCR) yaklaşım; layout bilgisi kayboluyor, tablo bozuluyor
- Türkçe için fine-tune yapmama; out-of-the-box doğruluk %15 düşük
- Cloud servislerinin gizlilik politikasını incelemeden hassas doküman göndermek
- Tablo çıkarımı için özel test setine sahip olmamak; production hatalar fark edilmiyor
- Batch processing’i atlayarak her dokümanı real-time işlemek; maliyet 4x artıyor
- Doküman versiyonlama yapmama; aynı sayfa tekrar tekrar işleniyor
Sonuç
Doküman zekası 2026’da kurumsal operasyonel verimliliğin temel aracı. 3 aşamalı pipeline (layout + struktur + semantik) tek aşamalı çözümlerden %38 daha doğru. LayoutLMv3 form/fatura için, Donut el yazısı için, Unstructured.io çoklu format ingestion için varsayılan tercih. Pilot 4 hafta: 1000 sayfalık test seti hazırla, 3 aracı kıyasla, doğruluk + gecikme + maliyet metrikleri çıkar. Sonuçlar genelde hybrid pattern’i ortaya koyuyor.
Sıkça Sorulan Sorular
AWS Textract enterprise için yeterli mi?
Çoğu use case için evet. Tablo doğruluğu %89, form %92. Karmaşık layout ve düşük kaliteli dokümanlarda LayoutLMv3 veya Reducto daha iyi.
Donut neden OCR-free?
Doğrudan görüntüden sequence üretiyor; OCR’ın ürettiği gürültüyü atlıyor. El yazısı, düşük kontrast, kötü çekilmiş fotoğraflarda OCR-based yöntemlerden üstün.
LlamaParse ve Reducto ile geleneksel araçların farkı?
LLM-native; karmaşık layout’ları LLM ile yorumluyor. Daha yüksek doğruluk ama daha pahalı (sayfa başı 0,005-0,01 USD).
Türkçe doküman için en iyi araç?
OCR backend olarak Tesseract veya Azure OCR + LayoutLMv3 Türkçe fine-tune. Donut Türkçe fine-tune ile rakipsiz el yazısı performansı.
Pipeline’ı LLM ile nasıl entegre ederim?
Unstructured.io çıktısı doğrudan LangChain Document loader’a uygun. RAG pipeline’ına chunk olarak girdi. LayoutLMv3 + GPT-4 vision entity extraction’da güçlü.










Ömer ÖNAL
Mayıs 23, 2026Doküman zekası projelerinde en yaygın hata OCR ve LLM’i tek aşamada birleştirmektir. Bankacılık ve sigorta müşterilerimizde uyguladığımız üç aşamalı mimari — layout analizi, struktur çıkarımı, semantik anlamlandırma — doğruluğu tek aşamalı çözümlere göre %38 artırıyor. LayoutLM v3 yapılandırılmış form için varsayılan; Donut ise OCR-free yaklaşımıyla el yazısı dokümanlarında lider. — Ömer ÖNAL