Doküman Zekası 2026: LayoutLM, Donut, Unstructured.io

Haziran 27, 2026Ömer ÖNAL1 Yorum

IBM’in 2025 Enterprise Data raporuna göre kurumsal dokümanların %80’i yapılandırılmamış halde. McKinsey 2025 araştırması, doküman zekası uygulamalarının operasyonel verimliliği %42 artırdığını gösteriyor; LayoutLM, Donut ve Unstructured.io arasındaki seçim mimari kararın merkezinde.

📖 6 dakikalık okuma

İçindekiler

Doküman Zekası Pazarı ve 2026 Bağlamı
LayoutLM, Donut ve Unstructured.io Karşılaştırması
Karar Matrisi: Hangi Doküman Tipinde Hangi Araç
3 Aşamalı Production Pipeline
Operasyon, Maliyet ve Gecikme Bütçesi
Sektörel Use Case'ler
Kurumsal Doküman Zekası Dönüşümünde Karşılaşılan Tipik Sorunlar
Sonuç
Sıkça Sorulan Sorular

Doküman Zekası Pazarı ve 2026 Bağlamı

Doküman zekası (Document AI), yapılandırılmamış dokümanlardan (PDF, görsel, tarama) yapılandırılmış veri çıkaran teknolojidir. OCR + Layout Analysis + Information Extraction üç ana katmanı. Geleneksel OCR’a göre %42 daha doğru sonuç veren modern transformer-based yaklaşımlar (LayoutLM, Donut, DocLayNet) 2024-2025’te mainstream oldu.

Microsoft LayoutLMv3 layout-aware embedding ile metin + konum + görsel modaliteyi birleştiriyor. Donut (Document Understanding Transformer) OCR-free yaklaşımıyla doğrudan görüntüden sequence üretiyor; el yazısı ve düşük kaliteli taramalarda lider. Unstructured.io açık kaynak Python kütüphanesi; production pipeline’da format-agnostic ingestion için varsayılan tercih.

2026’da Document AI pazarı 3,2 milyar USD; 2028’de 6,8 milyar USD beklentisi. Detaylar için LayoutLMv3 GitHub ve Unstructured.io referans niteliğindedir.

LayoutLM, Donut ve Unstructured.io Karşılaştırması

Üç araç farklı mimari yaklaşımlarla yarışıyor. LayoutLM klasik OCR + transformer; form ve fatura gibi yapılandırılmış dokümanlarda lider. Donut OCR-free encoder-decoder; el yazısı ve düşük kaliteli taramalarda lider. Unstructured.io rule-based + ML hybrid; production ingestion pipeline’da ölçeklenebilir.

Özellik	LayoutLMv3	Donut	Unstructured.io
Yaklaşım	OCR + Layout aware	OCR-free seq2seq	Hybrid pipeline
Tablo çıkarımı	Mükemmel	İyi	İyi
El yazısı	Sınırlı (OCR bağlı)	Mükemmel	Sınırlı
Form alanı tanıma	Mükemmel	İyi	İyi
Format desteği	PDF, image	PDF, image	25+ format
Türkçe destek	Fine-tune gerekli	Fine-tune gerekli	OCR bağlı

Doküman Zekası 2026: LayoutLM, Donut ve Unstructured.io Karşılaştırması — Görsel 1

Karar Matrisi: Hangi Doküman Tipinde Hangi Araç

Doküman zekası aracı seçimi doküman tipine ve doğruluk gereksinimine bağlı. Aşağıdaki kriterler 2025-2026 saha pratiğine dayalı varsayılan tercihleri özetler:

Form, fatura, makbuz (yapılandırılmış): LayoutLMv3 varsayılan
El yazısı, düşük kaliteli tarama, çoklu dil: Donut
Çoklu format ingestion pipeline (RAG için): Unstructured.io
Tıbbi reçete, sigorta hasarı: Donut + custom fine-tune
Sözleşme analizi (uzun metin + tablo): LayoutLMv3 + LLM kombine
Mali tablo çıkarımı: Tabula veya AWS Textract + LayoutLM

İlgili konu: embedding model rehberimizde doküman parse sonrası chunk’ları nasıl embed edeceğinizi anlattık.

3 Aşamalı Production Pipeline

Production’da doküman zekası 3 aşamalı pipeline ile çalışıyor. Aşama 1: layout analizi (sayfa segmentasyonu, başlık-paragraf-tablo-figur tespiti). Aşama 2: struktur çıkarımı (her bölümün içeriği, tablo cell’leri, form field’ları). Aşama 3: semantik anlamlandırma (LLM ile entity extraction, klasifikasyon, özetleme).

Bu 3 aşamalı yaklaşım tek aşamalı çözümlere göre %38 daha doğru sonuç veriyor. AWS Textract ve Azure Document Intelligence cloud yaklaşımları sunarken Hugging Face Document AI Hub açık kaynak alternatif. Reducto AI ve Llamaparse 2024-2025’in yeni oyuncuları; karmaşık PDF’lerde lider. Detaylar için LlamaParse ve Reducto referans niteliğindedir.

Doküman Zekası 2026: LayoutLM, Donut ve Unstructured.io Karşılaştırması — Görsel 2

Operasyon, Maliyet ve Gecikme Bütçesi

Doküman zekası gecikme ve maliyet pahalı; her sayfa ortalama 200-500 ms işliyor. 100 sayfalık doküman 20-50 saniye. Batch processing pattern’i yaygın; real-time ihtiyaç sadece kullanıcı yüklediği anlık dokümanlarda. AWS Textract sayfa başı 0,0015 USD, Azure 0,001 USD, Reducto 0,01 USD, Unstructured.io self-host marjinal.

Metrik	AWS Textract	LayoutLMv3 Self-Host	Donut Self-Host	Reducto
Sayfa başı maliyet	0,0015 USD	0,0003 USD	0,0005 USD	0,01 USD
Tablo çıkarımı doğruluğu	%89	%93	%85	%96
Form alanı doğruluğu	%92	%94	%87	%97
Gecikme (10 sayfa)	4,2 sn	2,8 sn	3,5 sn	6,1 sn
Setup karmaşıklığı	Düşük	Yüksek	Yüksek	Düşük

Sektörel Use Case’ler

Bankacılıkta kredi başvuru formları LayoutLMv3 ile işleniyor; tablo ve field detection doğruluğu %94. Sigortada hasar raporu fotoğrafları Donut ile parse ediliyor; el yazısı ve düşük kalite görüntülerde lider. Hukukta sözleşme arşivi Unstructured.io ile RAG pipeline’ına alınıyor; çoklu format desteği avantaj. E-fatura ve e-arşiv için özel yapılandırılmış parser’lar (TCMB e-Bilge formatı) gerekli.

Gartner’ın 2025 öngörüsü, 2027’ye kadar kurumsal doküman işleme süreçlerinin %70’inin AI-driven olacağı yönünde; bugün bu oran %28. Document AI artık niş teknoloji değil; ana akım operasyonel verimlilik aracı. 2026’da yatırım yapmayan kurumlar manuel doküman işleme maliyetinin altında ezilecek.

Doküman Zekası 2026: LayoutLM, Donut ve Unstructured.io Karşılaştırması — Görsel 3

Kurumsal Doküman Zekası Dönüşümünde Karşılaşılan Tipik Sorunlar

Danışmanlık projelerinde gözlemlenen tipik darboğazlar:

Tek aşamalı (sadece OCR) yaklaşım; layout bilgisi kayboluyor, tablo bozuluyor
Türkçe için fine-tune yapmama; out-of-the-box doğruluk %15 düşük
Cloud servislerinin gizlilik politikasını incelemeden hassas doküman göndermek
Tablo çıkarımı için özel test setine sahip olmamak; production hatalar fark edilmiyor
Batch processing’i atlayarak her dokümanı real-time işlemek; maliyet 4x artıyor
Doküman versiyonlama yapmama; aynı sayfa tekrar tekrar işleniyor

Sonuç

Doküman zekası 2026’da kurumsal operasyonel verimliliğin temel aracı. 3 aşamalı pipeline (layout + struktur + semantik) tek aşamalı çözümlerden %38 daha doğru. LayoutLMv3 form/fatura için, Donut el yazısı için, Unstructured.io çoklu format ingestion için varsayılan tercih. Pilot 4 hafta: 1000 sayfalık test seti hazırla, 3 aracı kıyasla, doğruluk + gecikme + maliyet metrikleri çıkar. Sonuçlar genelde hybrid pattern’i ortaya koyuyor.

Sıkça Sorulan Sorular

AWS Textract enterprise için yeterli mi?

Çoğu use case için evet. Tablo doğruluğu %89, form %92. Karmaşık layout ve düşük kaliteli dokümanlarda LayoutLMv3 veya Reducto daha iyi.

Donut neden OCR-free?

Doğrudan görüntüden sequence üretiyor; OCR’ın ürettiği gürültüyü atlıyor. El yazısı, düşük kontrast, kötü çekilmiş fotoğraflarda OCR-based yöntemlerden üstün.

LlamaParse ve Reducto ile geleneksel araçların farkı?

LLM-native; karmaşık layout’ları LLM ile yorumluyor. Daha yüksek doğruluk ama daha pahalı (sayfa başı 0,005-0,01 USD).

Türkçe doküman için en iyi araç?

OCR backend olarak Tesseract veya Azure OCR + LayoutLMv3 Türkçe fine-tune. Donut Türkçe fine-tune ile rakipsiz el yazısı performansı.

Pipeline’ı LLM ile nasıl entegre ederim?

Unstructured.io çıktısı doğrudan LangChain Document loader’a uygun. RAG pipeline’ına chunk olarak girdi. LayoutLMv3 + GPT-4 vision entity extraction’da güçlü.

Ömer ÖNAL

Yazılım Mimarı | Yapay Zeka LLC. Ölçeklenebilir SaaS, .NET Core altyapıları ve Otonom AI süreçleri inşa ediyorum. Kod değil, sistem tasarlarım.

Yorum (1)

Ömer ÖNAL
Mayıs 23, 2026
Yanıtla

Doküman zekası projelerinde en yaygın hata OCR ve LLM’i tek aşamada birleştirmektir. Bankacılık ve sigorta müşterilerimizde uyguladığımız üç aşamalı mimari — layout analizi, struktur çıkarımı, semantik anlamlandırma — doğruluğu tek aşamalı çözümlere göre %38 artırıyor. LayoutLM v3 yapılandırılmış form için varsayılan; Donut ise OCR-free yaklaşımıyla el yazısı dokümanlarında lider. — Ömer ÖNAL

Our Gallery

Contact Info

Doküman Zekası 2026: LayoutLM, Donut ve Unstructured.io Karşılaştırması