Benchmark'a Dön
Benchmark · Metodoloji

Yapay Zeka Modelleri Nasıl Test Ediliyor?

Bu benchmark, genel amaçlı yapay zeka modellerinin Türk hukuku bağlamındaki performansını ölçer. Modeller aynı soru setine tabi tutulur, yanıtlar açık bir rubric ile puanlanır ve satıcı katılımı olmadan değerlendirilir.

Bu metodoloji sürekli gelişen bir çalışmadır.Soru sayısı, hukuk alanı kapsamı ve değerlendirme kriterleri topluluk geri bildirimi ve yeni bulgularla zamanla güncellenir. Aşağıdaki "Kısıtlar" bölümü, mevcut sürümün sınırlarını ve gelecekteki geliştirme yönlerini özetler.

Kapsam

Soru seti, bir avukatın günlük pratiğine yakın olay metinleri üzerine kurulur ve üç hukuk alanından toplam 51 soru içerir:

TBK
Borçlar Hukuku
23 soru
TTK
Ticaret Hukuku
17 soru
HMK
Hukuk Muhakemeleri
11 soru

Her soru, aşağıdaki 6 değerlendirme kategorisinden birine atanır; bu sayede hukuk alanları ile kategoriler arasında dengeli bir dağılım hedeflenir. Skor tablosunda hem kategori bazlı hem hukuk alanı bazlı kırılımlar, model detay sayfalarında ise alan × kategori kesişimi gösterge niteliğinde sunulur.

v1 (bu benchmark'ın ilk sürümü) kapsamı genel amaçlı modellerle sınırlıdır. Mecellem gibi Türk hukukuna özel geliştirilmiş araçlar bu sürümde değerlendirilmemiştir.

Değerlendirme Kategorileri

Her soru, LegalBench (Stanford Üniversitesi'nin geliştirdiği, hukuki yapay zeka modellerini değerlendirmek için kullanılan uluslararası bir standart) çerçevesinden uyarlanan 6 kategoriden birine girer. Kural Uygulama (Rule Application), Sonuç Çıkarma (Rule Conclusion) ve Yorum (Interpretation) kategorileri toplam ağırlığın %60'ını oluşturur; çünkü bunlar gerçek hukuki muhakeme (bir kuralı somut bir olaya uygulayıp mantıklı bir sonuca ulaşma) gerektirir. Kural Hatırlama'nın (Rule Recall) ağırlığı düşüktür, çünkü doğru maddeyi bulma tek başına ayırt edici değildir.

Her kategori, o yetkinliğe özgü ayrı bir rubrikle ve ayrı bir değerlendirme çağrısıyla puanlanır; genel bir "iyi/kötü" izlenimi tüm boyutlara yansıtılmaz. Örneğin Kural Hatırlama'da maddenin spesifik fıkrası kademeli puanlanırken (madde + fıkra tam doğruysa 3, yalnızca genel madde doğruysa 2), Retorik Anlama'da yalnızca argümantasyon ve terminoloji kalitesi ölçülür, hukuki sonucun doğruluğu bu kategorinin kapsamı dışındadır. Bu ayrım, bir boyuttaki hatanın diğer kategorileri zincirleme düşürmesini (halo etkisini) engeller.

Meseleyi Tespit (Issue Spotting)
Metinde örtük veya açık hukuki sorunu tespit edebilme yetkinliği.
Kural Hatırlama (Rule Recall)
Somut olaya uygulanabilir hukuk kurallarını ve maddelerini doğru hatırlama.
Kural Uygulama (Rule Application)
Hatırlanan kuralı verilen olgulara isabetli biçimde uygulama.
Sonuç Çıkarma (Rule Conclusion)
Kural uygulamasından mantıksal ve hukuken savunulabilir sonuç çıkarma.
Yorum (Interpretation)
Yoruma açık hükümleri Türk hukuku perspektifiyle analiz etme.
Retorik Anlama (Rhetorical Understanding)
Hukuki argümantasyon kalitesi, ikna edici yazım yetkinliği ve Türkçe hukuki terminoloji/jargon kullanımı.

Puanlama (0-3)

Her cevap, ilgili olduğu kategorinin kendine özgü rubriğine göre 0-3 arası puanlanır. Değerlendirici yalnızca o kategoriyi ölçer, başka boyutlardaki hatalar kategoriyi zincirleme düşürmez (halo etkisi önlenir). Halüsinasyon (uydurma atıf) tespit edilirse, madde ve kural atfını ölçen kategorilerde (Kural Hatırlama, Kural Uygulama) skor 1'e sabitlenir. Halüsinasyonun asıl yaptırımı ise skordan bağımsız, ondan daha öncelikli bir güvenlik metriği olarak ayrıca raporlanır (bkz. Halüsinasyon Kontrolü).

0
Başarısız
  • ·Kategorinin ölçtüğü yetkinlik hiç gösterilmemiş veya referansla taban tabana zıt.
1
Zayıf
  • ·Kategorinin çekirdeği büyük ölçüde kaçırılmış; sonuç yönü veya temel gerekçe hatalı.
  • ·Madde/kural kategorilerinde: doğru kanun ama mantığı bozan yanlış madde/fıkra.
2
Yeterli
  • ·Kategorinin asıl hedefi doğru karşılanmış; küçük eksiklik veya ikincil hata var.
3
İyi
  • ·Kategori hedefi eksiksiz karşılanmış; referansla büyük ölçüde örtüşüyor,bir avukatın kabul edebileceği kalitede.

Halüsinasyon Kontrolü

"Halüsinasyon", bir yapay zeka modelinin gerçekte var olmayan bir bilgiyi (örneğin olmayan bir kanun maddesi numarası veya Yargıtay kararı) gerçek gibi sunmasıdır. Halüsinasyon, bu benchmark'ta toplam skordan bağımsız ve ondan daha kritik bir güvenlik ekseni olarak ele alınır: bir muhakeme hatasını avukat okurken fark edebilir, ancak uydurma bir kanun maddesini veya Yargıtay kararını fark etmeden dilekçesine taşıyıp yaptırımla karşılaşabilir. Bu yüzden halüsinasyon oranı, yüksek bir toplam skorun arkasına gizlenmez; skor tablosunda ayrı ve görünür bir risk göstergesi olarak sunulur,düşük halüsinasyon, yüksek toplam skordan önce gelir. Bunun yanında, uydurma atıf tespit edildiğinde madde ve kural atfını ölçen kategorilerde (Kural Hatırlama, Kural Uygulama) skor 1'e sabitlenir.

Skor tablosunda ve model detay sayfalarında gösterilen halüsinasyon oranı, bir modelin cevapladığı sorulardan kaçında değerlendiricilerin çoğunluğunun halüsinasyon tespit ettiğinin yüzdesidir (2 değerlendirici: ikisi de; 3 değerlendirici: en az 2'si işaretlemiş olmalıdır). Yanlış sonuca ulaşan ama gerçek kaynaklara dayanan cevaplar bu orana dahil edilmez,yalnızca gerçekte var olmayan referanslar sayılır.

Örnek: Halüsinasyon Nasıl Tespit Edilir?
Soru: Bir anonim şirkette yönetim kurulu üyesinin, şirketle kendisi arasında bir sözleşme yapması (şirketle işlem yapma yasağı) hangi koşullarda mümkündür?
Uydurma Atıf İçeren Yanıt: "TTK m. 395 ve Yargıtay 11. Hukuk Dairesi'nin 2019/4521 E., 2021/3847 K. sayılı kararı uyarınca, yönetim kurulu üyesi genel kuruldan onay almadan da şirketle işlem yapabilir."

TTK m. 395 gerçekte var olan bir maddedir (yönetim kurulu üyesinin şirketle işlem yapma yasağı). Ancak atıf yapılan Yargıtay kararı (11. HD, 2019/4521 E.) gerçekte mevcut değildir. Bu yanıtta iki ayrı eksen birden çalışır: hukuki sonuç referansla zıt olduğu için skor 0 verilir; bundan bağımsız olarak, uydurma karar numarası nedeniyle halüsinasyon olarak işaretlenir. Sonuç doğru olsaydı dahi, uydurma içtihat madde/kural kategorilerinde skoru 1'e tavanlardı,yani halüsinasyon, skordan ayrı ve ondan önce gelen bir yaptırımdır.

Hukuki Türkçe & Jargon Ölçümü

Modellerin ürettiği metinlerin Türk hukuku yazım dili standartlarına ve avukatlık pratiğindeki üsluba uygunluğu, benchmark kapsamında Retorik Anlama (Rhetorical Understanding) kategorisinde ölçülmektedir. AI hakem modelleri, model yanıtını hukukçular tarafından hazırlanmış referans cevapla kıyaslayarak 0-3 rubric ile aşağıdaki kriterlere göre puanlar:

Terminoloji Doğruluğu

Hukuki terimlerin doğru bağlamda kullanılıp kullanılmadığı değerlendirilir. Örneğin; "sözleşmeyi bitirmek" yerine "sözleşmeyi feshetmek", "geçersizlik" yerine duruma göre "butlan" veya "hükümsüzlük", "gecikme" yerine "temerrüt" gibi nüanslar referans cevapla kıyaslanır.

Üslup Uygunluğu

Anlatımın Türk yargı pratiğinde kullanılan resmi hukuki yazım diline uygunluğu değerlendirilir. Günlük konuşma dili, yabancı dilden birebir tercüme kalıpları veya dilekçe formatına uymayan yapılar puanı düşürür.

Retorik Anlama skoru bu kriterleri tek bir bütünleşik değerlendirmeyle puanlar — aynı 0-3 rubric, aynı hakem modelleri, aynı çift-hakem + tiebreaker akışı. Model detay sayfalarında gösterilen Retorik Anlama skoru doğrudan D1'den hesaplanan bu kategori ortalamasıdır. v2+ fazında bu otomatik skorlar, Uygulayıcı üyelerin yorumlarıyla kalibre edilmesi planlanmaktadır.

Değerlendirme Süreci

Her model yanıtı iki farklı LLM değerlendirici tarafından bağımsız olarak puanlanır; hiçbir model kendi yanıtını tek başına değerlendiremez (primer: Claude Opus 4.8; sekonder: Gemini 3.5 Flash). İki değerlendirici ±1 puan içinde anlaşırsa ortalama alınır; ayrışma 2 puanı bulursa ya da biri 0 verip diğeri pozitif puan verirse üçüncü bir değerlendirici (tiebreaker: GPT-5.5) devreye girer ve üç skorun ortancası (median) nihai puan olarak alınır.

Değerlendiriciler kendi hukuk bilgilerine göre yargıda bulunmaz; her soru için önceden hazırlanmış, ilgili kanun maddeleri ve içtihatlara dayandırılmış bir referans cevaba göre kıyaslama yapar. Tüm değerlendirmeler temperature=0 (modelin yanıtlarının her çalıştırmada aynı ve tutarlı çıkmasını sağlayan bir ayar) ile çalıştırılır ve her kategori ayrı bir değerlendirme çağrısıyla puanlanır.

Grader kısıtı:Bu benchmark'ta değerlendirici kadro sabittir,Anthropic ve Google modellerinin test edildiği turlarda grader kadrosunda aynı sağlayıcıdan bir model bulunmaktadır (örn. Claude Opus 4.8 hem test modeli hem primer grader olarak kullanılır). Değerlendiriciler referansa-bağlı puanlama yaptığından bu etki sınırlıdır; ancak ilgili modellerin skorları yorumlanırken göz önünde bulundurulması önerilir. Grader rotasyonu v2 kapsamında değerlendirilmektedir.

51 soruluk bir set üzerinden hesaplanan toplam skor, modeller arası genel bir karşılaştırma için anlamlıdır. Kategori bazlı kırılımlar ise gösterge niteliğinde sunulur ve soru sayısı arttıkça güçlenecektir.

Test Edilen Modeller

Bu ilk sürümde (v1) kapalı kaynak (kodu ve ağırlıkları kamuya açık olmayan) öncü modeller ve açık kaynak (kodu/ağırlıkları herkesin kullanabileceği şekilde paylaşılan) modeller test edilir. Aynı model ailesinin farklı sürümleri (örn. Claude Opus 4.7 ve 4.8) skor tablosunda ayrı satırlar olarak yer alır,her sürüm kendi performansıyla şeffaf şekilde gösterilir, eski sürümler gizlenmez. Model sürümleri, alanın hızlı değiştiğini göz önünde bulundurarak her test döneminde güncel listeyle teyit edilir.

Qwen3.6 PlusAçık kaynak · Alibaba Cloud
DeepSeek V3.2Açık kaynak · DeepSeek
DeepSeek R1 (0528)Açık kaynak · DeepSeek
Kimi K2.6Açık kaynak · Moonshot AI
Llama 4 MaverickAçık kaynak · Meta
GPT-5.5Kapalı kaynak · OpenAI
Claude Opus 4.7Kapalı kaynak · Anthropic
Claude Opus 4.8Kapalı kaynak · Anthropic
Gemini 3.1 Pro (Preview)Kapalı kaynak · Google
Gemini 3.5 FlashKapalı kaynak · Google
Qwen3 32BAçık kaynak · Alibaba Cloud
DeepSeek R1 Distill (Qwen 32B)Açık kaynak · DeepSeek

Bu Benchmark'ın Kısıtları

Şeffaflık ilkesi gereği, bu benchmark'ın neyi ölçtüğü kadar neyi ölçmediğini de açıkça belirtiyoruz:

  • Soru sayısı sınırlıdır (51): Toplam skor modeller arası genel bir karşılaştırma için anlamlıdır; ancak kategori bazlı kırılımlar (her biri ~7-8 soru) küçük örneklem nedeniyle gösterge niteliğindedir.
  • Yazılı yanıt değerlendirmesi: Bu test, modellerin tek seferlik yazılı metin yanıtlarını ölçer. Gerçek bir dava dosyası, çok adımlı araştırma, belge inceleme veya araç/MCP kullanımı (agentic iş akışları) bu sürümün kapsamı dışındadır.
  • Üç hukuk alanıyla sınırlı:Soru seti TBK, TTK ve HMK'ya odaklanır; ceza hukuku, idare hukuku, aile hukuku gibi alanlar bu sürümde yer almaz.
  • Tek zaman noktası: Skorlar test tarihindeki model sürümlerini yansıtır. Modeller sık güncellendiğinden, bir modelin güncel davranışı burada gösterilen skorlardan farklılaşmış olabilir.
  • LLM tabanlı değerlendirme: Puanlar referansa-bağlı LLM değerlendiricilerden gelir; insan hukukçu incelemesi yalnızca referans cevapların ve soru setinin hazırlanma aşamasında yapılır, her bireysel model yanıtının ayrıca hukukçu tarafından tekrar puanlanması bu sürümde yoktur.
  • Sadece genel amaçlı modeller: Bu sürümde test edilen tüm modeller genel amaçlı büyük dil modelleridir; Türk hukukuna özel olarak eğitilmiş veya ince ayarlanmış (fine-tuned) bir model bu sürümde yer almaz. İleride hukuka özel modeller test setine eklendiğinde, genel amaçlı ve hukuka özel modeller arasında ayrı bir karşılaştırma eklenmesi planlanmaktadır.
  • Referansa-bağlı puanlama: Değerlendirici, verilen referans cevabı esas alır; kendi güncel hukuk bilgisine göre yargıda bulunmaz. Bu, tutarlılık ve denetlenebilirlik sağlar; ancak modelin doktrindeki güçlü bir azınlık görüşüne veya farklı bir Yargıtay dairesinin içtihadına dayanarak referanstan ayrışan, kendi içinde tutarlı bir yanıtı, bu sürümde otomatik olarak ödüllendirilmez. Bu tür durumlar manuel doğrulama aşamasında ele alınır.
  • Mevzuat zamanlaması: Referans cevaplar hazırlandıkları tarihteki yürürlükteki mevzuata dayanır. Kira artış tavanları gibi dönemsel/geçici düzenlemelerde, güncel mevzuata göre cevap veren bir model ile referans arasında zamansal sapma oluşabilir; bu olasılık skorlar yorumlanırken göz önünde bulundurulmalıdır.
  • Değerlendirici-aday örtüşmesi: Değerlendirici (grader) modellerden bazıları, ileride test edilecek aday modeller arasında da yer alabilir. Bir model kendi ailesinin cevabını puanladığında teorik bir kayırma (self-preference) eğilimi oluşabilir. Bu etkiyi sınırlamak için çift değerlendirici + farklı sağlayıcıdan üçüncü bir tie-breaker kullanılır; yine de aynı modelin hem aday hem değerlendirici olduğu satırlar mutlak tarafsızlık garantisi taşımaz ve sonuç yorumlanırken bu durum göz önünde bulundurulmalıdır.
  • Cevap vermeme (non-response):Bir modelin soruyu yanıtlamak yerine kaçınması ("bir avukata danışın" türü), halüsinasyondan ayrı bir metrik olarak ölçülür. Yüksek cevap-vermeme oranı, düşük halüsinasyonu yapay olarak iyi gösterebileceğinden, iki metrik tabloda birlikte değerlendirilmelidir.
Feragatname

Bu benchmark sonuçları, modellerin belirli bir soru seti ve değerlendirme protokolü altındaki performansını yansıtır; herhangi bir modelin genel hukuki yeterliliği veya güvenilirliği hakkında kesin bir garanti niteliği taşımaz. Referans cevaplar ilgili kanun maddeleri ve içtihatlara dayandırılarak hazırlanmıştır. Sonuçlar hiçbir satıcı katılımı veya finansmanı olmadan, bağımsız olarak üretilmiştir.