Dataset Viewer
Auto-converted to Parquet Duplicate
doc_id
stringlengths
8
10
chunk_idx
int64
0
1.19k
text
stringlengths
1
3k
kaynak
stringclasses
1 value
esas_no
stringlengths
1
11
karar_no
stringlengths
1
11
tarih
stringlengths
1
10
vector
listlengths
1.02k
1.02k
dokuman_tipi
stringclasses
1 value
80600600
0
**2. Hukuk Dairesi         2007/17004 E.  ,  2007/14843 K.** **"İçtihat Metni"** MAHKEMESİ :Fatih 2.Asliye Hukuk Mahkemesi TARİHİ :16.6.2006 Taraflar arasındaki davanın yapılan muhakemesi sonunda mahalli mahkemece verilen ve yukarıda tarih numarası gösterilen hüküm temyiz edilmekle evrak okunup gereği görüşülüp düş...
Yargıtay
2007/17004
2007/14843
02.11.2007
[ 0.0268707275390625, 0.03759765625, -0.018768310546875, 0.01546478271484375, 0.01451873779296875, -0.0780029296875, -0.0178375244140625, 0.014801025390625, -0.0083160400390625, 0.00860595703125, -0.009918212890625, 0.027191162109375, -0.061737060546875, 0.034210205078125, -0.0120010375976...
Emsal Karar
361398900
0
**17. Ceza Dairesi         2016/12248 E.  ,  2017/7610 K.** **"İçtihat Metni"** MAHKEMESİ :Asliye Ceza Mahkemesi SUÇ : Karşılıksız yararlanma HÜKÜM : Beraat Yerel mahkemece verilen hüküm temyiz edilmekle, başvurunun süresi ve kararın niteliği ile suç tarihine göre dosya görüşüldü: 1-30.09.2013 tarihli kaçak/usuls...
Yargıtay
2016/12248
2017/7610
13.06.2017
[ -0.00659942626953125, 0.056060791015625, -0.04083251953125, -0.0148468017578125, 0.004444122314453125, -0.054931640625, 0.013885498046875, 0.0017852783203125, 0.019012451171875, 0.022613525390625, 0.026611328125, 0.0003135204315185547, -0.03802490234375, -0.0057220458984375, -0.011940002...
Emsal Karar
699062500
0
**1. Ceza Dairesi         2021/7354 E.  ,  2021/13000 K.** **"İçtihat Metni"** MAHKEMESİ :Ağır Ceza Mahkemesi TÜRK MİLLETİ ADINA Artvin Ağır Ceza Mahkemesi'nin 06.10.2020 gün ve 2020/8 Esas ve 2020/98 Karar sayılı bozma üzerine verilen kararının sanık müdafii, kurum vekili ve ... vekili tarafından 5271 sayılı CMK'n...
Yargıtay
2021/7354
2021/13000
04.10.2021
[ -0.012969970703125, 0.01393890380859375, 0.0027904510498046875, 0.01490020751953125, 0.014068603515625, -0.06005859375, 0.0027217864990234375, 0.019195556640625, -0.0131072998046875, 0.0279541015625, -0.0129547119140625, -0.0146942138671875, -0.04644775390625, 0.026763916015625, -0.00872...
Emsal Karar
699062500
1
1-Sanık ... ile hakkında tefrik kararı verilen sanık Mahmut'un birlikte plan yaparak maktulü bularak öldürmeye karar verdikleri, sanık Mahmut'un suç tarihinden kısa bir süre önce edindiği aracı Behrem'e verdiği, Behrem'in maktulün yerini öğrenebilecek tek kişi olan maktulün kardeşi Saliha'yı ...'dan alarak Ardanuç'a ge...
Yargıtay
2021/7354
2021/13000
04.10.2021
[ -0.00901031494140625, -0.019744873046875, 0.006816864013671875, -0.0042877197265625, 0.005359649658203125, -0.04632568359375, 0.016693115234375, -0.0236358642578125, 0.0155181884765625, 0.0126190185546875, 0.0017518997192382812, -0.004730224609375, -0.042388916015625, 0.032806396484375, ...
Emsal Karar
197123900
0
**7. Ceza Dairesi         2015/14826 E.  ,  2016/6225 K.** **"İçtihat Metni"** MAHKEMESİ : ......... 1. Asliye Ceza Mahkemesi SUÇ : 4733 sayılı Yasaya Muhalefet HÜKÜM : Sanıklar ........ ve .. hakkında beraat, sanık ...................... hakkında hükümlülük, müsadere Yerel mahkemece verilen hüküm temyiz edilmekle...
Yargıtay
2015/14826
2016/6225
27.04.2016
[ -0.039031982421875, -0.0009746551513671875, -0.005947113037109375, -0.0202178955078125, 0.0163116455078125, -0.0333251953125, -0.0207977294921875, 0.00919342041015625, 0.004154205322265625, 0.0036373138427734375, 0.01535797119140625, -0.0013380050659179688, -0.042266845703125, 0.0177001953...
Emsal Karar
78540800
0
**1. Hukuk Dairesi         2010/8760 E.  ,  2010/13386 K.** **"İçtihat Metni"** MAHKEMESİ : ÜSKÜDAR 1. ASLİYE HUKUK MAHKEMESİ, TARİHİ : 04/06/2009 Taraflar arasında görülen davada; Davacı Hazine, çekişme konusu 715 ada 1, 714 ada 2, 739 ada 1 ve 736 ada 9 parsel sayılı taşınmazlarda 2/3 pay sahibi V.. E..'nun, Tür...
Yargıtay
2010/8760
2010/13386
14.12.2010
[ 0.037750244140625, 0.04473876953125, -0.019012451171875, 0.023590087890625, -0.0117950439453125, -0.03179931640625, -0.0171966552734375, 0.023101806640625, -0.01335906982421875, 0.01131439208984375, -0.0036449432373046875, 0.045379638671875, -0.050567626953125, 0.007114410400390625, 0.01...
Emsal Karar
78540800
1
Mahkemece, çekişme konusu taşınmazlardaki 1/3 pay yönünden davanın açılmamış sayılmasına, miras bırakan V.. E..'ya ait 2/3 pay yönünden ise; asli müdahillerin davasının reddine, çekişme konusu ..ada 9 parsel sayılı taşınmaz yönünden davanın reddine, diğer çekişme konusu 715 ada 1,.. ada 2 ve ..ada 1 parsel sayılı taşın...
Yargıtay
2010/8760
2010/13386
14.12.2010
[ 0.01457977294921875, 0.045501708984375, -0.0173187255859375, 0.0283660888671875, -0.017730712890625, -0.03472900390625, 0.0276641845703125, 0.021026611328125, -0.0350341796875, 0.0246124267578125, -0.0003066062927246094, 0.037200927734375, -0.054840087890625, 0.01186370849609375, -0.0220...
Emsal Karar
78540800
2
Dosya içeriği ve kayıtların tetkikinden; çekişmeli taşınmazlardaki 2/3 pay sahibi V. E..'nun, Türk Vatandaşı olduğu, 29.05.1959 tarihinde öldüğü; F.. S.. (Ö..) isimli kişinin hasımsız olarak açtığı veraset davası sonucunda, Üsküdar Sulh Hukuk Mahkemesinin 28.12.1977 günlü, 1977/2426 esas, 1977/2243 sayılı kararıyla V. ...
Yargıtay
2010/8760
2010/13386
14.12.2010
[ 0.0229644775390625, 0.032440185546875, -0.012847900390625, 0.03497314453125, 0.001140594482421875, -0.008575439453125, -0.0172576904296875, 0.032989501953125, -0.003208160400390625, 0.022247314453125, -0.0093536376953125, 0.050323486328125, -0.020050048828125, -0.00007158517837524414, 0....
Emsal Karar
78540800
3
"Mahkemece, yapılan yargılama sonucunda, asli müdahillerin Arnavut uyruklu oldukları ve miras yo(...TRUNCATED)
Yargıtay
2010/8760
2010/13386
14.12.2010
[0.0599365234375,0.039764404296875,0.006099700927734375,0.005863189697265625,-0.0050048828125,0.0009(...TRUNCATED)
Emsal Karar
78540800
4
"Bu durumda, davacı Hazinenin çekişme konusu edilen taşınmazların ve bunlardaki söz konusu ç(...TRUNCATED)
Yargıtay
2010/8760
2010/13386
14.12.2010
[0.0300445556640625,0.05133056640625,0.004749298095703125,0.0301361083984375,0.0200042724609375,-0.0(...TRUNCATED)
Emsal Karar
End of preview. Expand in Data Studio

Turkish Law & Legislation BGE-M3 Embeddings

Language: English | Türkçe


English

This dataset contains pre-computed embeddings for Turkish legal precedents (Supreme Court/Yargıtay and Council of State/Danıştay) and statutory legislation (codes and articles). It is formatted in Parquet and specifically optimized for RAG (Retrieval-Augmented Generation) pipelines using a "Multi-Index" architecture.

📊 Data Sources & Attribution

  • Precedents Subsets: Derived from the erdem-erdem/Turkish-Law-Documents-700k-clustered dataset. The original public records belong to:

    (Special thanks to researchers of the underlying source datasets: fikriokan/ygty, fikriokan/ygty-2, fikriokan/dnsy-1, fikriokan/dnsy-2)

  • Legislation Subsets: Gathered, structured, and vectorized from the following official Turkish core codes and statutory laws:

    • Anayasa (Constitution)
    • TMK (Turkish Civil Code / Türk Medeni Kanunu)
    • TBK (Turkish Code of Obligations / Türk Borçlar Kanunu)
    • TTK (Turkish Commercial Code / Türk Ticaret Kanunu)
    • TCK (Turkish Penal Code / Türk Ceza Kanunu)
    • CMK (Criminal Procedure Code / Ceza Muhakemesi Kanunu)
    • HMK (Code of Civil Procedure / Hukuk Muhakemeleri Kanunu)
    • İşK (Labor Law / İş Kanunu)

⚙️ Data Processing Pipeline

  1. Legal Precedents (emsal_kararlar): Long judicial texts were split using Langchain's RecursiveCharacterTextSplitter.

    • Chunk Size: 3000 characters.
    • Chunk Overlap: 500 characters.
    • Separators: ["\n\n", "\n", ".", " "] to maintain semantic paragraphs and sentences.
    • Source fields were standardized from abbreviations like ygty or dnsy into "Yargıtay" and "Danıştay".
  2. Legislation & Codes (mevzuat):

    • No chunking was applied due to the naturally concise length of law articles.
    • Metadatas were contextually enriched for better vector representations.
    • Format: {Law Name} ({Short Name}) {Article No}: {Original Text}
    • Example: "Türkiye Cumhuriyeti Anayasası (Anayasa) Madde 2: Türkiye Cumhuriyeti, toplumun huzuru..."

🧠 Model & Embedding Configuration

  • Embedding Model: BAAI/bge-m3 (Multilingual)
  • Vector Dimension: 1024
  • Max Sequence Length: 2048 (Configured to comfortably support 3000-character text chunks).
  • Hardware & Acceleration: Processed utilizing an NVIDIA A100 GPU in torch.bfloat16 precision mode.

🗂️ Dataset Schema

1. Legal Precedents (emsal_kararlar):

  • doc_id (string): The original document ID.
  • chunk_idx (int32): The index of the text chunk within the original document.
  • text (string): The 3000-character chunked text used for embedding.
  • kaynak (string): Source institution (Yargıtay or Danıştay).
  • esas_no, karar_no, tarih (string): Judicial metadata regarding the specific decision.
  • dokuman_tipi (string): Tagged as 'Emsal Karar' for multi-index filtering.
  • vector (list[float32]): 1024-dimensional embedding vector.

2. Legislation & Codes (mevzuat):

  • id (string): Systemic identifier (e.g., 'TMK_Madde_2').
  • kanun_adi, kanun_kisa_ad, madde_no (string): Legislative metadata.
  • orijinal_metin (string): The pure text of the law article (best for returning to the user).
  • text (string): The contextually enriched text fed into the embedding model.
  • dokuman_tipi (string): Tagged as 'Mevzuat' for multi-index filtering.
  • vector (list[float32]): 1024-dimensional embedding vector.

🚀 How to Use (Python)

You can load specific configurations using the Hugging Face datasets library:

from datasets import load_dataset

# Load Statutory Legislation only
legislation = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "mevzuat")

# Load Legal Precedents only
precedents = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "emsal_kararlar")

Türkçe

Bu veri seti, Türk hukuku emsal kararları (Yargıtay ve Danıştay) ile kanun maddesi/mevzuat metinlerinin RAG (Retrieval-Augmented Generation) sistemlerinde doğrudan kullanılabilmesi için BAAI/bge-m3 modeli kullanılarak üretilmiş vektörleri (embedding) içerir. Veriler "Multi-Index" veri tabanı mimarilerine uygun olarak iki farklı alt küme halinde düzenlenmiştir.

📊 Veri Kaynakları ve Atıflar

  • Emsal Kararlar: Geniş kapsamlı erdem-erdem/Turkish-Law-Documents-700k-clustered veri setinden türetilmiştir. Orijinal veriler şu kurumların kamuya açık resmi kayıtlarıdır:

    (Kaynak veri setlerinin hazırlanmasında emeği geçen fikriokan/ygty, fikriokan/ygty-2, fikriokan/dnsy-1, fikriokan/dnsy-2 veri seti sahiplerine teşekkür ederiz.)

  • Mevzuat / Kanunlar: Türkiye Cumhuriyeti resmi kanun maddeleri derlenerek yapılandırılmıştır. Veri seti şu ana kanunları ve temel mevzuatları kapsamaktadır:

    • Anayasa
    • Türk Medeni Kanunu (TMK)
    • Türk Borçlar Kanunu (TBK)
    • Türk Ticaret Kanunu (TTK)
    • Türk Ceza Kanunu (TCK)
    • Ceza Muhakemesi Kanunu (CMK)
    • Hukuk Muhakemeleri Kanunu (HMK)
    • İş Kanunu (İşK)

⚙️ Veri İşleme Süreci (Data Pipeline)

  1. Emsal Kararlar (emsal_kararlar): Çok uzun mahkeme kararları, anlam bütünlüğü bozulmadan Langchain RecursiveCharacterTextSplitter ile parçalanmıştır.

    • Parça Boyutu (Chunk Size): 3000 karakter.
    • Örtüşme (Overlap): 500 karakter.
    • Ayırıcılar (Separators): ["\n\n", "\n", ".", " "] (Parçalamanın paragraflardan ve cümlelerden yapılması sağlandı).
    • Kaynak adlarındaki ygty ve dnsy gibi kısaltmalar "Yargıtay" ve "Danıştay" olarak standardize edilmiştir.
  2. Mevzuat ve Kanunlar (mevzuat):

    • Kanun maddeleri yapıları gereği kısa olduğundan parçalama (chunking) uygulanmamıştır.
    • Modelin bağlamı daha iyi kavrayabilmesi için metinler şu formatta zenginleştirilerek modele verilmiştir.
    • Zengin Metin Formatı: {Kanun Adı} ({Kısa Ad}) {Madde No}: {Orijinal Metin}
    • Örnek: "Türkiye Cumhuriyeti Anayasası (Anayasa) Madde 2: Türkiye Cumhuriyeti, toplumun huzuru..."

🧠 Model ve Vektör (Embedding) Detayları

  • Model: BAAI/bge-m3
  • Vektör Boyutu (Dimension): 1024
  • Maksimum Dizi Uzunluğu (Max Sequence Length): 2048 (3000 karakterlik metin parçalarını kayıpsız işleyecek şekilde optimize edilmiştir).
  • Donanım: İşlemler NVIDIA A100 GPU üzerinde torch.bfloat16 hassasiyetiyle gerçekleştirilmiştir.

🗂️ Sütun Yapısı (Dataset Schema)

1. Emsal Kararlar (emsal_kararlar):

  • doc_id (string): Kararın orijinal doküman ID'si.
  • chunk_idx (int32): Dokümanın kaçıncı metin parçası olduğu.
  • text (string): Vektörleştirilen 3000 karakterlik metin parçası.
  • kaynak (string): İlgili kurum (Yargıtay veya Danıştay).
  • esas_no, karar_no, tarih (string): İlgili kararın hukuki üst verileri (metadata).
  • dokuman_tipi (string): Multi-index filtreleme için 'Emsal Karar' etiketi.
  • vector (list[float32]): 1024 boyutlu embedding vektörü.

2. Mevzuat ve Kanunlar (mevzuat):

  • id (string): Sistemsel kimlik (Örn: 'TMK_Madde_2').
  • kanun_adi, kanun_kisa_ad, madde_no (string): İlgili kanunun üst verileri.
  • orijinal_metin (string): Kanunun saf hali (LLM'in kullanıcıya sunması için idealdir).
  • text (string): Vektör modeline verilen zenginleştirilmiş bağlamlı metin.
  • dokuman_tipi (string): Multi-index filtreleme için 'Mevzuat' etiketi.
  • vector (list[float32]): 1024 boyutlu embedding vektörü.

🚀 Kullanım Örneği (Python)

Veri setini alt kümelerine göre şu şekilde projenize dahil edebilirsiniz:

from datasets import load_dataset

# Sadece Kanun Maddelerini yüklemek için:
mevzuat = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "mevzuat")

# Sadece Emsal Kararları yüklemek için:
emsal = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "emsal_kararlar")
Downloads last month
513