doc_id stringlengths 8 10 | chunk_idx int64 0 1.19k | text stringlengths 1 3k | kaynak stringclasses 1
value | esas_no stringlengths 1 11 | karar_no stringlengths 1 11 | tarih stringlengths 1 10 | vector listlengths 1.02k 1.02k | dokuman_tipi stringclasses 1
value |
|---|---|---|---|---|---|---|---|---|
80600600 | 0 | **2. Hukuk Dairesi 2007/17004 E. , 2007/14843 K.**
**"İçtihat Metni"**
MAHKEMESİ :Fatih 2.Asliye Hukuk Mahkemesi
TARİHİ :16.6.2006
Taraflar arasındaki davanın yapılan muhakemesi sonunda mahalli mahkemece verilen ve yukarıda tarih numarası gösterilen hüküm temyiz edilmekle evrak okunup gereği görüşülüp düş... | Yargıtay | 2007/17004 | 2007/14843 | 02.11.2007 | [
0.0268707275390625,
0.03759765625,
-0.018768310546875,
0.01546478271484375,
0.01451873779296875,
-0.0780029296875,
-0.0178375244140625,
0.014801025390625,
-0.0083160400390625,
0.00860595703125,
-0.009918212890625,
0.027191162109375,
-0.061737060546875,
0.034210205078125,
-0.0120010375976... | Emsal Karar |
361398900 | 0 | **17. Ceza Dairesi 2016/12248 E. , 2017/7610 K.**
**"İçtihat Metni"**
MAHKEMESİ :Asliye Ceza Mahkemesi
SUÇ : Karşılıksız yararlanma
HÜKÜM : Beraat
Yerel mahkemece verilen hüküm temyiz edilmekle, başvurunun süresi ve kararın niteliği ile suç tarihine göre dosya görüşüldü:
1-30.09.2013 tarihli kaçak/usuls... | Yargıtay | 2016/12248 | 2017/7610 | 13.06.2017 | [
-0.00659942626953125,
0.056060791015625,
-0.04083251953125,
-0.0148468017578125,
0.004444122314453125,
-0.054931640625,
0.013885498046875,
0.0017852783203125,
0.019012451171875,
0.022613525390625,
0.026611328125,
0.0003135204315185547,
-0.03802490234375,
-0.0057220458984375,
-0.011940002... | Emsal Karar |
699062500 | 0 | **1. Ceza Dairesi 2021/7354 E. , 2021/13000 K.**
**"İçtihat Metni"**
MAHKEMESİ :Ağır Ceza Mahkemesi
TÜRK MİLLETİ ADINA
Artvin Ağır Ceza Mahkemesi'nin 06.10.2020 gün ve 2020/8 Esas ve 2020/98 Karar sayılı bozma üzerine verilen kararının sanık müdafii, kurum vekili ve ... vekili tarafından 5271 sayılı CMK'n... | Yargıtay | 2021/7354 | 2021/13000 | 04.10.2021 | [
-0.012969970703125,
0.01393890380859375,
0.0027904510498046875,
0.01490020751953125,
0.014068603515625,
-0.06005859375,
0.0027217864990234375,
0.019195556640625,
-0.0131072998046875,
0.0279541015625,
-0.0129547119140625,
-0.0146942138671875,
-0.04644775390625,
0.026763916015625,
-0.00872... | Emsal Karar |
699062500 | 1 | 1-Sanık ... ile hakkında tefrik kararı verilen sanık Mahmut'un birlikte plan yaparak maktulü bularak öldürmeye karar verdikleri, sanık Mahmut'un suç tarihinden kısa bir süre önce edindiği aracı Behrem'e verdiği, Behrem'in maktulün yerini öğrenebilecek tek kişi olan maktulün kardeşi Saliha'yı ...'dan alarak Ardanuç'a ge... | Yargıtay | 2021/7354 | 2021/13000 | 04.10.2021 | [
-0.00901031494140625,
-0.019744873046875,
0.006816864013671875,
-0.0042877197265625,
0.005359649658203125,
-0.04632568359375,
0.016693115234375,
-0.0236358642578125,
0.0155181884765625,
0.0126190185546875,
0.0017518997192382812,
-0.004730224609375,
-0.042388916015625,
0.032806396484375,
... | Emsal Karar |
197123900 | 0 | **7. Ceza Dairesi 2015/14826 E. , 2016/6225 K.**
**"İçtihat Metni"**
MAHKEMESİ : ......... 1. Asliye Ceza Mahkemesi
SUÇ : 4733 sayılı Yasaya Muhalefet
HÜKÜM : Sanıklar ........ ve .. hakkında beraat, sanık ...................... hakkında hükümlülük, müsadere
Yerel mahkemece verilen hüküm temyiz edilmekle... | Yargıtay | 2015/14826 | 2016/6225 | 27.04.2016 | [
-0.039031982421875,
-0.0009746551513671875,
-0.005947113037109375,
-0.0202178955078125,
0.0163116455078125,
-0.0333251953125,
-0.0207977294921875,
0.00919342041015625,
0.004154205322265625,
0.0036373138427734375,
0.01535797119140625,
-0.0013380050659179688,
-0.042266845703125,
0.0177001953... | Emsal Karar |
78540800 | 0 | **1. Hukuk Dairesi 2010/8760 E. , 2010/13386 K.**
**"İçtihat Metni"**
MAHKEMESİ : ÜSKÜDAR 1. ASLİYE HUKUK MAHKEMESİ,
TARİHİ : 04/06/2009
Taraflar arasında görülen davada;
Davacı Hazine, çekişme konusu 715 ada 1, 714 ada 2, 739 ada 1 ve 736 ada 9 parsel sayılı taşınmazlarda 2/3 pay sahibi V.. E..'nun, Tür... | Yargıtay | 2010/8760 | 2010/13386 | 14.12.2010 | [
0.037750244140625,
0.04473876953125,
-0.019012451171875,
0.023590087890625,
-0.0117950439453125,
-0.03179931640625,
-0.0171966552734375,
0.023101806640625,
-0.01335906982421875,
0.01131439208984375,
-0.0036449432373046875,
0.045379638671875,
-0.050567626953125,
0.007114410400390625,
0.01... | Emsal Karar |
78540800 | 1 | Mahkemece, çekişme konusu taşınmazlardaki 1/3 pay yönünden davanın açılmamış sayılmasına, miras bırakan V.. E..'ya ait 2/3 pay yönünden ise; asli müdahillerin davasının reddine, çekişme konusu ..ada 9 parsel sayılı taşınmaz yönünden davanın reddine, diğer çekişme konusu 715 ada 1,.. ada 2 ve ..ada 1 parsel sayılı taşın... | Yargıtay | 2010/8760 | 2010/13386 | 14.12.2010 | [
0.01457977294921875,
0.045501708984375,
-0.0173187255859375,
0.0283660888671875,
-0.017730712890625,
-0.03472900390625,
0.0276641845703125,
0.021026611328125,
-0.0350341796875,
0.0246124267578125,
-0.0003066062927246094,
0.037200927734375,
-0.054840087890625,
0.01186370849609375,
-0.0220... | Emsal Karar |
78540800 | 2 | Dosya içeriği ve kayıtların tetkikinden; çekişmeli taşınmazlardaki 2/3 pay sahibi V. E..'nun, Türk Vatandaşı olduğu, 29.05.1959 tarihinde öldüğü; F.. S.. (Ö..) isimli kişinin hasımsız olarak açtığı veraset davası sonucunda, Üsküdar Sulh Hukuk Mahkemesinin 28.12.1977 günlü, 1977/2426 esas, 1977/2243 sayılı kararıyla V. ... | Yargıtay | 2010/8760 | 2010/13386 | 14.12.2010 | [
0.0229644775390625,
0.032440185546875,
-0.012847900390625,
0.03497314453125,
0.001140594482421875,
-0.008575439453125,
-0.0172576904296875,
0.032989501953125,
-0.003208160400390625,
0.022247314453125,
-0.0093536376953125,
0.050323486328125,
-0.020050048828125,
-0.00007158517837524414,
0.... | Emsal Karar |
78540800 | 3 | "Mahkemece, yapılan yargılama sonucunda, asli müdahillerin Arnavut uyruklu oldukları ve miras yo(...TRUNCATED) | Yargıtay | 2010/8760 | 2010/13386 | 14.12.2010 | [0.0599365234375,0.039764404296875,0.006099700927734375,0.005863189697265625,-0.0050048828125,0.0009(...TRUNCATED) | Emsal Karar |
78540800 | 4 | "Bu durumda, davacı Hazinenin çekişme konusu edilen taşınmazların ve bunlardaki söz konusu ç(...TRUNCATED) | Yargıtay | 2010/8760 | 2010/13386 | 14.12.2010 | [0.0300445556640625,0.05133056640625,0.004749298095703125,0.0301361083984375,0.0200042724609375,-0.0(...TRUNCATED) | Emsal Karar |
Turkish Law & Legislation BGE-M3 Embeddings
English
This dataset contains pre-computed embeddings for Turkish legal precedents (Supreme Court/Yargıtay and Council of State/Danıştay) and statutory legislation (codes and articles). It is formatted in Parquet and specifically optimized for RAG (Retrieval-Augmented Generation) pipelines using a "Multi-Index" architecture.
📊 Data Sources & Attribution
Precedents Subsets: Derived from the erdem-erdem/Turkish-Law-Documents-700k-clustered dataset. The original public records belong to:
- Yargıtay (Court of Appeals): https://karararama.yargitay.gov.tr/
- Danıştay (Council of State): https://kararara.danistay.gov.tr/
(Special thanks to researchers of the underlying source datasets:
fikriokan/ygty,fikriokan/ygty-2,fikriokan/dnsy-1,fikriokan/dnsy-2)Legislation Subsets: Gathered, structured, and vectorized from the following official Turkish core codes and statutory laws:
- Anayasa (Constitution)
- TMK (Turkish Civil Code / Türk Medeni Kanunu)
- TBK (Turkish Code of Obligations / Türk Borçlar Kanunu)
- TTK (Turkish Commercial Code / Türk Ticaret Kanunu)
- TCK (Turkish Penal Code / Türk Ceza Kanunu)
- CMK (Criminal Procedure Code / Ceza Muhakemesi Kanunu)
- HMK (Code of Civil Procedure / Hukuk Muhakemeleri Kanunu)
- İşK (Labor Law / İş Kanunu)
⚙️ Data Processing Pipeline
Legal Precedents (emsal_kararlar): Long judicial texts were split using Langchain's
RecursiveCharacterTextSplitter.- Chunk Size: 3000 characters.
- Chunk Overlap: 500 characters.
- Separators:
["\n\n", "\n", ".", " "]to maintain semantic paragraphs and sentences. - Source fields were standardized from abbreviations like
ygtyordnsyinto "Yargıtay" and "Danıştay".
Legislation & Codes (mevzuat):
- No chunking was applied due to the naturally concise length of law articles.
- Metadatas were contextually enriched for better vector representations.
- Format:
{Law Name} ({Short Name}) {Article No}: {Original Text} - Example:
"Türkiye Cumhuriyeti Anayasası (Anayasa) Madde 2: Türkiye Cumhuriyeti, toplumun huzuru..."
🧠 Model & Embedding Configuration
- Embedding Model: BAAI/bge-m3 (Multilingual)
- Vector Dimension: 1024
- Max Sequence Length: 2048 (Configured to comfortably support 3000-character text chunks).
- Hardware & Acceleration: Processed utilizing an NVIDIA A100 GPU in
torch.bfloat16precision mode.
🗂️ Dataset Schema
1. Legal Precedents (emsal_kararlar):
doc_id(string): The original document ID.chunk_idx(int32): The index of the text chunk within the original document.text(string): The 3000-character chunked text used for embedding.kaynak(string): Source institution (Yargıtay or Danıştay).esas_no,karar_no,tarih(string): Judicial metadata regarding the specific decision.dokuman_tipi(string): Tagged as 'Emsal Karar' for multi-index filtering.vector(list[float32]): 1024-dimensional embedding vector.
2. Legislation & Codes (mevzuat):
id(string): Systemic identifier (e.g., 'TMK_Madde_2').kanun_adi,kanun_kisa_ad,madde_no(string): Legislative metadata.orijinal_metin(string): The pure text of the law article (best for returning to the user).text(string): The contextually enriched text fed into the embedding model.dokuman_tipi(string): Tagged as 'Mevzuat' for multi-index filtering.vector(list[float32]): 1024-dimensional embedding vector.
🚀 How to Use (Python)
You can load specific configurations using the Hugging Face datasets library:
from datasets import load_dataset
# Load Statutory Legislation only
legislation = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "mevzuat")
# Load Legal Precedents only
precedents = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "emsal_kararlar")
Türkçe
Bu veri seti, Türk hukuku emsal kararları (Yargıtay ve Danıştay) ile kanun maddesi/mevzuat metinlerinin RAG (Retrieval-Augmented Generation) sistemlerinde doğrudan kullanılabilmesi için BAAI/bge-m3 modeli kullanılarak üretilmiş vektörleri (embedding) içerir. Veriler "Multi-Index" veri tabanı mimarilerine uygun olarak iki farklı alt küme halinde düzenlenmiştir.
📊 Veri Kaynakları ve Atıflar
Emsal Kararlar: Geniş kapsamlı erdem-erdem/Turkish-Law-Documents-700k-clustered veri setinden türetilmiştir. Orijinal veriler şu kurumların kamuya açık resmi kayıtlarıdır:
- Yargıtay: https://karararama.yargitay.gov.tr/
- Danıştay: https://kararara.danistay.gov.tr/
(Kaynak veri setlerinin hazırlanmasında emeği geçen
fikriokan/ygty,fikriokan/ygty-2,fikriokan/dnsy-1,fikriokan/dnsy-2veri seti sahiplerine teşekkür ederiz.)Mevzuat / Kanunlar: Türkiye Cumhuriyeti resmi kanun maddeleri derlenerek yapılandırılmıştır. Veri seti şu ana kanunları ve temel mevzuatları kapsamaktadır:
- Anayasa
- Türk Medeni Kanunu (TMK)
- Türk Borçlar Kanunu (TBK)
- Türk Ticaret Kanunu (TTK)
- Türk Ceza Kanunu (TCK)
- Ceza Muhakemesi Kanunu (CMK)
- Hukuk Muhakemeleri Kanunu (HMK)
- İş Kanunu (İşK)
⚙️ Veri İşleme Süreci (Data Pipeline)
Emsal Kararlar (emsal_kararlar): Çok uzun mahkeme kararları, anlam bütünlüğü bozulmadan Langchain
RecursiveCharacterTextSplitterile parçalanmıştır.- Parça Boyutu (Chunk Size): 3000 karakter.
- Örtüşme (Overlap): 500 karakter.
- Ayırıcılar (Separators):
["\n\n", "\n", ".", " "](Parçalamanın paragraflardan ve cümlelerden yapılması sağlandı). - Kaynak adlarındaki
ygtyvednsygibi kısaltmalar "Yargıtay" ve "Danıştay" olarak standardize edilmiştir.
Mevzuat ve Kanunlar (mevzuat):
- Kanun maddeleri yapıları gereği kısa olduğundan parçalama (chunking) uygulanmamıştır.
- Modelin bağlamı daha iyi kavrayabilmesi için metinler şu formatta zenginleştirilerek modele verilmiştir.
- Zengin Metin Formatı:
{Kanun Adı} ({Kısa Ad}) {Madde No}: {Orijinal Metin} - Örnek:
"Türkiye Cumhuriyeti Anayasası (Anayasa) Madde 2: Türkiye Cumhuriyeti, toplumun huzuru..."
🧠 Model ve Vektör (Embedding) Detayları
- Model: BAAI/bge-m3
- Vektör Boyutu (Dimension): 1024
- Maksimum Dizi Uzunluğu (Max Sequence Length): 2048 (3000 karakterlik metin parçalarını kayıpsız işleyecek şekilde optimize edilmiştir).
- Donanım: İşlemler NVIDIA A100 GPU üzerinde
torch.bfloat16hassasiyetiyle gerçekleştirilmiştir.
🗂️ Sütun Yapısı (Dataset Schema)
1. Emsal Kararlar (emsal_kararlar):
doc_id(string): Kararın orijinal doküman ID'si.chunk_idx(int32): Dokümanın kaçıncı metin parçası olduğu.text(string): Vektörleştirilen 3000 karakterlik metin parçası.kaynak(string): İlgili kurum (Yargıtay veya Danıştay).esas_no,karar_no,tarih(string): İlgili kararın hukuki üst verileri (metadata).dokuman_tipi(string): Multi-index filtreleme için 'Emsal Karar' etiketi.vector(list[float32]): 1024 boyutlu embedding vektörü.
2. Mevzuat ve Kanunlar (mevzuat):
id(string): Sistemsel kimlik (Örn: 'TMK_Madde_2').kanun_adi,kanun_kisa_ad,madde_no(string): İlgili kanunun üst verileri.orijinal_metin(string): Kanunun saf hali (LLM'in kullanıcıya sunması için idealdir).text(string): Vektör modeline verilen zenginleştirilmiş bağlamlı metin.dokuman_tipi(string): Multi-index filtreleme için 'Mevzuat' etiketi.vector(list[float32]): 1024 boyutlu embedding vektörü.
🚀 Kullanım Örneği (Python)
Veri setini alt kümelerine göre şu şekilde projenize dahil edebilirsiniz:
from datasets import load_dataset
# Sadece Kanun Maddelerini yüklemek için:
mevzuat = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "mevzuat")
# Sadece Emsal Kararları yüklemek için:
emsal = load_dataset("muhamparlak/turkish-law-bge-m3-embeddings", "emsal_kararlar")
- Downloads last month
- 513