Datasets:

stukenov
/

sozkz-corpus-gec-benchmark-kk-v1

Tasks:

Translation

Modalities:

Formats:

Languages:

Size:

Tags:

grammatical-error-correction

Libraries:

License:

Dataset card Data Studio Files Files and versions

xet

Community

sozkz-corpus-gec-benchmark-kk-v1 / README.md

stukenov

Update leaderboard with full 100-example benchmark results (16 models)

59b7ed6 verified about 1 month ago

preview code

raw

history blame contribute delete

3.83 kB

metadata

language: kk
license: cc-by-4.0
tags:
  - kazakh
  - gec
  - grammatical-error-correction
  - benchmark
task_categories:
  - translation

sozkz-corpus-gec-benchmark-kk-v1

Казахстанский GEC-бенчмарк. Используйте сплит test (200 примеров) для официального сравнения.

Splits

Split	Examples	Source
`test`	200	Канонический тест — для официального бенчмарка Word F0.5
`synthetic`	401	GPT-4o синтетические ошибки
`organic_social`	486	Реальные ошибки из соцсетей (аннотация GPT-4o)
`synthetic_smoke`	349	Синтетические smoke-тест примеры

Schema

input — ошибочный казахский текст
target — исправленный эталон
error_tag — тип ошибки (orthography/spelling, morphosyntax/agreement и др.)
source — источник данных

Leaderboard — 200-example canonical test (Word F0.5)

Model	Exact Match	CER ↓	Word Prec	Word Rec	Word F0.5 ↑	Identity
sozkz-fix-mt5-50m-kk-gec-v1	62.0%	0.0802	0.494	0.661	0.520	100%
sozkz-nllb-1b-kk-gec-v1	44.0%	0.2447	0.233	0.550	0.264	61.5%
sozkz-nllb-1b-kk-pretrain-v1	43.5%	0.2643	0.206	0.543	0.235	61.5%

Leaderboard — 100-example custom test (Exact Match %)

Чистый инференс модели без pre/post пайплайна. Категории: 30 орфография, 20 грамматика, 15 пунктуация, 20 смешанный, 15 identity.

Model	Total	Емле/30	Грамм/20	Пункт/15	Смеш/20	Ident/15
sozkz-core-llama-600m-kk-gec-v1	47%	15	12	3	2	15/15
sozkz-fix-qwen-500m-kk-gec-v3	38%	0	16	9	0	13/15
sozkz-core-llama-300m-kk-gec-v4	37%	9	6	4	3	15/15
sozkz-fix-qwen-500m-kk-gec-v1	35%	0	12	8	0	15/15
sozkz-fix-qwen-500m-kk-gec-v2	30%	0	11	7	0	12/15
sozkz-core-llama-1b-kk-gec-v1	16%	2	6	1	0	7/15
sozkz-fix-qwen-500m-kk-gec-v4	5%	0	1	4	0	0/15
sozkz-fix-mt5b-kk-gec-run13-v1	5%	0	2	0	0	3/15
sozkz-nllb-1b-kk-gec-v1	1%	0	1	0	0	0/15
sozkz-nllb-1b-kk-pretrain-v1	1%	0	1	0	0	0/15
sozkz-core-llama-300m v1/v2a/v2b/v3	0–1%	0	0–1	0	0	0–1
sozkz-fix-mt5-50m-kk-gec-v1	0%	0	0	0	0	0/15

Usage

from datasets import load_dataset

ds = load_dataset("stukenov/sozkz-corpus-gec-benchmark-kk-v1")
test = ds["test"]
print(test[0])
# {'input': '...', 'target': '...', 'error_tag': '', 'source': ''}