You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

SozKZ Core Llama 150M Kazakh Instruct v1

A 152M-parameter instruction-following language model for Kazakh, fine-tuned from the base model using SFT (Supervised Fine-Tuning) with loss masking on prompt tokens.

Model Details


Architecture	LlamaForCausalLM
Parameters	152M
Layers	12
Hidden size	768
Attention heads	12
Vocab size	50,000
Max length	512
Base model	sozkz-core-llama-150m-kk-base-v1
Tokenizer	sozkz-core-gpt2-50k-kk-base-v1

Chat Template (Alpaca-Kazakh)

The model uses a Kazakh-language Alpaca-style prompt format:

### Нұсқаулық:
{instruction}

### Кіріс:
{input}

### Жауап:
{output}

The ### Кіріс: section is omitted when input is empty.

Usage

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "stukenov/sozkz-core-llama-150m-kk-instruct-v1",
    dtype=torch.float32
)
tokenizer = AutoTokenizer.from_pretrained(
    "stukenov/sozkz-core-gpt2-50k-kk-base-v1"
)
model.eval()

prompt = "### Нұсқаулық:\nНаурыз мейрамы туралы қысқаша айтып бер.\n\n### Жауап:\n"
inputs = tokenizer(prompt, return_tensors="pt")
with torch.no_grad():
    out = model.generate(
        **inputs,
        max_new_tokens=200,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.2,
    )
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

Real Examples

All outputs below are actual model generations (temperature=0.7, top_p=0.9, repetition_penalty=1.2).

History

Нұсқаулық: Қазақстанның астанасы туралы айтып бер.

Жауап: Астананың туған күні - бұл әлемдегі ең үлкен және танымал қалалардың бірі, оның тұрғындары миллионнан асады. Бұл таңқаларлық емес қала, көптеген көрікті жерлер мен керемет мәдени-тарихи ескерткіштер бар.

Culture

Нұсқаулық: Наурыз мейрамы туралы қысқаша айтып бер.

Жауап: Көктемде күн жылынып, жер жарқырап тұрар еді. Дәстүрлі түрде Наурызды атап өту - бұл көптеген дәстүрлер мен әдет-ғұрыптар бар мереке. Бұл адамдар бір-біріне және табиғаттың сұлулығына байланысты барлық нәрсе үшін ризашылық білдіретін керемет уақыт болды.

Technology

Нұсқаулық: Жасанды интеллект дегеніміз не?

Жауап: AI - бұл адамның араласуынсыз машиналарды оқыту, мысалы, жасанды нейрондық желілер және автоматтандырылған жүйелер сияқты тапсырмалар.

Health

Нұсқаулық: Дұрыс тамақтану ережелері қандай?

Жауап: Салауатты өмір салтын ұстану және дұрыс тамақтануды жеу үшін теңдестірілген диетаны, мысалы, ақуыздар мен пайдалы майлар сияқты қоректік заттарды жеу маңызды.

Creative Writing

Нұсқаулық: Көктем туралы қысқа өлең жаз.

Жауап: Жаздың басы жазғы күн, Мені және менің жүрегімде бір сәт; Жапырақтары түсіп кетті ме? Күзгі салқындық пен үмітсіздік сезімі; Ешқандай бүршіктердің иісі жоқ, бірақ мен барлығым!

Economics

Нұсқаулық: Инфляция дегеніміз не?

Жауап: Ағымдағы бағалар мен тауарлар бағасы арасындағы айырмашылық - бұл инфляция (ADR) деп аталатын баға деңгейінің жоғарылауы. ТБИ-дің өзі сатып алу қабілетінің төмендеуіне әкеледі, өйткені тауарлардың құны өскен кезде бағалардың өсуі мүмкін емес.

Literature

Нұсқаулық: Абай Құнанбаев туралы айтып бер.

Жауап: Ақынның өмірі мен шығармашылығы біздің дәуіріміздің ортасына дейін болды, ал оның өлеңі және өлеңдері бізге әлі күнге дейін белгілі. Оның өлеңдері «Көңілім», «Өткендер» сияқты өлеңдерден тұрады; «Сөніп-жану» - бұл өлеңнің негізгі тақырыбы.

Advice

Нұсқаулық: Қазақ тілін үйренуге кеңес бер.

Жауап: Мен қазір қазақ тілінде сөйлеу үшін «Басты бет» бағдарламасын іске қосамын, бұл сіздің тіліңіз туралы көбірек білгіңіз келетін кез келген адамға мүмкіндік береді. Бұл бағдарламада сіз білетін және қызықтыратын барлық сөздер мен сөз тіркестерін білуге көмектесетін сұрақтар қоюға болады.

Benchmarks

kk-socio-cultural-bench-mc

Evaluated on kz-transformers/kk-socio-cultural-bench-mc — 7,111 multiple-choice questions about Kazakh culture, history, traditions, and society. Scoring: highest logit among A/B/C/D tokens.

Overall accuracy: 10.4% (742/7111) | Random baseline: 25.0%

Category	Correct	Total	Accuracy
Cinema	15	112	13.4%
Literature: Poetry and Prose	67	501	13.4%
Traditional Clothing	28	224	12.5%
Cuisine and Beverages	35	286	12.2%
Proverbs, Sayings, Mythology	58	499	11.6%
Song Lyrics	58	521	11.1%
Social Relationships	45	406	11.1%
Agriculture and Animal Husbandry	63	579	10.9%
Politics and Social Stratification	47	453	10.4%
Sports and Games	22	212	10.4%
Humor	20	196	10.2%
History	111	1103	10.1%
Onomatopoeia and Naming	61	621	9.8%
Architecture and Housing Elements	21	249	8.4%
Arts and Crafts, Performing Arts	30	370	8.1%
Musical Instruments	23	283	8.1%
Traditions	31	439	7.1%

Note: Performance below random baseline is expected for a 152M model on culturally specific knowledge tasks. This benchmark requires deep factual knowledge that small models struggle to memorize.

Kaz-Offline-Arena

Evaluated on Kaz-Offline-Arena — open-ended QA benchmark with LLM-judge scoring (GPT). 500 questions across 5 types, scored 0-10.

Overall average score: 0.48 / 10

Question Type	Avg Score	N
WHAT_QS	0.67	100
HOW_QS	0.59	100
DESCRIBE_QS	0.42	100
WHY_QS	0.38	100
ANALYZE_QS	0.36	100

Average output length: 24.7 tokens. Very low scores reflect the model's limited capacity (152M params) for open-ended generation requiring reasoning and factual knowledge.

Limitations

152M parameters — this is a small model; responses can be inaccurate or shallow
Weak at math reasoning and translation tasks
Prone to factual errors (hallucination)
Kazakh language only
512 token context limit
Trained on only ~49K instruction examples

Training Details


Dataset	sozkz-corpus-synthetic-kk-instruct-v1
Source	AmanMussa/kazakh-instruction-v2 (49,543 examples)
Epochs	3
Learning rate	2e-5
Batch size	128 (16 x 4 accum x 2 GPU)
Steps	1,152
Eval loss	2.918
GPU	2x RTX A5000
Training time	~12 min
Loss masking	Prompt tokens masked (loss on completions only)
Optimizer	AdamW
Scheduler	Cosine with 3% warmup
Precision	bf16

Project

This model is part of the SozKZ project — research on building small language models for the Kazakh language.

License

Apache 2.0

Downloads last month: 30

Safetensors

Model size

0.2B params

Tensor type

F32

Model tree for stukenov/sozkz-core-llama-150m-kk-instruct-v1

Base model

stukenov/sozkz-core-llama-150m-kk-base-v1

Finetuned

(2)

this model

Dataset used to train stukenov/sozkz-core-llama-150m-kk-instruct-v1

Space using stukenov/sozkz-core-llama-150m-kk-instruct-v1 1

Collection including stukenov/sozkz-core-llama-150m-kk-instruct-v1

SozKZ Core: Kazakh Language Models

Collection

Base, instruct, and balanced Kazakh language models trained from scratch — Llama (50M–600M), GPT2, Pythia architectures • 22 items • Updated 29 days ago