probleme de generation de token avec le model TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF
#1
by Miamistres13 - opened
Demande d’aide (anonymisée)
Je cherche des retours sur un moteur d’inférence GGUF en Rust qui charge un modèle quantifié (Q8_0) et génère du texte.
Symptôme
- La génération produit des tokens incohérents/garbage.
- Les logits ne sont plus “explosifs”, mais le token final reste incorrect.
Ce qui a déjà été vérifié
- Lecture GGUF corrigée (gestion offsets absolus/relatifs).
- Embeddings et logits numériquement “sains” (plages normales).
- Tokenizer chargé avec vocab + merges.
- La projection logits utilise des poids “tied embeddings” (par défaut) faute de output.weight.
Hypothèses restantes
- Orientation de matrice : [vocab, hidden] vs [hidden, vocab] pour la projection logits.
- Tensor de sortie manquant : existe‑t‑il un tensor alternatif attendu (lm_head / output_projection) ?
- Tokenization/template : mauvais template ou tokens spéciaux absents.
- Streaming/eviction : pages evicted → corruption silencieuse.
Question
- Pour un GGUF Q8_0 sans output.weight, quelle est la projection logits correcte ?
- Des recommandations de tests minimaux pour prouver l’orientation correcte ?
Honestly this is all a bit over my head. I'm not too versed with this stuff, sorry ☹️
armand0e changed discussion status to closed