probleme de generation de token avec le model TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

by Miamistres13 - opened Jan 28

Jan 28

Demande d’aide (anonymisée)

Je cherche des retours sur un moteur d’inférence GGUF en Rust qui charge un modèle quantifié (Q8_0) et génère du texte.

Symptôme

Ce qui a déjà été vérifié

Lecture GGUF corrigée (gestion offsets absolus/relatifs).
Embeddings et logits numériquement “sains” (plages normales).
Tokenizer chargé avec vocab + merges.
La projection logits utilise des poids “tied embeddings” (par défaut) faute de output.weight.

Hypothèses restantes

Orientation de matrice : [vocab, hidden] vs [hidden, vocab] pour la projection logits.
Tensor de sortie manquant : existe‑t‑il un tensor alternatif attendu (lm_head / output_projection) ?
Tokenization/template : mauvais template ou tokens spéciaux absents.
Streaming/eviction : pages evicted → corruption silencieuse.

Question

Pour un GGUF Q8_0 sans output.weight, quelle est la projection logits correcte ?
Des recommandations de tests minimaux pour prouver l’orientation correcte ?

TeichAI org Jan 29

Honestly this is all a bit over my head. I'm not too versed with this stuff, sorry ☹️

armand0e changed discussion status to closed Feb 22

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment