probleme de generation de token avec le model TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF

#1
by Miamistres13 - opened

Demande d’aide (anonymisée)

Je cherche des retours sur un moteur d’inférence GGUF en Rust qui charge un modèle quantifié (Q8_0) et génère du texte.

Symptôme

  • La génération produit des tokens incohérents/garbage.
  • Les logits ne sont plus “explosifs”, mais le token final reste incorrect.

Ce qui a déjà été vérifié

  • Lecture GGUF corrigée (gestion offsets absolus/relatifs).
  • Embeddings et logits numériquement “sains” (plages normales).
  • Tokenizer chargé avec vocab + merges.
  • La projection logits utilise des poids “tied embeddings” (par défaut) faute de output.weight.

Hypothèses restantes

  1. Orientation de matrice : [vocab, hidden] vs [hidden, vocab] pour la projection logits.
  2. Tensor de sortie manquant : existe‑t‑il un tensor alternatif attendu (lm_head / output_projection) ?
  3. Tokenization/template : mauvais template ou tokens spéciaux absents.
  4. Streaming/eviction : pages evicted → corruption silencieuse.

Question

  • Pour un GGUF Q8_0 sans output.weight, quelle est la projection logits correcte ?
  • Des recommandations de tests minimaux pour prouver l’orientation correcte ?
TeichAI org

Honestly this is all a bit over my head. I'm not too versed with this stuff, sorry ☹️

armand0e changed discussion status to closed

Sign up or log in to comment