ComfyUI settings

by Mykee - opened Sep 26, 2025

Discussion

Mykee

Sep 26, 2025

•

edited Sep 26, 2025

(Az itt elkezdett beszélgetés folytatása:
https://huggingface.co/sarpba/F5-TTS-Hun/discussions/1 )

Gyors összefoglaló, hogyan használhatod ComfyUI alatt:

ez a ComfyUI addon támogatja a Lorákat: https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main
a models/vibevoice/loras mappában hozz létre egy mappát (bármilyen névvel) és lépj be
töltsd le ide az adapter_config.json-t, például innen: https://huggingface.co/Cseti/VibeVoice_7B_Diffusion-head-LoRA_Hungarian-CV17/tree/main/diffusion_head1200
nyiss egy diffusion_head mappát, majd abba belépve töltsd le a model.safetensors fájlt
Kész. :)

A Lora paraméterei:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main?tab=readme-ov-file#5-vibevoice-lora

Tapasztalataim szerint az llm_strength mehet fel 2-re, és nekem a 900-as valahogy tisztább eredményt adott, mint az 1200-as.

Cseti

Owner Sep 26, 2025

raktam be adapter_config.json-t most a könyvtárakba. A jelenlegi lora oktatás futásából másoltam ki, lényegében a konfig ugyanaz, csak a dataset más ezért nem kell gondot okozzon. így nem kell másolgatni a lora konfigot. De mint említettem elméletileg nincs erre kihatása, mert az csak a tokenizer-hez kellene, szóval szerintem véletlenül előfeltétel a comfyui nodoknál. Az én github repomban lévő forkban simán megy enélkül.

Cseti

Owner Sep 26, 2025

(Az itt elkezdett beszélgetés folytatása:
https://huggingface.co/sarpba/F5-TTS-Hun/discussions/1 )

Gyors összefoglaló:

ez a ComfyUI addon támogatja a Lorákat: https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main

a models/vibevoice/loras mappában hozz létre egy mappát (bármilyen névvel)

tedd bele a config.json-t és a model.safetensors fájlokat

nevezd át a fájlokat így: adapter_config.json és adapter_model.safetensors
Kész. :)

A Lora paraméterei:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main?tab=readme-ov-file#5-vibevoice-lora

Ami izgalmas, hogy mintahang nélkül is elég kínai benyomása van a hangnak 😀

melyik modelt próbálod amúgy, a 7B-t, az 1.5B-t vagy a 4bit-es kvantált verzót. Nekem a githubos forkomnál nem igazán tapasztaltam kínai akcentust ha a 7B-t használtam

Mykee

Sep 26, 2025

A 7B-set használom, ami a ComfyUI-ban Large néven fut. Lecserélem akkor a json-t, de írtam a ComfyUI-s node készítőjének is (https://github.com/Enemyx-net/VibeVoice-ComfyUI/issues/139 ), hátha nála van a gubanc. Hiába állítgattam a paramétereket a Lora node-ján, semmi hatás nem volt. :/

Cseti

Owner Sep 26, 2025

ok, azért kérdeztem, mert ahogy látom van a comfyui nodeban egy large-quant-4bit verzió is, az szerintem nem fog működni a lora-val, mert bitsandbytes kvantálást csinálnak ami pedig megváltoztatja a tensor alakját így arra nagyobb mágiák nélkül nem fogják tudni rárakni szerintem.

Mykee

Sep 26, 2025

•

edited Sep 26, 2025

Sőt, már 8-bites kvantálást is szeretnének, de ez már off:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/issues/138

Mykee

Sep 26, 2025

A srác megcsinálta a Lora komponenst, most már tökéletesen működik a Lora! Javítom az első posztot, hogy hogyan kell a fájlokat és a modellt betenni 😀 Köszönöm a segítséget és a Lorát, fantasztikus lett!

Mykee

Sep 26, 2025

•

edited Sep 26, 2025

A cs-betűt még kicsit erősíteni kell, mert ezt a mondatot úgy olvasta fel, hogy vakszi 😄 Vagy ez tokenizer kérdése?
" A vacsi után mit tervezel?"

Cseti

Owner Sep 26, 2025

feltételezem ha több seed-del próbálod, akkor lesz olyan ahol jól mondja, vagy ezt következetesen elrontja? Amúgy javaslom ha van ilyen hiba, próbáld ki mindhárom model verziót amit felraktam. Azok az oktatás különböző fázisaiban lettek mentve, nem biztos, hogy a legnagyobb számú a legjobb. Nem a tokenizer hibája, hanem simán lehet, hogy a datasetben nem volt elég hasonló példa ahhoz, hogy megtanulja. Az is lehet, hogy aluloktatott a model még.

Mykee

Sep 27, 2025

•

edited Sep 27, 2025

A ComfyUI-s node-ba betelettek egy [pause] opciót. Ez egy trükk, hogy a szöveget ilyenkor feldarabolja, tehát több részletben generálja le, majd a végén összefűzi a generált blokkokat.
Amikor a mondat előtt volt egy pause, tehát a blokk legelejére került, akkor ksz-el mondta ki, több seed és a 900-as, 1200-as modell esetén is. Ha nem a blokk elején volt, hanem egy blokkon belül (azaz volt előtte mondat), akkor egyes esetekben ksz-szel, máskor jól generálta le. Tehát még picit edzeni kell a cs betűt. Ezzel szemben amikor "Csak" szó volt egy blokkban, azt is jól mondta ki.

Cseti

Owner Sep 27, 2025

Köszi szépen, hogy megosztod a tapasztalataid, ez nagyon hasznos!

Mykee

Oct 8, 2025

•

edited Oct 9, 2025

Csak érdeklődnék, hogy tart-e még a modell edzése? 😀

Cseti

Owner Oct 10, 2025

Csak érdeklődnék, hogy tart-e még a modell edzése? 😀

Szia, ma este meg tudom osztani majd.

Cseti

Owner Oct 10, 2025

Csak érdeklődnék, hogy tart-e még a modell edzése? 😀

https://huggingface.co/Cseti/VibeVoice_7B_hun_v2

Mykee

Oct 11, 2025

Ez szuper! Köszönöm! És ez nem is Lora lett, izgalmas! Már csak valahogyan fp16-ra/8-ra és/vagy GGUF-ra konvertálom, mert így kicsit nagy :)

Cseti

Owner Oct 12, 2025

•

edited Oct 12, 2025

Ez szuper! Köszönöm! És ez nem is Lora lett, izgalmas! Már csak valahogyan fp16-ra/8-ra és/vagy GGUF-ra konvertálom, mert így kicsit nagy :)

A repoban linkelt comfyui node-al tudsz kvantálást beállítani ha nincs sok vram-od. a példáim is 4bites kvantálással készültek, kb 8-9 GB VRAM-ot evett úgy az inference

Mykee

Oct 14, 2025

Kipróbáltam, nagyon szuperül megy a nagy modell is, köszönöm szépen! Néha még a Loráiddal is kombinálom, hogy kicsit izgalmasabb eredményt kapjak 😀

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment