ComfyUI settings
(Az itt elkezdett beszélgetés folytatása:
https://huggingface.co/sarpba/F5-TTS-Hun/discussions/1 )
Gyors összefoglaló, hogyan használhatod ComfyUI alatt:
- ez a ComfyUI addon támogatja a Lorákat: https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main
- a models/vibevoice/loras mappában hozz létre egy mappát (bármilyen névvel) és lépj be
- töltsd le ide az adapter_config.json-t, például innen: https://huggingface.co/Cseti/VibeVoice_7B_Diffusion-head-LoRA_Hungarian-CV17/tree/main/diffusion_head1200
- nyiss egy diffusion_head mappát, majd abba belépve töltsd le a model.safetensors fájlt
Kész. :)
A Lora paraméterei:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main?tab=readme-ov-file#5-vibevoice-lora
Tapasztalataim szerint az llm_strength mehet fel 2-re, és nekem a 900-as valahogy tisztább eredményt adott, mint az 1200-as.
raktam be adapter_config.json-t most a könyvtárakba. A jelenlegi lora oktatás futásából másoltam ki, lényegében a konfig ugyanaz, csak a dataset más ezért nem kell gondot okozzon. így nem kell másolgatni a lora konfigot. De mint említettem elméletileg nincs erre kihatása, mert az csak a tokenizer-hez kellene, szóval szerintem véletlenül előfeltétel a comfyui nodoknál. Az én github repomban lévő forkban simán megy enélkül.
(Az itt elkezdett beszélgetés folytatása:
https://huggingface.co/sarpba/F5-TTS-Hun/discussions/1 )Gyors összefoglaló:
- ez a ComfyUI addon támogatja a Lorákat: https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main
- a models/vibevoice/loras mappában hozz létre egy mappát (bármilyen névvel)
- tedd bele a config.json-t és a model.safetensors fájlokat
- nevezd át a fájlokat így: adapter_config.json és adapter_model.safetensors
Kész. :)A Lora paraméterei:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/tree/main?tab=readme-ov-file#5-vibevoice-loraAmi izgalmas, hogy mintahang nélkül is elég kínai benyomása van a hangnak 😀
melyik modelt próbálod amúgy, a 7B-t, az 1.5B-t vagy a 4bit-es kvantált verzót. Nekem a githubos forkomnál nem igazán tapasztaltam kínai akcentust ha a 7B-t használtam
A 7B-set használom, ami a ComfyUI-ban Large néven fut. Lecserélem akkor a json-t, de írtam a ComfyUI-s node készítőjének is (https://github.com/Enemyx-net/VibeVoice-ComfyUI/issues/139 ), hátha nála van a gubanc. Hiába állítgattam a paramétereket a Lora node-ján, semmi hatás nem volt. :/
ok, azért kérdeztem, mert ahogy látom van a comfyui nodeban egy large-quant-4bit verzió is, az szerintem nem fog működni a lora-val, mert bitsandbytes kvantálást csinálnak ami pedig megváltoztatja a tensor alakját így arra nagyobb mágiák nélkül nem fogják tudni rárakni szerintem.
Sőt, már 8-bites kvantálást is szeretnének, de ez már off:
https://github.com/Enemyx-net/VibeVoice-ComfyUI/issues/138
A srác megcsinálta a Lora komponenst, most már tökéletesen működik a Lora! Javítom az első posztot, hogy hogyan kell a fájlokat és a modellt betenni 😀 Köszönöm a segítséget és a Lorát, fantasztikus lett!
A cs-betűt még kicsit erősíteni kell, mert ezt a mondatot úgy olvasta fel, hogy vakszi 😄 Vagy ez tokenizer kérdése?
" A vacsi után mit tervezel?"
feltételezem ha több seed-del próbálod, akkor lesz olyan ahol jól mondja, vagy ezt következetesen elrontja? Amúgy javaslom ha van ilyen hiba, próbáld ki mindhárom model verziót amit felraktam. Azok az oktatás különböző fázisaiban lettek mentve, nem biztos, hogy a legnagyobb számú a legjobb. Nem a tokenizer hibája, hanem simán lehet, hogy a datasetben nem volt elég hasonló példa ahhoz, hogy megtanulja. Az is lehet, hogy aluloktatott a model még.
A ComfyUI-s node-ba betelettek egy [pause] opciót. Ez egy trükk, hogy a szöveget ilyenkor feldarabolja, tehát több részletben generálja le, majd a végén összefűzi a generált blokkokat.
Amikor a mondat előtt volt egy pause, tehát a blokk legelejére került, akkor ksz-el mondta ki, több seed és a 900-as, 1200-as modell esetén is. Ha nem a blokk elején volt, hanem egy blokkon belül (azaz volt előtte mondat), akkor egyes esetekben ksz-szel, máskor jól generálta le. Tehát még picit edzeni kell a cs betűt. Ezzel szemben amikor "Csak" szó volt egy blokkban, azt is jól mondta ki.
Köszi szépen, hogy megosztod a tapasztalataid, ez nagyon hasznos!
Csak érdeklődnék, hogy tart-e még a modell edzése? 😀
Csak érdeklődnék, hogy tart-e még a modell edzése? 😀
Szia, ma este meg tudom osztani majd.
Csak érdeklődnék, hogy tart-e még a modell edzése? 😀
Ez szuper! Köszönöm! És ez nem is Lora lett, izgalmas! Már csak valahogyan fp16-ra/8-ra és/vagy GGUF-ra konvertálom, mert így kicsit nagy :)
Ez szuper! Köszönöm! És ez nem is Lora lett, izgalmas! Már csak valahogyan fp16-ra/8-ra és/vagy GGUF-ra konvertálom, mert így kicsit nagy :)
A repoban linkelt comfyui node-al tudsz kvantálást beállítani ha nincs sok vram-od. a példáim is 4bites kvantálással készültek, kb 8-9 GB VRAM-ot evett úgy az inference
Kipróbáltam, nagyon szuperül megy a nagy modell is, köszönöm szépen! Néha még a Loráiddal is kombinálom, hogy kicsit izgalmasabb eredményt kapjak 😀