stablediffusion吧 关注:30,989贴子:106,264
  • 4回复贴,共1

【推荐】flux扩图换衣模型与hunyuan本地视频模型

取消只看楼主收藏回复

海螺ai镇楼,年末两个月相继拉了一波大的,新东西越来越多,有的甚至可以取代sd1.5的遗产,慢更


IP属地:北京1楼2024-12-21 20:08回复
    1、本次讲解主角flux fill模型,即flux版inpainting模型,玩过sd1.5的controlnet肯定不陌生,就是局部重绘、蒙版重绘、各种扩图换衣的主力模型,下载下来也是22G多,放于comfyui大模型文件夹下。模型22G意味着需要加载这么多进入显存,所以满血版需要24G显存显卡或使用liblib在线comfyui工作流为好,当然也有gguf蒸馏版(牺牲高质量换取高效率低占用),可能16G显存显卡就可以拿下



    IP属地:北京2楼2024-12-21 20:18
    回复
      2、先讲效果,工作流简单易用,告别sd1.5/sdxl时代的复杂流程,直接跑就行。先去找几张背景简单的图集,手动画蒙版,然后等待出图,稳定性比sd1.5高不知道多少层级,没有什么色彩污染失真。以768x1024出图大概2分钟,但是满血版模型占用极高,需要16G虚拟内存、峰值最高58G内存与24G显存





      IP属地:北京3楼2024-12-21 20:30
      回复
        3、扩图质量也是比较优秀的,注意一下原图灯笼上的奉字和图案,flux扩图后可以复刻到其他灯笼上。可以选择向上下左右分别扩展多少像素,定制化很强,基于flux的大体量参数,提示词甚至不需要都行




        IP属地:北京4楼2024-12-21 20:37
        收起回复
          4、最近查看c站的分支出现了腾讯hunyuan和智谱cogvideox,这俩分别出了各自的本地视频模型,但是配置需求都比flux高,推荐使用liblib在线工作流玩一玩。本地安装则需要不同的环境插件,默认使用sdpa注意力内核,如果需要flash attn或sage attn则另外安装,比sdpa快30%多。满血版肯定用不起,本地一般用fp8量化版,需要32G虚拟内存、峰值最高42G内存与24G显存,跑512x512的85帧视频需要5分钟
          另外c站上也有基于hunyuan和cogvideox的lora,以大模型大体量参数做好环境一致性、以lora做好角色一致性是目前视频模型生态的突破,有兴趣可以去c站上搜一搜,hunyuan的lora目前出了蕾姆和玛奇玛,cogvideox则是很多动作镜头



          IP属地:北京7楼2024-12-22 00:09
          回复