标签: CV

Fooocus

https://github.com/lllyasviel/Fooocus

python entry_with_update.py --language zh --port 8000

Kevin 吴嘉文大约 4 分钟

DIFFUSION 系列笔记 | IP-Adapter

本文介绍 IP-Adapter，结合笔者的使用体验，在垫图方面，IP-Adapter 效果比 Controlnet reference only 及 SD 原生的 img2img 效果要好很多。并且可以配合 controlnet 的其他风格（如 canny 或者 depth）来实现多维度的图片生成控制。

LDM 回顾

回顾 LDM 中的 img-to-img 部分，LDM 中图像与文字交互的方式为单纯的 cross-attention：

Kevin 吴嘉文大约 5 分钟

DIFFUSION 系列笔记 | 扩散模型加速推理

CM，LCM，LCM-Lora

对于 Consistency Model，Latent Consistency Model 及 LCM-LoRA 的原理解读，十分推荐这篇文章：

https://wrong.wang/blog/20231111-consistency-is-all-you-need/

具体细节建议参考上面推荐的文章链接，以下对大致思路进行总结：

Consistency Model 基于扩散模型，增加了一个推导约束：每个样本到噪声的加噪轨迹上的每个点都可以通过一个函数 $f(x_t, t)$ 映射回轨迹的起点。同时 CM 也对模型训练时的损失、sample 方案等进行了改动，以允许我们使用 2-4 个 step 来生成高质量图片。

Kevin 吴嘉文大约 2 分钟

DIFFUSION 系列笔记 | SDXL 和 Controlnet

SDXL

来自论文：SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

SDXL 不论在模型架构还是 diffusion pipeline 上都与 SD 不同。十分推荐 Rocky Ding 的 SDXL 分享：

Kevin 吴嘉文大约 4 分钟

DIFFUSION 系列笔记| Latent Diffusion Model

相对于 DDIM, DDPM 以及 SDE，High-Resolution Image Synthesis with Latent Diffusion Models 一文重点在于 latent Space 和 Conditioning Cross Attention，而非 diffusion pipeline 流程。

以此不同于前几份笔记，本文主要参考 huggingface/diffusers 中 Latent Diffusion Model 及 Stable Diffusion 的实现，对 LDM 架构及其中的 Conditioning Cross Attention 做梳理。

Kevin 吴嘉文大约 9 分钟

妙鸭=SD + Lora? 对 SD+LoRA 的一些探索与验证

妙鸭的热度过了一阵子了，网上对妙鸭背后的实现逻辑有这种各样的猜测，不少网友认为妙鸭只是简单的采用 SD + Lora。本文主要对 SD + Lora 方案进行探索，分析妙鸭采用 SD + Lora 方案的可能性。

环境准备

推荐使用现有的 GUI AUTO1111/stable-diffusion-webui 。安装指南可以参考官方仓库下的安装方案，或者其他网友笔记，比如 AUTOMATIC1111/stable-diffusion-webui 安装教程_咔！哈！的博客-CSDN 博客。

Kevin 吴嘉文大约 7 分钟

DIFFUSION 系列笔记| SDE（上）

论文 SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS

从 stochastic differential equations 的角度，尝试提出了一个统一的模型框架，来概括 DDPM，SMLD 等 score-based generative models。

该论文的作者宋飏在他的博客中也详细地介绍了该模型的理论，并且提供了基于 torch 的 Colab 教程。本文主要基于宋飏的博客，对该论文提出的模型思路进行了重新整理。

Kevin 吴嘉文大约 17 分钟

Diffusion|DDIM 理解、数学、代码

DIFFUSION 系列笔记|DDIM 数学、思考与 ppdiffuser 代码探索

论文：DENOISING DIFFUSION IMPLICIT MODELS

参考博客; 参考 aistudio notebook 链接，其中包含详细的公式与代码探索： link

Kevin 吴嘉文大约 14 分钟

目标检测与智慧制造笔记（1）

PPDET 笔记

落地效果：具体查看 PaddleDetection 仓库

模块回顾：

DCN，SPP，FPN，PAN（PA），Coordconv，Mish，EMA 指数滑动平均，DropBlock，batch norm，dark，Heatmap，REID，

其他笔记：

使用预训练模型时，对应的 lr 可以调低点，如 0.1 倍等。

移动端

mobilene V3

小模型需要注意召回率的提升

Kevin 吴嘉文大约 10 分钟

Diffusion|DDPM 理解、数学、代码

Diffusion

论文：Denoising Diffusion Probabilistic Models

参考博客；参考 paddle 版本代码： aistudio 实践链接

Kevin 吴嘉文大约 20 分钟

跳转到: