跳至主要內容
AUTOGEN | 上手与源码分析

AUTOGEN 是一个开源平台,主要用于创建和管理自动化对话代理(agents)。这些代理可以完成多种任务,比如回答问题、执行函数,甚至与其他代理进行交互。

本文旨在介绍 Autogen 中的关键组件 Conversation Agent,并对其中的 Multi-Agent 功能实现做简单的源码分析。

参考官网文档,参考代码 Autogen 源码5a5c0f2


Kevin 吴嘉文大约 10 分钟知识笔记NLPAIGCLLMAgent
Semantic Kernel | 上手与分析

Semantic Kernel

本文对 Semantic Kernel 中的 Kernel,Plugin,KernelFunction,Semantic Memory,Planner,Services,reliability 等进行概念介绍。

1. Kernel

image-20240411094303977
image-20240411094303977

Kevin 吴嘉文大约 15 分钟知识笔记NLPAIGCLLMAgent
RLHF 基础

本文基于 HuggingFace 推出的 Reinforcement Learning Course 进行了整理,旨在记录强化学习的基础知识,为理解 RLHF(Reinforcement Learning from Human Feedback)打下基础。需要强调的是,以下内容仅涵盖强化学习的基础概念及 RLHF 基础,并非全面的强化学习教程。


Kevin 吴嘉文大约 20 分钟知识笔记NLPAIGCLLMAgent
MinIO | MinIO 基础

MinIO

Storage 概念

块存储(Block Storage)

  • 基础 :块存储将数据视为固定块大小的序列,每个文件分布在多个块上。
  • 调整和优化 :块大小可根据存储需求调整,以优化数据库等应用的性能。
  • 结构和一致性 :块存储具有高度结构化和强一致性,但对元数据的处理能力有限。
  • 用途
  • 作为物理或虚拟机磁盘,用于引导卷和服务器的额外本地存储。
  • 共享卷:一个写入卷挂载到一个服务器,其他服务器进行只读挂载,适用于数据处理和数据库。
  • 备份:将多个高容量廉价磁盘聚合作为备份目标,利用 SSD 和 NVMe 等快速本地存储。

Kevin 吴嘉文大约 5 分钟知识笔记大数据NLP
论文笔记 | 探索 LLM 的上下文长度外推

大模型上下文在前段时间有点火,TODO 里堆积的论文也越来越多(。

本文记录了 LLM 在长度外推方面的文章笔记,包括位置编码相关的 ALiBiROPE线性插值(PI)NTK ;注意力相关的 GQA , SWALM-INFINITEStreamingLLM ;以及 meta 的综述 Effective Long-Context Scaling of Foundation Models 记录。


Kevin 吴嘉文大约 8 分钟知识笔记NLPAIGCLLM
LLaMa 零散笔记

llama note

LLaMa 系列模型

baichuan,qwen 等与 llama 架构类似。不同点在于中文的这几个模型对此表进行了扩充,预训练方式不同,instruction tuning prompt template 不同,baichuan,qwen 分别采用 w_projc_proj 来代替 hf llama 官方的 k,q,v_proj。因此除了 lora 训练时需要映射一下位置,GPTQ 也需要做一下调整。

lora 有些人直接给设置成对 q_proj, k_proj, v_proj, W_proj 等等一系列不同模型采用的权重名称,似乎也不是不行。


Kevin 吴嘉文大约 2 分钟知识笔记NLPAIGC
TGI + exllama llama 量化部署方案

本文对 Text generation inference + exllama 的 LLaMa 量化服务方案进行单卡 4090 部署测试。

上期内容:vllm vs TGI 部署 llama v2 7B 踩坑笔记

在上期中我们提到了 TGI 和 vllm 的对比测试,在使用 vllm 和 TGI 对 float16 模型进行部署后,我们能够在单卡 4090 上达到 3.5+ request/秒的吞吐量。


Kevin 吴嘉文大约 3 分钟知识笔记NLPAIGC
vllm vs TGI 踩坑笔记

LLM 高并发部署是个难题,具备高吞吐量的服务,能够让用户有更好的体验(比如模型生成文字速度提升,用户排队时间缩短)。本文对 vllm 和 TGI 两个开源方案进行了实践测试,并整理了一些部署的坑。

测试环境:单卡 4090 + i9-13900K。限制于设备条件,本文仅对单卡部署 llama v2 7B 模型进行了测试。

小结: TGI (0.9.3) 优于 vllm (v0.1.2)。最新版本的 TGI 在加入了 PagedAttention 之后,吞吐量和 vllm 差不多。

vllm


Kevin 吴嘉文大约 10 分钟知识笔记NLPAIGC
2
3
4
5