跳至主要內容
MCP 基础概念

MCP github 主页MCP 官方文档

MCP Server

# server.py
from mcp.server.fastmcp import FastMCP
from mcp.server.fastmcp.prompts import base

# Create an MCP server
mcp = FastMCP("Demo")


# Add an addition tool
@mcp.tool()
def add(a: int, b: int) -> int:
    """Add two numbers"""
    return a + b


# Add a dynamic greeting resource
@mcp.resource("greeting://{name}")
def get_greeting(name: str) -> str:
    """Get a personalized greeting"""
    return f"Hello, {name}!"

Kevin 吴嘉文大约 3 分钟知识笔记NLPAIGCLLMAgent
AUTOGEN | 上手与源码分析

AUTOGEN 是一个开源平台,主要用于创建和管理自动化对话代理(agents)。这些代理可以完成多种任务,比如回答问题、执行函数,甚至与其他代理进行交互。

本文旨在介绍 Autogen 中的关键组件 Conversation Agent,并对其中的 Multi-Agent 功能实现做简单的源码分析。

参考官网文档,参考代码 Autogen 源码5a5c0f2


Kevin 吴嘉文大约 10 分钟知识笔记NLPAIGCLLMAgent
Semantic Kernel | 上手与分析

Semantic Kernel

本文对 Semantic Kernel 中的 Kernel,Plugin,KernelFunction,Semantic Memory,Planner,Services,reliability 等进行概念介绍。

1. Kernel

image-20240411094303977
image-20240411094303977

Kevin 吴嘉文大约 15 分钟知识笔记NLPAIGCLLMAgent
RLHF 基础

本文基于 HuggingFace 推出的 Reinforcement Learning Course 进行了整理,旨在记录强化学习的基础知识,为理解 RLHF(Reinforcement Learning from Human Feedback)打下基础。需要强调的是,以下内容仅涵盖强化学习的基础概念及 RLHF 基础,并非全面的强化学习教程。


Kevin 吴嘉文大约 20 分钟知识笔记NLPAIGCLLMAgent
MinIO | MinIO 基础

MinIO

Storage 概念

块存储(Block Storage)

  • 基础 :块存储将数据视为固定块大小的序列,每个文件分布在多个块上。
  • 调整和优化 :块大小可根据存储需求调整,以优化数据库等应用的性能。
  • 结构和一致性 :块存储具有高度结构化和强一致性,但对元数据的处理能力有限。
  • 用途
  • 作为物理或虚拟机磁盘,用于引导卷和服务器的额外本地存储。
  • 共享卷:一个写入卷挂载到一个服务器,其他服务器进行只读挂载,适用于数据处理和数据库。
  • 备份:将多个高容量廉价磁盘聚合作为备份目标,利用 SSD 和 NVMe 等快速本地存储。

Kevin 吴嘉文大约 5 分钟知识笔记大数据NLP
论文笔记 | 探索 LLM 的上下文长度外推

大模型上下文在前段时间有点火,TODO 里堆积的论文也越来越多(。

本文记录了 LLM 在长度外推方面的文章笔记,包括位置编码相关的 ALiBiROPE线性插值(PI)NTK ;注意力相关的 GQA , SWALM-INFINITEStreamingLLM ;以及 meta 的综述 Effective Long-Context Scaling of Foundation Models 记录。


Kevin 吴嘉文大约 8 分钟知识笔记NLPAIGCLLM
LLaMa 零散笔记

llama note

LLaMa 系列模型

baichuan,qwen 等与 llama 架构类似。不同点在于中文的这几个模型对此表进行了扩充,预训练方式不同,instruction tuning prompt template 不同,baichuan,qwen 分别采用 w_projc_proj 来代替 hf llama 官方的 k,q,v_proj。因此除了 lora 训练时需要映射一下位置,GPTQ 也需要做一下调整。

lora 有些人直接给设置成对 q_proj, k_proj, v_proj, W_proj 等等一系列不同模型采用的权重名称,似乎也不是不行。


Kevin 吴嘉文大约 2 分钟知识笔记NLPAIGC
TGI + exllama llama 量化部署方案

本文对 Text generation inference + exllama 的 LLaMa 量化服务方案进行单卡 4090 部署测试。

上期内容:vllm vs TGI 部署 llama v2 7B 踩坑笔记

在上期中我们提到了 TGI 和 vllm 的对比测试,在使用 vllm 和 TGI 对 float16 模型进行部署后,我们能够在单卡 4090 上达到 3.5+ request/秒的吞吐量。


Kevin 吴嘉文大约 3 分钟知识笔记NLPAIGC
2
3
4
5