跳至主要內容
Function Call 整理

在本文中,我们梳理了开源模型 Function Calling 能力的相关信息,包括采用的 chat template,function call 训练方案等。涉及模型 LlaMa 3.1, Mistral Large 2,glm-4-9b-chat,Qwen 2。

Llama 3.1

推荐官方指南:https://llama.meta.com/docs/model-cards-and-prompt-formats/llama3_1/

对话协议(Chat Protocal)

Llama 3.1 中采用了以下 special tokens 来辅助多轮对话和工具的调用。。


Kevin 吴嘉文大约 16 分钟知识笔记AIGCLLM
MOE 系列模型小记

在本文中,我们梳理了近期 (24 年 7 月前)部分 MOE 大模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mixtral 8x7B,Mixtral 8x22B,DeepSeek-MoE,Qwen1.5-MoE,DeepSeek-V2

混合专家模型的 Transformer 模型

对于 MOE 的基础,相比 dense model,MOE 的预训练速度更快,推理速度更快,但需要大量的显存。此外,MOE 的训练也有一些独有的 tips,详细的 MOE 混合专家模型基础,推荐参考:

混合专家模型基础(推荐)


Kevin 吴嘉文大约 11 分钟知识笔记AIGCLLM
Mistral 系列模型整理

在本文中,我们梳理了 24 年 7 月前 Mistral 系列模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mistral 7B, Mixtral 8x7B,Mixtral 8x22B,Mistral Nemo, Mistral Large 2

mistral 7B

官方博客mistral 7B 论文


Kevin 吴嘉文大约 9 分钟知识笔记AIGCLLM
《小米创业思考》记录与创业指导
image-20240828140851367
image-20240828140851367

本文内容基于《小米创业思考》一书的深入分析,旨在提炼并阐述小米公司的核心创业理念与实践步骤。小米所倡导的互联网七字诀——"专注、极致、口碑、快",以及其独特的商业模式——包括小米方法论、爆品模式和铁人三项,为我们提供了一套创业的行动指南。


Kevin 吴嘉文大约 78 分钟知识笔记思考
2
3
4
5
...
14