跳至主要內容
对话系统笔记(一)|检索基础

本文为文本距离(WMD,BM25),检索(倒排索引),邻近搜索( Annoy, KD tree, HNSW )的一些基础方法进行了笔记梳理。

检索式对话系统基础

文本表征的一些方法

句向量: 词向量求平均,将 tf-idf 当做单词权重,或者使用 SIF 加权平均(效果似乎更好)。

  • 中文词向量链接:github.com/Embedding/Chinese-Word-Vectors
  • quick-Thought Vectors
    • 使用孪生网络,与问答查重理论相同。或者输入输出使用不同的 encoder,使用负采样,负采样为预料中上下文的句子,和词向量的负采样原理相似。

Kevin 吴嘉文大约 12 分钟知识笔记对话系统
Beam Search、cache 机制笔记

paddlenlp 源码中的 Beam Search、cache 机制笔记

Beam Search

paddle beam search 实现分析

整体逻辑 模型执行生成代码: model.generate( input_ids,...) 执行解码通用操作:

  • 获取相关输入数据,如 input_ids,bos_token_id,eos_token_id 等数据
  • 准备cache 相关数据,配置logits_processors 函数用于每个时间步的 logits 调整。(如重复字符惩罚等)

Kevin 吴嘉文大约 6 分钟知识笔记NLP对话系统