本文为文本距离(WMD,BM25),检索(倒排索引),邻近搜索( Annoy, KD tree, HNSW )的一些基础方法进行了笔记梳理。
检索式对话系统基础
文本表征的一些方法
句向量: 词向量求平均,将 tf-idf 当做单词权重,或者使用 SIF 加权平均(效果似乎更好)。
- 中文词向量链接:github.com/Embedding/Chinese-Word-Vectors
- quick-Thought Vectors
- 使用孪生网络,与问答查重理论相同。或者输入输出使用不同的 encoder,使用负采样,负采样为预料中上下文的句子,和词向量的负采样原理相似。
大约 12 分钟