RAG流程
RAG流程:
mysql储存FQA高频问答对数据
问题检索:BM25
连接数据库
添加表(带着字段)
添加数据
json.dumps()
mysql 存储自己的网址和密码。(自己设计一个RAG系统)
声明回退问题,把原来的复杂查询简化,第一个query检索
进行改写。主题含义不变。
milvus可以处理的数据集的大小限制是多少
技术实现:
增强索引:设计目标、核心功能、技术实现
多粒度切块,把块-分子块,对应的父块,提供给LLM
文档切成一块,存储milvus中的文档,
query是为题,编程向量,
太长的拆成四个
128个向量
父块是一个
子块分成子块去做检索
切块的子块数都是超参数
混合检索:BM25,向量检索,字符检索
base:基础模块,配置、日志
core:核心逻辑模块,实现RAG的关键功能
main:系统运行入口,支持数据处理和交互查询
中午将一份唯二
通用知识由大语言模型回答,
直接 hyde 子查询 会输
文档检索:支持抽向量和系数向量的混合检索,
中午,下午
语义关键字,倒排(关键字检索
两句话的相似性,
混合检索,重排序优化,
作为回答送给大模型,方便理解。
用户查询
代码目录结构:
配置管理、日志记录
config。py
最大支持customer service phone
fallback
document_process
langchain的文档加载器
markdowm text splitter
datetime import datetime
相对路径(三方包)
模型切分工具、
文档加载器的类(处理pdf、word、ppt、图片
OCR可以提取图像里的内容
optical character recognition光学字符识别
paddle paddle ocr的工具库,基于深度学习技术,
可以把图像中的文字提取出来。
pdf 中的图片,怎么解决?paddle OCR;只能识别简单的图片rapid OCR
cv2:
寻味羊*村超BA之苗侗味道(第一档口华兴美食城店)
docx第三方库
迭代器
读取ppt的内容OCRIMGLoader(file path)
添加源数据,direcotry_path
documents 所有的键
扩展名集合
source