💡这两天捣鼓了一下本地知识库的搭建,对于个人日常信息的处理来说非常有必要,很多场景都可以满足我的要求,尤其是基于一些文档的问答情况下,AI可以帮我很好地回顾、梳理、总结。
所以也想简单地记录一下这个过程,希望可以帮到有同样需求的朋友~
简单来说就是用来管理信息的一个库,在传统的数据管理方式中,我们通常是用「关键字」来查找内容,这样的方式在AI面前则显得过于机械。现如今的AI对信息的阅读理解、总结输出能力,已经无限接近于受过良好教育的成人。所以如果通过AI方式来管理信息,那么我们管理的过程也会更自然,更接近于和人的互动。如果把某个领域的专业内容上传到知识库中,那么后续的交互则更像是和一个小助手对话,而不是感觉像在翻书一样查找内容。
**(1)免费:**首先肯定是因为“免费”,现在市场上所有云端AI服务基本都对免费用户有一定请求限制,本地知识库则可以永久免费使用。
**(2)隐私保护:**我们在管理信息时很多时候信息都比较隐私敏感,尤其是在管理商业公司内部信息时,这些数据如果通过闭源云端大模型处理,难免会有信息泄露的风险。并且本地知识库还可以脱机工作,不需要联网即可进行信息检索,这对于很多安全要求较高的公司来说也很适用。
**(3)灵活性高:**用户可基于实际使用的场景来选择合适的开源模型搭建知识库,恰当的选择和配置,可提高整体的用户体验。
模型越大往往理解、推理、表达能力都更强,所以如果跑在本地的话,我们选择模型时需要考虑电脑的配置,一般也只能选择比较小的模型来跑。不过在知识库应用的场景下,小模型的处理能力也基本满足要求。
大模型经常会出现一本正经的胡说八道的「幻觉」现象,这使得很多存在客观标准、专业严肃的查询无法通过AI问答获得很好的服务,比如医疗、金融等领域。那么通过搭建知识库则可以有效避免这种情况,上传一些专业的内容文档,并要求AI从圈定的信息范围内进行查询,且在Prompt中明确说明只能通过知识库内容进行问答。那么一般来说我们则可以完成与AI的沟通基于知识库内容,在设定的范围内输出有效内容。
在搭建知识库的学习过程中,我了解到了一个很重要的概念「RAG」。那么下面就让ChatGPT来详细介绍一下什么是RAG吧O(∩_∩)O
什么是 RAG(Retrieval-Augmented Generation)?
RAG(检索增强生成)是一种结合了信息检索(Retrieval)和生成(Generation)技术的自然语言处理方法,用于创建更准确和信息丰富的回答或内容。
基本概念知识库(Knowledge Base)**:这是存储大量信息和数据的地方。知识库可以包含各种文档、文章、书籍等。