必须运用深入的工程原理,经过分析才可能得到解决;目前针对于提升LLMs效能的方法有很多种:微调、提示工程和向量数据库。这些方法对于提升LLMs效能具有良好表现,但又具有各自的局限性,需要经过分析选择适合本课题的有效的方法。(2)涉及多方面的技术、工程和其它因素,并可能相互有一定冲突;1、对于提示工程具有长度限制和内容选择限制,不能满足用户更专业的需求。2、对于微调模型,数据准备要求高且训练资源复杂训练时间较长,投入成本大且不宜于实现。3、构建向量知识库,可以实现内容检索、语义理解以及数据存储功能。有助于提高LLMs在污水处理厂领域的效能。4、当下RAG技术成熟,可以实现全面理解检索到的非参数化知识以及大型语言模型内部的参数化知识,将继续使用本技术。5、LangChain框架可以实现外部数据库和LLMs交互链接,形成良好的交互,本文将利用此框架。(3)需要通过建立合适的抽象模型才能解决,在建模过程中需要体现出创造性;??1.基于embedding模型构建本地化向量知识库,在确保数据安全的情况下,实现优化。2.利用LangChain,基于LLMs构建Chatbot,形成LLMs与本地向量知识库的良好交互,便于用户使用。(4)不是仅靠常用方法就可以完全解决的;1.传统的结构化知识库只能行行列检索一一对应再输出答案,而向量知识库则是专门为非结构化数据检索而设计,其将向量数据组成立体高维空间,在空间内进行模糊检索快速输出权重最高的答案,更加人性化具有灵活性。2.传统的知识库采取云端部署,具有灵活性但具有数据风险,本次将采用本地化知识库部署,最大限度保证数据安全,维护污水处理厂的企业利益。(5)问题中涉及的因素可能没有完全包含在专业工程实践的标准和规范中;??1.污水处理厂专业领域的数据采集。数据需保证准确客观性,故采取的数据为污水处理厂应政府要求公开披露的数据并定期有第三方检测单位核验;即经过政府认可的披露数据,并在数。
据采集的时候经由人工定期核验,最大限度确保知识库原始数据的准确性。(6)问题相关各方利益不完全一致;(7)具有较高的综合性,包含多个相互关联的子问题。该问题可以拆解为:1、收集污水处理厂专业数据并处理。2、基于embedding模型,构建本地化向量知识数据库。3、利用LangChain框架,基于LLMs构建Chatbot。4、测试Chatbot效能并优化。注:毕业设计的任务应是一个复杂信息安全工程问题,必须具备上述特征(1),同时具备上述特征(2)-(7)的部分或全部的设计需要满足复杂工程问题的特征。
2.3.1智谱AI 智谱AI(Moonshot AI)是一家专注于人工智能领域的公司,擅长开发和提供LLMs。这些模型能够理解和生成自然语言文本,广泛应用于语言翻译、文本摘要、情感分析、问答系统和文本生成等任务。智谱AI通过其先进的算法和大量的数据训练,赋予了模型强大的语言理解能力,使其在处理复杂语言现象和提供准确语言输出方面表现出色。2.3.2 GLM-4 智谱AI的GLM-4模型是其最新推出的基座大模型,它通过开放API为开发者提供了强大的自然语言处理能力。GLM-4支持更长的上下文理解,具备更强的多模态处理能力,能够快速推理并处理大量并发请求,有效降低了计算成本。此外,GLM-4在智能体能力上进行了显著增强,使其能够更准确地理解和执行复杂指令。在性能上,GLM-4在多个数据集上展现出与GPT-4相当的能力,并在中文对齐能力上超越了GPT-4。开发者可以利用GLM-4模型进行各种语言类任。
务的API调用,如自然语言处理、机器翻译、智能客服等,推动AI技术在不同领域的应用创新。2.5 Streamlit2.5.1Streamlit概述Streamlit是一个开源的Python工具库,旨在帮助数据科学家和工程师快速创建和分享交互式、跨平台的数据应用。通过提供丰富的交互式组件,如滑块、按钮和图表,使得无需前端开发经验即可生成美观且用户友好的应用界面。Streamlit的应用可以实时更新数据,非常适合动态数据展示和分析结果演示。开发者可以轻松地将应用部署到Web上,并通过Streamlit社区提供的文档和支持快速学习如何使用该工具。
对称矩阵中的元素关于主对角线对称,因此,让每一对对称元素 aij 和 aji(i≠j)分配一个
存储空间,则 n2 个元素压缩存储到 n(n+1)/2 个存储空间,能节约近一半的存储空间。假设
按“行优先顺序”存储下三角形(包括对角线)中的元素。设用一维数组(向量)sa[0…n(n+1)/2]存
储 n 阶对称矩阵,如图所示。为了便于访问,必须找出矩阵 A 中的元素的下标值(i,j)和向
量 sa[k]的下标值 k 之间的对应关系。
树型结构是一类非常重要的非线性结构。树型结构: 分支关系
一对多
层次结构
本章将详细讨论树和二叉树数据结构,主要介绍树和二叉树的概念、术语,二叉树的遍
历算法。树和二叉树的各种存结构以及建立在各种存储结构上的操作及应用等。
1.树的定义
树(Tree)是 n(n≧0)个结点的有限集合 T,若 n=0 时称为空树,否则:
⑴ 有且只有一个特殊的称为树的根(Root)结点;
⑵ 若 n>1 时,其余的结点被分为 m(m>0)个互不相交的子集 T1, T2, T3…Tm,其中每个
子集本身又是一棵树,称其为根的子树。这是树的递归定义,即用树来定义树,而只有一个
结点的树必定仅由根组成,如图所示。
2.树的基本术语
(1) 结点(node):一个数据元素及其若干指向其子树的分支。
(2) 结点的度(degree) 、树的度:结点所拥有的子树的棵数称为结点的度。树中结点度的最
大值称为树的度。
图(b)中结点 A 的度是 3 ,结点 B 的度是 2 ,结点 M 的度是 0,树的度是 3
(3)孩子结点、双亲结点、兄弟结点
一个结点的子树的根称为该结点的孩子结点(child)或子结点;相应地,该结点是其孩子
结点的双亲结点(parent)或父结点。
如图 b 中结点 B 、C、D 是结点 A 的子结点,而结点 A 是结点 B 、C、D 的父结点;
结点 E 、F 是结点 B 的子结点,结点 B 是结点 E 、F 的父结点。
同一双亲结点的所有子结点互称为兄弟结点。
如图 b 中结点 B 、C、D 是兄弟结点;
结点 E 、F 是兄弟结点。
(4) 层次、堂兄弟结点
规定树中根结点的层次为 1,其余结点的层次等于其双亲结点的层次加 1。
若某结点在第 l(l≧1)层,则其子结点在第 l+1 层。
双亲结点在同一层上的所有结点互称为堂兄弟结点。