第265章好困_离语(semaphore)

    针对安利云购的程序首页，以下是五个建议的调整地方，以及相应的改进思路、设计方案和改进后的验证方式：
    1. 调整一：提升页面加载速度
    改进思路：优化代码结构，减少不必要的http请求，压缩图片和文件大小，使用cdn等技术手段提升页面加载速度。
    设计方案：对代码进行性能分析和优化，移除冗余代码。
    合并css和javascript文件，减少http请求次数。
    使用图片压缩工具对图片进行压缩，减少图片大小。
    引入cdn服务，分散服务器压力，提升用户访问速度。
    验证方式：使用页面性能分析工具（如lighthouse）对首页进行性能评估，确保加载速度在合理范围内。
    邀请用户进行实际体验测试，收集用户对页面加载速度的反馈。
    2. 调整二：增加个性化推荐
    改进思路：通过分析用户行为数据，为用户提供个性化的商品推荐，提升购物体验。
    设计方案：收集用户浏览、购买、搜索等行为数据。
    利用机器学习算法对用户行为数据进行分析，生成个性化推荐列表。
    在首页显眼位置展示个性化推荐商品，并提供推荐理由。
    验证方式：监控个性化推荐商品的点击率、购买转化率等指标，评估推荐效果。
    收集用户对个性化推荐的反馈，了解用户满意度。
    3. 调整三：优化页面布局
    改进思路：根据用户习惯和数据分析结果，优化页面布局，提升用户体验。
    设计方案：采用响应式设计，确保页面在不同设备上都能良好展示。
    将重要信息和功能放在显眼位置，方便用户快速找到。
    减少页面冗余元素，提高页面简洁度。
    验证方式：通过a\/b测试对比不同页面布局的用户满意度和转化率。
    邀请用户体验测试，收集用户对页面布局的反馈。
    4. 调整四：提升平台交互性
    改进思路：增加社交功能，提升平台互动性，吸引更多用户参与。
    设计方案：在首页增加用户评论、晒单等功能，让用户可以分享购物心得和体验。
    引入社交分享功能，方便用户将商品分享到社交平台。
    举办互动活动（如抽奖、优惠券发放等），提高用户参与度。
    验证方式：监控社交功能的用户参与度和活跃度。
    收集用户对社交功能的反馈，了解用户满意度。
    5. 调整五：加强品牌宣传
    改进思路：通过首页设计加强品牌宣传，提升品牌知名度和用户信任度。
    设计方案：在首页显着位置展示品牌logo和口号。
    引入品牌故事、企业文化等元素，增强用户对品牌的认知。
    展示品牌荣誉和认证信息，提升用户信任度。
    验证方式：通过问卷调查了解用户对品牌宣传的感知和认可度。
    监控品牌搜索量和用户转化率等指标，评估品牌宣传效果。
    我将分为四个部分来介绍我的毕业论文。首先是研究背景。那么为什么要开展我这个研究呢？随着信息技术和网络技术的快速发展下，非结构化数据的比例迅速上升，传统的数据库并不能存储这些数据，所以这无疑带来了数据管理领域的重大挑战。文献是科技工作者获取知识的重要来源。英语作为国际通用语言，英文文献的重要性便不言而喻。文献通常以pdf进行存储。传统的pdf信息提取，比较局限，采用人工查阅将所需的有效信息进行提取，再把这些信息标记在论文资源上供人们定位和使用。这就要求负责这项工作的人具有相当专业的知识，世界各地，各行各业，每天都会产生大量文章，信息提取的效率相当重要，怎么才能避免资源浪费，就是一个待解决的问题。随着大语言模型的兴起，诞生了检索增强生成技术，它从大量的文本数据中提取出有用的信息，并对这些信息进行分析和处理，为用户提供更全面、更准确的信息服务。基于此，选取检索增强生成技术来对大量文献进行信息提取，相较于先前的人工查阅降本增效，安全性高。我选择的数据对象是，电力行业lca英文文献。第二部分我将介绍我本次研究最核心的关键技术。检索增强生成技术。大语言模型的知识包括，自己本身的知识，用户的前置输入，和联网或者检索专业的知识库所获取的知识，将这三部分结合，便是检索增强生成所包含的内容。说的再直白一点，就是让大语言模型外挂一个知识库，或联网搜索，去抽取到相关知识，是检索。把专业的知识和提问一起，送给大语言模型归纳生成，生成一个更准确的答案，是增强，最后返回给用户，即为检索增强生成。第三部分则是我的系统介绍。针对我的研究题目：基于大语言模型（llm）的英文文献解析，我将我的研究系统分为了三个模块。数据处理模块主要包括对电力lca这个特定领域的英文文献进行选择和初步处理，而后将有关数据全部转化成结构化数据。知识库构建模块主要是将数据向量化并构建向量知识库。chatbot构建分为功能部分和前端部分，功能包括基于openai的大语言模型基座调用、知识库检索、在线检索；前端部分为web可视化以及ui设计。首先是数据处理模块。数据的范围，我选择了常见的五种发电方式，火力，水力，太阳能，核能，风能。确定每个主题的关键词和大主题生命周期评价后记录所有可能出现的形式，比如说，生命周期评价出现在论文里，可能是lca，也可能是lifecycle assessment，罗列所有可能性，做到不遗漏数据。
    在 rag 技术中，整个过程主要分为三个步骤如图 2.2 所示：索引（ inding）、检索
    （retrieval）和生成（generation）。首先，索引步骤是将大量的文档或数据集合进行预处理，将
    其分割成较小的块（chunk）并进行编码，然后存储在向量数据库中。这个过程的关键在于将非结
    构化的文本数据转化为结构化的向量表示，以便于后续的检索和生成步骤。接下来是检索步骤，它
    根据输入的查询或问题，从向量数据库中检索出与查询最相关的前 k 个 chunk。这一步依赖于高效
    的语义相似度计算方法，以确保检索到的 chunk 与查询具有高度的相关性。最后是生成步骤，它将
    原始查询和检索到的 chunk 一起输入到预训练的 transformer 模型（如 gpt 或 bert）中，生成最
    终的答案或文本。这个模型结合了原始查询的语义信息和检索到的相关上下文，以生成准确、连贯
    且相关的文本。
    rag 的概念和初步实现是由 douwe kiela、patrick lewis 和 ethan perez 等人在 2020 年首次
    提出的。他们在论文《retrieval-augmented generation for knowledge-intensive nlp tasks》
    中详细介绍了 rag 的原理和应用，随后谷歌等搜索引擎公司已经开始探索如何将 rag 技术应用到搜
    索结果的生成中，以提高搜索结果的准确性和相关性。在医疗领域，rag 技术可以帮助医生快速检
    索医学知识，生成准确的诊断建议和治疗方案。