玩转AIGC与应用部署.pdf
《玩转AIGC与应用部署.pdf》由会员分享,可在线阅读,更多相关《玩转AIGC与应用部署.pdf(92页珍藏版)》请在咨信网上搜索。
1、卷首语我们身处在智能时代的 21 世纪,日常生活中无处不见 AI 的应用,人工智能与传媒业的融合发展也成为内容生产行业的发展趋势。AIGC 作为当前新型的内容生产方式,被广泛应用于传媒、电商、影视等行业,帮助提高内容的生产效率和多样性。本书收纳来自张亦驰(怀潜)、丁小虎(脑斧)两位阿里资深工程师和阿里云AnalyticDB、函数计算 FC、阿里云大数据 AI 技术三个技术团队的五篇优秀技术文章,内容涵盖基于大模型的 AIGC 应用及技术要点和 AIGC 实际应用案例。通过本书,不仅可以深度体验 AIGC 在实际应用场景的具体落地能力,手把手教学云产品部署,开启云上实践。还可以了解在大模型的加持
2、下 AIGC 的多种可能性,帮助内容生产跨越新时代。如果你刚接触 AIGC,那么本书为你详细介绍 AIGC 大模型的意义。如果你已经对 AIGC 有一定的了解,本书将为你展示大模型云上实践,例如 Hologres+大模型、向量数据库+LLM(大语言模型)等。更有模型在线服务 PAI-EAS、函数计算 FC 云产品免费试用,一起来玩转 AIGC 吧!目录页Hologres+大模型初探!让 ChatGPT 回答商家问题.5AnalyticDB(ADB)+LLM:构建 AIGC 时代下企业专属 Chatbot.25人类生产力的解放?揭晓从大模型到 AIGC 的新魔法.37玩转 AIGC,5 分钟函数
3、计算 FC 部署 Stable Diffustion 服务.67玩转 AIGC,5 分钟使用 PAI 一键部署 Stable Diffusion AI 绘画应用.84Hologres+大模型初探!让 ChatGPT 回答商家问题5Hologres+大模型初探!让 ChatGPT 回答商家问题作者:张亦驰(怀潜)阿里巴巴商家服务团队旨在为商家提供智能化的解决方案,致力于帮助商家自助解决问题。主要的产品包括:商家服务大厅:主要通过搜索的方式为商家提供服务,包含了工具、短视频、知识、服务专区等特色内容。同时商家服务大厅以多种形态通过不同渠道为商家提供千人千面的服务。PC?版服务大厅:功能最全的 PC
4、 主站服务大厅,为商家提供多元化的智能解决方案。Hologres+大模型初探!让 ChatGPT 回答商家问题6钉钉商家服务大厅:通过钉钉的方式,为商家提供更加方便、灵活易用的自助服务!千牛服务大厅:在商家千牛工作台上为商家随时随地提供客服服务。Hologres+大模型初探!让 ChatGPT 回答商家问题7场景版服务大厅:通过悬浮小球的方式内嵌在商家常用的页面,例如申诉中心,服务触手可达万象:智能问答机器人,以问答的模式帮助商家解决问题。如果商家仍未能解决,可以进一步联系人工,通过在、热线的方式联系客服小二帮助解决问题。Hologres+大模型初探!让 ChatGPT 回答商家问题8总体来说
5、,阿里巴巴商家服务团队的主要工作就是围绕“智能”和“服务”这两个关键词展开,为各个商家提供更加自助的解决问题能力,以此提高对商家的自助服务能力,同时也降低平台服务商家的客服人工成本。在智能服务方面我们团队做了比较多的前沿探索,目前势不可挡的大模型凭借出色的自然语言理解能力,似乎在智能服务这方面大有可为,便萌生了让大模型帮助商家解决问题的想法。我们团队利用 ChatGPT 在智能答疑机器人场景做了初步的探索,下面是一些实践分享,希望通过这些分享为大家在商家服务、智能客服等场景提供更多的经验和思路。一、基于 Fine-tuning 的初次探索那么如何让大模型能够回答商家的问题?第一想法就是基于 F
6、ine-tuning,通过训练微调的方式提升模型垂直领域的能力,让其掌握一些商家服务领域的知识,以具备回答商家问题的能力。Hologres+大模型初探!让 ChatGPT 回答商家问题91.准备数据在知识库中筛选了一些知识并将它们的内容格式化后,整理成如下格式(json line):prompt:淘宝商家服务大厅,completion:2021 年 10 月商家服务大厅升级,新增活动大促专题 xxxxxprompt:单品宝是什么,completion:单品宝是原限时打折的升级工具,可支持xxxxprompt:宝贝详情页可以添加多少个视频,completion:在发布宝贝页一个宝贝在详情页中只能
7、添加一个视频 xxxxprompt:店铺经营主体变更需要先还清淘宝贷款吗,completion:需要还清贷款,因为店铺 xxxprompt:天猫活动商品价格力严重溢价是什么意思,completion:溢价是指预计普惠成交价高于最低成交价严重溢价的意思是指 xxxxprompt:买家退货单号虚假、没有物流信息怎么办,completion:1.建议您先联系买家,确认下是否存在填错运单号等情况。2.若无法联系上买家,您可 xxxxprompt:淘管家,completion:淘管家是 1688 专业的分销订货平台,在淘管家xxxxprompt:手淘中猜你喜欢频道如何加入,completion:手淘首页
8、展示的猜你喜欢频道目前无法主动入驻是 xxxxxprompt:买家删除了中评/差评,店铺评分(DSR)也会删除吗,completion:若买家自行删除中差评或修改中差评为好评 xxxxprompt:淘宝开店收费吗,completion:淘宝开店都是免费,但为 xxxx.在上述数据中,prompt 字段为商家问题,completion 为答案。用这些数据训练后,发现这种简单的一问一答的数据训练效果并不理想,向模型提问时,需要使问题和训练时的prompt 保持高度相似时,模型才能够勉强给出较为正确的答案。既然我们需要通过训练的方式提升模型垂直领域的能力,那么这些知识是否集中于某个领域,或者说大模型
9、是否知道它们是否集中于某个领域呢?于是将原来的 prompt 按照如下方式进行了改写:Hologres+大模型初探!让 ChatGPT 回答商家问题10明确 AI 在回答问题时的身份为“淘宝商家智能客服”,在回答问题时需要保持友善的态度,并且明确其目标为帮助商家解决问题;额外给出一个问答样例(one-shot)。按照这样的方式,最终的训练数据如下:prompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:淘宝商家服务大厅nAI:,completion:2021 年 10
10、月商家服务大厅升级,新增活动大促专题xxxxprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:单品宝是什么nAI:,completion:单品宝是原限时打折的升级工具,可支持 xxxprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:宝贝详情页可以添加多少个视频nAI:,completion:在发布宝贝页一个宝贝在详情页中只能添加一个视
11、频,若您想 xxxprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:店铺经营Hologres+大模型初探!让 ChatGPT 回答商家问题11主体变更需要先还清淘宝贷款吗nAI:,completion:需要还清贷款。因为店铺经营主体变更流程中 xxxxprompt:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。nnCustomer:你是谁?nAI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?nCustomer:天猫活动商品价格力严重溢价是什么意
12、思nAI:,completion:溢价是指预计普惠成交价高于最低成交价,严重溢价的意思是指 xxxx.2.训练在 OpenAI 目前的模型中只有 davinci、curie、babbage 和 ada,这些 GPT-3.0 版本的模型可以 Fine-tuning 适配,但再往后的版本暂不支持。训练的价格如下:可以看到使用训练后的 Davinci 模型的价格竟然高达 0.12 美元/1K tokens。再对比一下最新的 GPT-4 和 GPT-3.5 模型就知道它有多贵了:Hologres+大模型初探!让 ChatGPT 回答商家问题12准备好数据、选择好模型后,便可以开始 Fine-tunin
13、g 了。方法很简单,只需要将文件上传至 OpenAI 后,再指定文件 id 和模型后即可对该模型进行训练了,具体的过程可以参照OpenAI 官方文档。3.训练结果使用训练的模型进行测试,Prompt 同样采取如下格式:你是淘宝商家智能客服,你聪明、友善,能够帮助商家解决问题。Customer:你是谁?AI:您好,我是淘宝商家智能客服,请问有什么可以帮助你吗?Customer:大概效果如下:Hologres+大模型初探!让 ChatGPT 回答商家问题134.训练效果总结Fine-tuning 是真的贵啊,加上一开始几次无效的尝试,很快就把免费的 18 美元的额度花完了,后面只能自己花钱充值了。
14、作为一个纯正的穷哥们,虽然很难受,但也算为自己的兴趣交学费了。上述基于 Fine-tuning 的方式效果并不理想,总结了如下几个原因:训练数据太少。本次训练只提供了 100 多条数据,对于大模型来说算是九牛一毛了,大模型的训练还需更多优质的数据。训练方式问题。由于在这方面不够专业,在使用 OpenAI 提供的 Fine-tuning 接口时,只上传了一个文件,采用默认参数就完成了训练。如果能够使用更加专业的训练方式,比如 RLHF(依据人类反馈的强化学习),那么效果会更好。训练基于 GPT-3 模型,使用新的模型能有更好的效果。Prompt 真的很重要。给出一个好的提示,哪怕大模型不知道这个
15、问题的答案,也能根据提示给出一个乍一看很像模像样的答案。基于 Fine-tuning 的方式存在另外一个很重要的问题:在商家服务领域,很多知识需要不断更新,时效性较强,需要及时修正大模型中过时的内容,就需要耗费比较多的人力,这又变成了另一个难题。二、基于 Embedding 的实践在基于 Fine-tuning 的方式失败后,找到了基于 Embeddings 的实践方案。首先用一句概括一下这个方法的原理:根据输入问题先通过搜索的方式检索出一些相关信息(Embedding),再将这些信息作为上下文辅助大模型回答这个问题(Chat)。更简单地说,就是一种先搜再问的方式,下面便通过搜(Embeddi
16、ng)和问(Chat)这两个部分来介绍具体过程。Hologres+大模型初探!让 ChatGPT 回答商家问题141.基于 Embedding 的流程介绍Embedding(嵌入),以我这个小白的理解就是将自然语言转化为机器语言,即将我们说的一段话转化为一堆浮点数(向量),这个向量中包含了模型对自然语言含义和特征的理解。对于两个向量,可以用“距离”来衡量它们的相似度,离的越近的两个向量它们的相似度越高,对应的自然语言文本相似度也就越高。那么我们只需要简单的两步即可:将商家服务知识库中的知识向量化后存入向量引擎;将问题向量化后到向量引擎中进行检索,即可得到和问题相关的内容。整体流程如下图所示:2
17、.训练步骤1 1)内容格式化内容格式化商家服务大厅中的内容包含如下几类,我们需要关注的是有哪些部分可以参与 Embedding。短视频:包含标题、相似问和描述等文本内容。工具:商家服务特色操作类解决方案,如发起投诉、申诉、报备等。包含标题、相似问Hologres+大模型初探!让 ChatGPT 回答商家问题15等文本内容。专区:一类业务解决方案的集合。包含标题、相似问、描述等文本内容。知识:最常用的解决方案,分两类文本知识(FAQ):文本知识,包含标题、相似问、知识内容等文本内容。SOP:操作类知识,通过 SOP 流程驱动帮助商家解决问题。包含标题、相似问等文本内容。在上面这些内容中,最终选择
18、了知识进行向量化,考虑到以下两点:知识绝大部分内容都是文本,可将其最大程度向量化,为后续的向量检索服务;知识在商家服务中所有内容的数量占比超过 90%,并且也是评价解决率最高的内容类型。格式化的步骤如下:第一步:知识的内容为 html 富文本或 markdown,将其处理为纯文本格式,会造成一些内容(如超链)丢失;第二步:对于过长的知识进行人工筛选,如果需要向量化,则将其以每 500 字符为一段的方式分为多个 chunk,每个 chunk 的内容如下:title:知识标题;tags:相似问 1 相似问 2;content:知识正文内容2 2)数据向量化数据向量化通 过 OpenAI 的 Emb
19、edding 接 口 对 格 式 化 后 的 文 本 进 行 向 量 化,选 择 最 新 的text-embedding-ada-002 模型,它支持的最大输入为 8191 个 token:Hologres+大模型初探!让 ChatGPT 回答商家问题16它的输出是一个长度为 1536 的向量(1536 个浮点数):同时它的得分也更高:当然了,OpenAI Embedding API 的价格也很美好,只需要 0.0004 美元/1000 tokens!3 3)基于基于 HologresHologres 的向量存储的向量存储得到向量后需要进行存储和检索。因为我们在实际业务中有使用 Hologre
20、s,而 Hologres本身也集成了达摩院向量检索引擎 Proxima,于是我们基于 Hologres 做了实践,下面是操作步骤:第一步:创建表(详细请参考 Hologres 向量计算 Proxima)Hologres+大模型初探!让 ChatGPT 回答商家问题17-hologresbegin;create table sellerservice_content_tb(-主键id BIGINT,-内容 idcontent_id VARCHAR,-内容类型type INTEGER,-向量(维度 1,长度 1536)contentFLOAT4check(ARRAY_NDIMS(content)=
21、1andarray_length(content,1)=1536),-chunk 索引(标记本条数据是该知识的第几个 chunk)idx INTEGER,-原始文本内容row_content TEXT,-租户 idbu_id INTEGER);-因为测试的数据量较少,所以设置表的分片数量为 1call set_table_property(sellerservice_content_tb,shard_count,1);-为 content 字段添加 proxima 索引,采用“平方欧式距离”,数据量达到 1000 行后构建索引callset_table_property(sellerservi
22、ce_content_tb,proxima_vectors,content:algorithm:Graph,distance_method:SquaredEuclidean,builder_params:min_flush_proxima_row_count:1000);commit;第二步:将数据导入至该表:INSERT INTOsellerservice_content_tb(content_id,type,content,row_content,idx,bu_id)VALUESHologres+大模型初探!让 ChatGPT 回答商家问题18(123456789,0,array0.1,0
23、.2,0.3,0.4,.:float4,title:xxxxx;tags:xxxxxx;content:xxxxxxxx,0,3);将知识向量化后,就可以开始进行问答了,整个流程如下图:4 4)QueryQuery 向量化向量化用户输入问题后,首先需要对 Query 进行向量化。Query 的向量化和上面知识的向量化方法一致,只需要将 Query 作为入参调用 OpenAI 的 Embedding 接口即可。需要注意的是向量化 Query 时使用的模型需要和向量化知识时的保持一致,这样才能使向量的维度保持一致,否则无法进行向量检索。Hologres+大模型初探!让 ChatGPT 回答商家问题
24、195 5)向量检索向量检索得到了 Query 的向量后即可在 Hologres 中检索相关知识。Hologres 支持 JDBC 客户端链接,需要使用 42.2.25 及以上版本的 Postgres JDBC Driver:org.postgresqlpostgresql42.2.25.jre6然后配置 Hologresss 数据源:Bean(name=hologressDataSource,initMethod=init,destroyMethod=close)public DruidDataSource dataSource()DruidDataSource druidDataSourc
25、e=new DruidDataSource();druidDataSource.setDriverClassName(org.postgresql.Driver);druidDataSource.setUrl(jdbc:postgresql:/:/hologres_poc?reWriteBatchedInserts=true&tcpKeepAlive=true);druidDataSource.setUsername(xxxxxxxx);druidDataSource.setPassword(xxxxxxxx);return druidDataSource;配置完成后即可进行向量检索:-根据向
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 应用 部署
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。