机器学习算法的业务应用实践分享.pdf
《机器学习算法的业务应用实践分享.pdf》由会员分享,可在线阅读,更多相关《机器学习算法的业务应用实践分享.pdf(56页珍藏版)》请在咨信网上搜索。
1、The better the question.The better the answer.The better the world works.机器学习算法的业务应用实践一数字化应用实践概述二机器学习应用实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理目录主标题第2页日期数字化时代背景-数字化及信息化的差异主标题第3页日期“数字化”是什么?和“信息化”有什么不同?信息化时代信息化时代数字化时代数字化时代以物理世界为主,少量的行为借助信息化手段进行改进和提升大部分活动及交互在数字化世界中进行,少量决策指挥信息回到物理世界与设备机器协作数字化时代背景-企业数字化转型的动力主标题第4
2、页日期数字化飞速发展的环境下,多方面动力促进企业实施数字化转型提升收入提升收入提高效率提高效率优化支持功能和流程优化支持功能和流程控制合规风险控制合规风险注意:这些说明性数据已经获得,并与私人洞察报告、研究报告以及之前的安永数据和分析项目进行了对比5%收入增加收入增加 监控和评估销售业绩 优化定价、销售和市场战略10%市场渗透率提高市场渗透率提高20%流失率降低流失率降低 实时集中风险管理系统,用于识别和监控关键风险指标 确保遵守法律法规4%不合规金额减少不合规金额减少 根据客户、渠道等制定不同的沟通策略 持续的市场数据监控,以了解客户的需求和行为 收集社交媒体和客户反馈数据,以了解客户满意度
3、的关键驱动因素 改善客户细分35%人力资源投入减少人力资源投入减少 通过机器人和机器学习,实现绝大多数后台流程的操作化和自动化10%-25%生产力增长生产力增长 检查员工绩效以衡量员工是否符合标准 简化、整合、更新、外包任务,以节省时间或开支开拓新的收入来源开拓新的收入来源提高客户体验和忠诚度提高客户体验和忠诚度数据的业务应用价值-利用新兴技术释放数字的价值主标题第5页日期几乎所有行业都开始高度粘合数字化科技,向智能化产业发展,成为撬动经济增长的新趋势。医疗业医疗业零售业零售业制造业制造业金融业金融业1全球行业数据量年复合增长率,数据来自IDC报告数据2025人工智能人工智能区块链区块链云计算
4、云计算新兴技术发展颠覆行业逻辑新兴技术发展颠覆行业逻辑颠覆业务模式颠覆业务模式催生价值共赢催生价值共赢以消费者为中心的数字化医疗模式带来颠覆式的治疗模式。如分析智能手表心率、日常作息数据,指导医药医疗技术研发生产流程智能,动态适应个性化产品生产需求,实现大规划、多品种的定制生产由产品驱动向体验驱动转变,线上线下的融合发展丰富零售业市场竞争手段金融科技驱动商业模式创新,涌现无现金支付、创新金融产品、智能风控、客户行为预测等医院和医疗机构、生命科技公司、技术创新公司、支付方、投资方相连接消费端与供给端的互联互通,实现产业链融合重构金融科技连接客户、产品与数据,从传统单一的通道业务模式向全业务链条财
5、富管理转型搭建资源整合平台,串联供应链,客户链、资本链,融合产业生态链量子计算量子计算数据的业务应用价值-行业领先实践分享主标题第6页日期各家公司在组织团队、流程机制、标签体系等多个维度各有所长,优势项目与其业务特点密切相关。拥有多个主题线的内容运营团队,触达与孵化各主题线达人内容创作者分层运营与孵化机制通过APP收集用户身份和行为数据利用第三方社交平台扩充数据为用户创建Unique ID,结合账户、设备型号、行为习惯之间的关系进行判别业内最先进的标签生命周期管理和上瘾算法针对创作者的Dou+针对商家的信息流广告用户管理系统流量分发系统按不同主题线的评估系统内容产品团队针对用户的评价运营团队与
6、针对商户的星级评价部各业务线梳理画像应用场景需求,动态分析优化内容和留存策略收集每个用户的自我评论数据生成每个用户个性化特征同时通过问卷填写补充用户个性化标签内容用手机号作为用户的唯一标识进行ID mapping基于会员、商户、内容的标签体系知识图谱模型应对复杂场景推广通商家通外卖专属频道,如必吃榜、黑珍珠、网红榜某团某评会员系统某团大脑某团推广通数字化团队,支撑产品创新研发、市场运营、门店经营,致力于为消费者提供极致的产品和服务基于会员体系、千人千面、千店千面的精准化营销链路根据洞察为某茶衍生热点新产品用户数据舆情数据产品评论数据外部观测数据用手机号作为用户的唯一标识进行ID mapping
7、人群特征画像供应链快速上新数字化营销平台数字化供应链平台IT管理平台视觉设计团队600人+自运营团队200人+数据与技术团队数字化选品与推新,迅速组合迭代覆盖用户全生命周期的运营管理舆情数据和竞品数据销售订单数据用户行为数据利用数据中台统一商品和用户服务数据的采集、存储与调用针对微信社群中的用户微信号打标签,区分流量类型数字化选品和出新私域流量运营用户全生命周期管理搭建数据中台和业务中台,打通多端数据利用微信SCRM完善多渠道DTC模式A1.组织团队组织团队A2.流程机制流程机制B1.数据聚集数据聚集B2.数据拉通融合数据拉通融合B3.标签体系标签体系B4.应用场景应用场景C1.系统工具系统工
8、具某音某音/某条某条某团某评某团某评某茶某茶某领先互某领先互联网美妆联网美妆品牌品牌一数据应用实践概述二机器学习应用实践技术与应用方法三应用实践案例-营销四应用实践案例-风险管理目录主标题第7页日期技术与应用方法-模型主标题第8页日期理论模型理论模型数据模型数据模型VS数据模型建立在统计框架之上,通过一类数据样本的训练,可以对该类特点数据进行推理并从中进行学习。训练后的模型可以对之前未见过的数据进行推理及预测。基于理论基础和复杂的逻辑推导得出目的是归纳出变量支建的关系能反映过程机理,可解释的应用场景有限通过数据训练得到目的是预测某类数据结果不能反映过程机理,不可解释应用场景比较广泛理论模型在数
9、学、物理学、化学、生物学等自然科学中用数学符号表示几个量之间关系的式子。具有普遍性,适合于同类关系的所有问题技术与应用方法-从数据中学习知识主标题第9页日期目的初步分析特征工程选择模型设置超参训练预测(应用)数据标签源数据训练后模型重新选择模型或重新调参训练数据集切分测试数据集测试技术与应用方法-机器学习主标题第10页日期机器学习结合统计技术来执行任务。机器学习是人工智能的子集,使用算法从数据集中学习。机器学习是大多数人工智能用例的基础。人工智能人工智能设计和运行日益自治的系统数据科学数据科学从数据中提取可行的观点,以推动业务和用户决策数据可视化数据可视化描述性统计描述性统计多代理系统多代理系
10、统知识工程知识工程问题解决问题解决机器学习机器学习人工智能人工智能机器学习机器学习深度学习深度学习深度学习:深度学习:是实现机器学习的一种方法,是目前机器学习中最重要也是最成功的分支。机器学习机器学习:是一种实现人工智能的方法机器学习最基本的做法,是用大量的数据来“训练”,通过各种算法从数据中学习如何完成任务。当前AI的进步主要取决于机器学习的发展。深度学习算法深度学习算法受到生物神经网络功能的启发具有多层单元,可学习具有多个抽象级别的数据展示已成为适用于广泛领域的最新技术需要大数据量和强大的计算能力需要大量的AI专业知识来进行适当调参技术与应用方法-基于机器学习的技术主标题第11页日期机器学
11、习的发展趋势主标题第12页日期能力、通用性更强的机器学习模型机器学习持续的效率提升机器学习变得更个性化,对社区也更有益机器学习对科学、健康和可持续发展的影响越来越大机器学习的研究更深入、理解更广泛机器学习在未来的5大发展趋势机器学习的前沿应用主标题第13页日期 OpenAI 开发的游戏人工智能软件可以在 Dota II 等游戏中击败人类。其旗下的人工智能图像生成器DALL-ELL不仅可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。其旗下的文字生成(text generation)人工智能GPT-3可以完成包括翻译、问答和文本填空任务,内容可以以假乱真且能
12、够掌握几乎所有的文体和内容格式微软微软OpenAI PyTorch 是一款开源的机器学习框架,能够加快从研究原型到产品部署的过程,由 Facebook AI 研究人员于 2016 年与一些 AI 研究人员共同创建。最PyTorch帮助Ins团队不断改进和完善推荐引擎,让Instagram成为探索用户感兴趣的内容并与家人和朋友分享的最佳平台之一 AR和VR正逐渐成为Facebook的重要组成部分。PyTorch 在AR和VR的新兴应用领域起到了增强技术和服务的作用,FacebookPyTorch DeepMind将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法 DeepMin
13、d 最出名的应用是AlphaGo,它在围棋游戏中挑战并击败了世界上最好的人类棋手 2019年,DeepMind人工智能AlphaStar在星际争霸II战胜人类职业玩家。在有“蛋白质奥林匹克竞赛”称呼的国际蛋白质结构预测竞赛(CASP)上,AlphaFold 击败了其余的参会选手,能够精确地基于氨基酸序列,预测蛋白质的3D结构。谷歌谷歌DeepMind 国内机器学习、AI智能做的比较出色的平台包括:百度AIG(自动驾驶)阿里达摩院(城市大脑 腾讯优图(医疗影像)科大讯飞(智能语音)商汤(智能视觉)海康威视(视频感知)旷视(图像感知)国内新一代国内新一代AI开放创新平台开放创新平台机器学习的案例:
14、Google colab平台的AI绘画主标题第14页日期Disco Diffusion 是发布于 Google Colab 平台的一款利用人工智能深度学习进行数字艺术创作的工具,它可以根据描述场景的关键词渲染出对应的图像:关键词:湖、黎明、森林关键词:亡羊补牢机器学习的案例:GPT-3智能写作主标题第15页日期GPT-3 在许多 NLP 数据集上均具有出色的性能,包括翻译、问答和文本填空任务,这还包括一些需要即时推理或领域适应的任务,例如给一句话中的单词替换成同义词,或执行 3 位数的数学运算。GPT-3生成的新闻,人们很难将机器写的新闻和人类写的新闻区分机器学习的案例:图像生成模型主标题第1
15、6页日期基于给定类生成全新图像的cascade 扩散模型示意图。图像生成模型在过去几年取得了显著进步。现有的模型有能力在仅给出一个类别的情况下创建真实图像,可以填充一个低分辨率图像以创建看起来自然的高分辨率对应物,甚至还可以创建任意长度的空中自然景观。机器学习的案例:自动创建文档布局主标题第17页日期VTN 模型的可视化。它能够提取布局元素(段落、表格、图像等)之间的有意义的联系,以生成逼真的合成文档(例如,具有更好的对齐和边距)。应用程序可以基于 Transformer 的变分自动编码器学习创建美观且有用的文档布局,并且可以扩展相同的方法来探索可能的空间布局。机器学习的案例:谷歌对话应用语言
16、模型 LaMDA主标题第18页日期与谷歌对话应用语言模型 LaMDA 模拟威德尔氏海豹(weddell seal)时的对话。机器学习的案例:基于深度学习的天气预测主标题第19页日期基于深度学习的天气预报方法使用卫星和雷达图像作为输入,并结合其他大气数据,在长达 12 小时的预测时间内产生比传统的基于物理的模型更准确的天气和降水预测。与传统方法相比,它们还可以更快地生成更新的预测,这在极端天气出现时非常重要。数据建模-具体流程主标题第20页日期1.问题识别识别阶段:识别阶段:识别问题和相应的分析框架特征工程阶段:特征工程阶段:理解业务梳理业务流程,将数据处理为模型能使用的结构3.变量处理4.变量
17、选择2.数据获取7.结果分析6.验证与测试建模阶段:建模阶段:根据历史数据,选择适当的模型描述特征来解释和预测事件5.模型开发迭代迭代10%60%30%时间分配数据建模-问题识别(1/2)主标题第21页日期14 November 2022Presentation titlePage 21识别问题的性质和相关信息具有三个主要目的:识别问题的性质和相关信息具有三个主要目的:识别相关信息阐明重要和持久的原因,以解决问题阐明与现有信息有关的不确定性开放式问题通常具有以下特征:开放式问题通常具有以下特征:无法完全描述有多个解决方案选项即使在专家中也引起争议信息不完整,需要多种解释有各种结果未知的解决方案
18、问题结构问题结构例子例子封闭式封闭式/结构化:结构化:问题只有一个“正确”的答案研究新兴产业,例如:在线广告执行定价基准和竞争对手评估开放式:开放式:范围广泛且充满不确定性的问题推荐策略,为客户提供合适的报价德意志银行后台的离岸业务1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-问题识别(2/2)主标题第22页日期14 November 2022Presentation titlePage 22抽象级别抽象级别相关性相关性可解决性可解决性必须在适当的抽象级别上提出问题。必须在适当的抽象级别上提出问题。例如:“应该采取什么措施来降低成本?”可能范围
19、太广,而“如何降低营销成本?”可能太狭窄。必须从必须从“客户客户”的角度提出问题。的角度提出问题。例如:“互联网将如何发展?”可能很有趣,但与“X公司可以通过什么方式利用互联网作为新的营销渠道?”却没有什么关系。问题应以明确答案的方式陈述。问题应以明确答案的方式陈述。例如:“股市在2018年的表现如何?”只能通过回顾回答,而“市场上升对我的投资组合有何影响?”可以通过分析回答。问题构建最佳实践问题构建最佳实践问题构建过程问题构建过程偏好,不确定性和假设全面评估问题的范围回顾与解读从多个角度全面评估问题并确定一组解释信息的标准(例如,外部数据获取)提出假设考虑到现有信息和上面所做的分析,提出一套
20、(合理的)假设1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-问题识别-什么是分类问题主标题第23页日期14 November 2022Presentation titlePage 23什么是分类什么是分类统计定义统计定义:分类是基于包含已知成员类别已知的观察值(或实例)的训练数据集来确定新观察值属于哪一组类别(子群体)的问题简单的定义简单的定义:把东西分成2类或多类电子邮件营销公司想知道您是否会在收到电子邮件后将其打开银行想知道申请是否为欺诈交易在线零售商想知道您是否会在购买手机壳后购买屏幕保护膜实际应用中的复杂性实际应用中的复杂性VS学术问题
21、学术问题确定目标、预测不考虑时间、数据集完整 行业应用行业应用数据源不明、目标待确定(定义清晰、容易理解的目标)、时间窗口非常重要、数据噪音多1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-数据获取主标题第24页日期14 November 2022Presentation titlePage 24初始数据请求严重影响项目进度分为关键数据和非关键数据考虑指定或限制数据请求的每个维度,例如:时间范围阶段(每日/每时/每周)业务线区域市场或产品组在客户组织中找到正确的对接人和数据来源在大型组织中,很容易浪费大量时间来查找正确的数据源与数据所有者会面或致
22、电,并首先讨论您的需求,以便于通过避免误解节省大量时间及早检查所有数据的可用性简洁明了地发送请求使其非常简单如果要求不高,请考虑在excel中放置一个虚拟表,以确保完全清晰。2.1 识别数据需求识别数据需求:2.2 例子例子:#Data CategoryFile NameFile SpecsOwnerRequest DateReceived DatePriority(H/M/L)StatusValidated(Y/N)Data Dictionary Received(Y/N)Comment1Account InformationAccount.txtTeam Member 11/20/2019
23、2/1/2019HCompleteYYN/A2Asset InformationAsset.datTeam Member 21/20/20192/5/2019MValidation In ProgressNYMissing asset type3Mortgage InformationMortgage tableTeam Member 31/20/20192/10/2019LRe-RequestNNN/A4Margin Call InformationMargin.xlsxTeam Member 11/20/20192/10/2019MNot ReceivedNNN/A5Account Bal
24、ance InformationAcct_bal.csvTeam Member 21/20/20192/5/2019HNot ReceivedNNN/A1.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析数据建模-变量处理主标题第25页日期14 November 2022Presentation titlePage 251.问题识别2.数据获取3.变量处理4.变量选择5.模型开发6.验证与测试7.结果分析检测自变量检测自变量3.1 基础检测基础检测:3.1.1 实体关系模型/关系图3.1.2 合并率3.1.3 探索性数据分析(EDA)3.2 数据分析数据分析:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 业务 应用 实践 分享
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。