2023中国量化科技白皮书.pdf
《2023中国量化科技白皮书.pdf》由会员分享,可在线阅读,更多相关《2023中国量化科技白皮书.pdf(120页珍藏版)》请在咨信网上搜索。
中国量化科技白皮书2023.:.-:.:.?:.-:;.:;.:.:.一.;.睿:.:.:.;:_.1.曼t.之.:.-.、.:-.;.-.;.:.:,立一;勺 .:-:s;.,.J-.贮产心:.-.:t.:心,;.七心.气:-:.-i 七科技进步永不停息,金融市场的交易模式也在不断演化。在计算机体系、软件技术和算法理论的共同推动下,量化技术得到了飞速发展。从 20 世纪 50 年代,美国商品期货市场开始采用电子交易平台,到 90 年代互联网促进各种自动化交易系统、智能匹配算法和高效交易策略的出现,再到 21 世纪以来大数据、人工智能和云计算等金融科技的广泛应用,美国金融市场已成为世界上规模最大、流动性最强的金融市场。回顾国内,无论是初始的指数增强型基金,之后的高频交易,还是当下的多元化策略时代,都仰赖量化科技在提供全方位的支持。如今的量化科技,通过金融市场各关联方的广泛应用,体现在以智能芯片、软件加速库和低延迟网络为代表的软硬件技术范畴,也显露于由多模态数据处理和深度学习等人工智能模型演化的交易策略方面。眼下,中国资本市场正在不断进步和完善,在全面注册制稳步实施的背景下,随着价格笼子机制设立、融券券源扩容、量化策略容量大增,量化这个相对小众但日益壮大的群体,迎来了全新的发展机遇。量化科技将走出私募与大机构的专属“朋友圈”,不断普及化、散户化。如何有效加强相关的投资者教育,并促进量化科技发展红利真正普惠大众,就显得更加迫切。未来,在满足监管和合规要求的前提下,聚焦行业需求,守正创新,协同推进数据、算力和算法,从提高交易效率、稳定市场流动性、消除信息不对称、促进市场有效定价等方面,与资本市场共成长,这是量化从业者理应承担的社会责任,也是量化行业蓬勃发展的内在动力。QTF 量化科技嘉年华组委会借首届活动举办之际,发布中国量化科技白皮书(2023),既是向大众普及量化概念以消除行业“神秘感”,也是为行业的可持续健康发展厘清脉络,系统性思考量化的未来。本量化科技白皮书的课题组成员单位包括(排名不分先后):湘财证券股份有限公司、国泰君安证券股份有限公司、中泰证券股份有限公司、华鑫证券有限责任公司、华福证券有限责任公司、南华期货股份有限公司、上海证券交易所、上海金融期货信息技术有限公司、上海期货交易所、上海灵均私募基金管理合伙企业、华锐金融科技研究所、上海卡方信息科技有限公司、上海交通大学上海高级金融学院、上海市海华永泰律师事务所。本课题组在行业代表性机构以及学术支持单位的鼎力协助下,调研了多家机构,尝试理解量化科技的发展趋势和市场格局,从而积极促进行业的生态建设。在此向所有参与本白皮书调研的机构表示衷心的感谢,也希望未来有更多的机构一起参与行业共建、共促生态繁荣。本白皮书总共七章,整体框架如下:第一章为量化科技概述,对量化科技的内涵、外延、发展历程、发展驱动因素和全面注册制实施对量化交易的推动进行简单介绍;第二章为科技在量化科技中的应用,涵盖了量化交易投前、投中和投后全过程的技术细节;第三章和第四章陈述国内外量化科技发展现状,分别从国际和国内两个视角阐述与量化交易和量化科技机构有关的监管政策、典型量化科技公司概况以及量化科技发展特征;第五章详细介绍国内的量化科技生态,对量化科技涉及的服务机构、交易所、金融机构和学术界逐个展开分析,重点突出其技术、数据和产品等维度的信息,并探讨了量化人才培养问题;第六章总结量化科技发展的痛点及挑战;第七章在第六章的基础上提出了量化科技相关的发展建议。量化科技白皮书课题组2023 年 5 月|序言|目录CONTENTS一、量化科技概述.01(一)量化科技内涵与外延.011、量化科技的内涵.012、量化科技的外延.02(二)量化科技发展历程.031、国际量化科技发展历程.032、国内量化科技发展历程.04(三)量化科技发展驱动因素.061、经济与社会发展是根本驱动因素.062、科技进步是保障性驱动因素.063、投资和理财需求是直接驱动因素.06(四)全面注册制实施推动量化科技发展.061、价格笼子机制设立凸显量化优势.062、融券券源扩大利好中性量化策略.073、上市公司扩容提升量化策略空间.07二、科技在量化交易中的应用.09(一)数据获取阶段.091、API.102、网络爬虫.10(二)数据加工阶段.101、多模态数据处理.102、数据清洗.113、因子计算.12(三)数据存储阶段.121、数据库存储.122、文件存储.143、数据仓库整合.14(四)策略研究阶段.141、机器学习算法.142、策略回测技术.183、量化投研云服务.18(五)策略构建阶段.181.策略编程逻辑.182.策略编程语言.18(六)策略执行阶段.191、低延迟技术.192、极速柜台.263、极速行情.264、算法交易.265、联合风控.27(七)投后分析阶段.271、净值分析.272、持仓分析.273、收益分析.274、风险指标分析.275、Brinson 分析.286、多因子分析.28三、国际量化科技发展现状.30(一)国际量化科技监管环境.301、美国对量化交易的监管.302、欧盟对量化交易的监管.323、英国对量化交易的监管.33(二)国际量化科技典型公司.331、文艺复兴.342、嘉信理财.343、先锋领航.35(三)国际量化科技发展特征.351、数据依赖加深.352、技术发展迅速.363、硬件算力提高.364、风控性能增强.365、监管审查趋严.36四、国内量化科技发展现状.38(一)国内量化科技监管环境.381、对于量化交易的监管.382、对于量化科技相关机构的监管.403、量化科技相关监管处罚案例.40(二)国内量化科技典型公司.411、幻方.412、国泰君安期货.423、聚宽.42(三)国内量化科技发展特征.431、交易链路极致化.432、量化投研智能化.433、行业服务生态化.434、监管方式数字化.435、合规完善持续化.43五、量化科技生态体系.45(一)服务机构.451、基础设施服务商.452、交易平台服务商.483、算法服务商.504、数据服务商.55(二)交易所.601、证券交易所.602、期货交易所.61(三)金融机构.661.证券公司.662.公募基金.763.期货公司.794.量化私募.85(四)学术界.871、量化交易对市场有效性影响的研究.872、学术界的量化科技研究.883、学术界与业界的合作.91(五)人才培养.921、量化科技人才画像.922、高校人才培养.933、企业培训.95六、量化科技发展痛点及挑战.98(一)制度体系层面.981、量化交易监管框架仍需完善.982、行业技术标准建设有待加强.99(二)机构层面.991、技术与业务创新迭代频繁.992、数据治理体系仍需优化.1013、量化科技投入竞争加剧.1014、量化风控体系有待升级.102(三)生态层面.1031、量化科技人才紧缺.1032、尖端技术部分受限.1033、跨机构协作较困难.1034、量化科技不够普及.104七、量化科技发展建议.106(一)制度体系层面.1061、完善监管框架与行业标准.1062、从业务本质出发进行监管.107(二)机构层面.1071、加强前沿科技的研发与应用.1072、赋能多层次多类型业务场景.1073、持续推进综合风控体系优化.1084、推进交易平台服务功能建设.108(三)生态层面.1091、加速量化科技人才培养.1092、提升基础设施服务建设.1093、强化行业生态共建共赢.1094、促进普惠与投资者教育.110-14-01-第一章 量化科技概述(一)量化科技内涵与外延1.量化科技的内涵量化科技(QuantitativeTechnology)是一个集合衍生概念。简单地说,量化科技是依托于数学模型和计算机信息技术、软件工程与云计算技术等,为量化投资等相应的投资和资产管理业务提供综合性支持、服务、保障的技术方法、手段、平台和系统。要了解量化科技首先须了解量化投资。量化投资(QuantitativeInvestment)是指区别于以人的主观判断为基础作出决策的主观投资方式,它依托计算机技术手段,以历史数据为基础,以构建数学模型方式提供程序化、自动化的决策支持和交易支持,以此替代人为的主观判断,从而克服和规避交易者的情绪波动等非理性投资决策、交易行为,实现理性、可控的投资结果。而使量化投资得以达成上述目标的科技应用和技术保障,即是量化科技。量化交易的本质是数量化交易、程序化交易、算法交易、自动化交易以及高频交易,量化科技是保障量化交易以及依托量化交易而进行的资产配置与财富管理活动得以实现数量化、程序化、自动化、高频化的技术支撑平台和生态系统,这是量化科技的本质和内涵。这一内涵可以从以下几个层次去理解:首先,技术保障方面,量化交易高频、快速、标准化、纯客观的特点要求量化科技需要通过快捷的通信系统、强大的数据收集与处理能力、数理模型构建能力、计算机信息技术、软件工程技术、强大的云计算技术、交易算法技术乃至人工智能技术等先进的技术手段构造算法支撑。其次,金融工具箱与交易策略方面,一个完整的量化交易行为涉及策略构建、程序的编写、执行、回测、评价等环节,量化科技需要在策略开发方面提供模块化的工具支持,还需在策略实现过程中提供高度衔接的、一体化的流程支持,并能够保障策略执行过程高效、顺畅、便捷、可靠。且量化交易对象可能涉及各种类型的可交易性金融产品和工具,包括股票、债券、期货、外汇、基金等权益型、债务型量化科技概述一本章摘要:量化科技是依托于数学模型和计算机信息技术与云计算等技术,为量化投资等相应的投资和资产管理业务提供综合性支持、服务、保障的技术方法、手段、平台和系统的集合衍生概念。本章节将对量化科技的内涵、外延、发展历程及发展驱动因素进行简单介绍。此外,2023 年全面注册制的推行,也将推动量化科技的运用更加普及化与散户化,量化科技不再是私募与大机构的“专属”科技,将逐步走向千家万户。-02-或混合型资产类别,也可能涉及期权(股票期权、股指期权、商品期权等)、掉期等金融衍生品,每一品种和工具都对应不同的交易逻辑与合规监管要求,量化科技需要全面支持不同的金融工具,并兼容性地体现在技术、服务、流程等各个模块和环节。再次,合规风控方面,由于交易与投资活动涉及到政治、经济、社会、各类宏微观的具体事件乃至人们的情绪、心理等各个层面,交易构建、执行和实现过程中还需要考虑各类系统与非系统的风险因素,对风险进行甄别和计量,并具体实施在因子选取、决策、模型构建、交易实施等各环节,同时还需要遵循既有的法律、法规的监管约束。量化交易过程中,需跟踪捕捉上述各种因素并进行具体量化与参数化,对量化科技在社会经济、金融风险、政策法规以及合规风控等各个方面提出兼容性的保障要求。最后,量化交易需要高度兼容的综合生态系统,而量化科技要求构建兼容多维与海量的数据-算法-模型的实用性策略与产品,构造出符合监管要求的可执行的工具和应用系统,同时确保技术、金融工具与交易环境的交互融合。2、量化科技的外延量化科技是金融科技的一个子系统,它本身也构成一个完整的生态系统,其基本功能包括数据库管理、组合管理、基金管理、风险管理、合规风控、业绩跟踪、回归分析、模拟仿真等各个板块,各板块功能应当能够相互衔接,构成一个完整、综合的生态平台。这一综合性的生态系统涵盖以下内容:(1)科学可靠的技术支持系统包括庞大的数据库和云存储功能、可靠的计算信息收集与数据处理功能、数理模型构建功能等。这些功能构成量化科技硬件的技术支持条件。(2)决策支持系统量化科技需要对决策活动所需的正确的评估能力、精确的预测能力、准确的决断能力提供软、硬件各方面的技术和系统支持,为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,以及各种信息资源和分析工具,帮助决策者提高决策质量,实现决策目标。(3)风险管理支持系统量化科技需要为量化投资提供相应的风险管理工具,可用于风险数据采集,提供多维度数据分析技术,实现风险的实时诊断;提供实时的风险决策支持,进行适时的风险监控,以及与金融市场实时交互、动态进行风险事件的甄别、判断、跟踪、捕捉等活动。(4)合规与内控管理支持系统市场监管环境对证券投资行为提出日益严格的合规和内控要求,量化科技平台需要拥有全面、系统与及时更新的市场规章制度数据库,并能够支持将具体的合规条款生成相应的控制程序,嵌套、落实于投资决策与决策实施的各个环节,以保证从投资决策开始到模型构建、投资实施等各个环节受到严密的控制,确保各环节遵循合规风控和内部治理要求。第一章 量化科技概述-03-第一章 量化科技概述(二)量化科技发展历程1、国际量化科技发展历程1 量化科技由量化投资催生而来,考察量化科技的发展历程需要对量化投资的产生和发展进行回顾。(1)量化投资的产生与兴起(60-80 年代)量化投资是依托于计算机技术的自动化交易,它伴随着计算机的产生而产生,伴随着计算机技术和证券市场的发展而不断发展。全球计算机信息技术与证券市场发展最快,规模最大的地区是美国。1946 年,美国数学家冯诺依曼发明出世界上第一台民用计算机,随着民用计算机的不断普及,一些交易者开始使用计算机编制程序,尝试应用于证券交易,这即是量化交易的萌芽。1969 年,爱德华索普利用他发明的“科学股票市场系统”(实际上是一种股票权证定价模型),成立了第一个量化投资基金,主要从事可转换债券的套利。该基金成立后连续 11 年内没有出现年度亏损且持续跑赢标普指数,爱德华索普也因此被誉为量化投资的鼻祖。1971 年,美国巴克莱投资管理公司发行了第一只指数基金,标志着量化投资基金的开始,量化投资逐渐成为美国市场的一种重要投资方法。1973年,美国芝加哥期权交易所成立,以金融衍生品创新和定价为代表的量化投资革命拉开了序幕。1988 年,詹姆斯西蒙斯成立了大奖章基金,从事高频交易和多策略交易。大奖章基金(Medallion)在 1989-2009 的二十年间,平均年收益率为 35,若算上 44的收益提成,则该基金实际的年化收益率可高达 60。西蒙斯也因此被称为“量化对冲之王”,是量化投资的标杆人物。(2)量化投资的高速发展(90 年代)1991 年,彼得穆勒发明了 alpha 系统策略。1992 年,克里夫阿斯内斯发明了价值和动量策略(OAS)。1994 年,约翰梅里威瑟成立长期资本管理有限公司(LTCM),创立期权定价模型(OPM)并邀请诺贝尔经济学奖获得者斯科尔斯和莫顿后续加入。该公司擅长相对价值交易,搜寻价格偏离理论均衡水平的证券,并利用高杠杆放大收益。(3)量化投资的新发展(21 世纪以来)进入 21 世纪之后,数理金融理论以及机器学习技术的迅速发展给量化投资带来了新的理论和工具。尤其是 2008 国际金融危机之后,一系列风险事件让证券投资者与经纪商意识到纯客观投资的价值,同时伴随互联网技术和证券市场的发展,量化投资开始进入快速发展阶段,经过十数年的发展,涌现出了一大批巨型的专业量化对冲基金、金融科技服务商和特色券商,代表性的公司有嘉信理财(Charles1量化投资在国外和国内的发展历程,https:/ 20 世纪 90 年代。21 世纪起,随着监管制度建设、交易机制的探索与改革逐渐步入正轨,监管层提出“超常规发展机构投资者”,公募基金、私募基金、社保基金、保险基金、QFII 等不同类型的机构投资者批量崛起并积极入市,金融与投资工具也不断丰富,国内量化投资与量化科技也逐渐产生、不断壮大。概括而言,我国量化科技发展大致可以划分为以下三个阶段(见图 1.1)。图 1.1:我国量化科技发展的三个阶段资料来源:课题组整理(1)探索起步阶段(2002-2009)2002 年 10 月 15 日,华安基金管理公司依托上交所同年 6 月刚刚发布的上证 180 成份股指数,在市场首度发布华安上证 180 指数增强型证券投资基金招募说明书,招募成立国内第一只指数增强型量化基金华安上证 180 指数增强型基金,2002 年 11 月 8 日该基金正式成立,募集资金共计 30.94亿元人民币,自此开启国内机构量化投资的时代。2004 年 8 月 27 日,光大保德信基金管理有限公司发第一章 量化科技概述-05-行设立“光大保德信量化核心证券投资基金”,首期募集资金 25.44 亿元,开启国内主动量化投资的时代。这些基金运作管理开始运用量化技术,但由于金融工具匮乏、交易制度和监管机制的不完善,量化投资和量化科技的开发应用尚处于起步、摸索阶段。因此,对于公募基金量化产品来说,2010 年之前还处于初期探索阶段。(2)加速发展阶段(2010-2018)2010 年开始,我国证券市场进入创新发展新阶段,融资融券业务与期指期货的推出标志着我国股市开始可以进行有条件的做多与做空双向交易和杠杆交易,这为股票市场量化对冲交易、高频交易、基金管理与资产配置等提供了基础性金融工具。2013 年 6 月,新证券投资基金法正式实施,阳光私募基金纳入法律监管范畴,私募基金受到更多的监管认可,也进入了大发展的时期,我国量化投资、量化科技开始进入快速发展的时期。在这个阶段,金融工具的进一步扩充也是量化投资出现爆发式发展的原因之一。2015 年 2 月,上证 50ETF 期权获准推出;同年 4 月,上证 50 与中证 500 两个股指期货在中金所上市交易。这些都给量化投资提供了更多的对冲工具,也为量化投资带来了更多的交易策略。这一时期,量化科技涵盖了多元化的策略模型,如多因子选股、事件驱动选股以及基本面量化选股等各种选股方式。各类量化对冲策略如股票中性、股票多空、CTA 策略、套利策略,期货策略,期权策略,债券策略等,也被大量运用于投资实践之中,量化投资的可行策略得以丰富,量化科技手段日益扩展、提升,量化交易策略进一步向高频交易迈进。量化交易开始将云计算、大数据和市场交易平台进行连结,将信息收集、因子提取、模型构建、计算编程、投资决策、具体交易、回测分析更紧密地结合起来,打造出综合性的交易平台和生态系统,量化交易规模不断壮大,至 2018 年底,国内仅公募基金发行与管理的股票指数基金就有 572 只2,资产管理规模合计达到 5320 亿元(不计 ETF 基金),占据全部股票型公募基金的 72%。(3)逐步成熟阶段(2019 年至今)2018 年 4 月 27 日,中国人民银行、银保监会、证监会、外管局联合发布关于规范金融机构资产管理业务的指导意见,这一政策被市场俗称为“资管新规”,其出台抑制了 P2P、影子银行等不规范投资理财行为,间接凸显与提升了非主观的量化投资的价值。与此同时,证券市场改革继续向深度和广度拓展,两融标的扩容、融券的放开与应用,丰富了量化策略的种类和容量,将量化投资推入了新的发展阶段。从这一时期开始,一些新锐券商大力布局金融科技,量化科技开始真正步入规范、成熟发展的新时代。2019 年,华鑫证券启动“五位一体”战略,成立专门的金融科技公司,推出量化“极速交易系统”,成为券商金融科技发展的先驱。时至今日,华鑫依托极速交易系统打造的适合公募、私募等专业量化投2中信证券2018 年股票指数基金规模与业绩盘点。第一章 量化科技概述-06-资机构以及专业个人投资者量化交易需求的“新一贷”交易平台、“星途 Starway”交易 APP,将决策、下单、定单跟踪、交易实现、交易回测与分析、合规风控、模拟学习等功能深度融合,真正实现了量化交易的生态系统构建。其后,招商证券、华泰证券、中泰证券、方正证券等也纷纷跟进大举进军金融科技,在业界推出了丰富多彩的专门量化交易系统平台,量化科技得以长足发展。技术与产品、策略的不断丰富,使得量化基金产品成为居民财富管理重要方式之一,量化投资规模稳步增长。广泛的新型科技工具的应用成为这一时期量化科技发展的新特征,人工智能、区块链、云计算、大数据等为代表的现代信息技术深度融合,促使量化科技向着信息化、数字化、智能化方向持续迈进。如机器学习、深度学习等 AI 算法在股票和衍生品市场上取得了显著成绩,为投资者创造了巨大的收益,正深刻地改变着投资理念和投资生态。(三)量化科技发展驱动因素1、经济与社会发展是根本驱动因素改革开放之后我国经济与社会发展进入快车道,20 世纪 80 年代至今,我国经济 40 年间几乎保持了两位数的年均增长率,与之相应,国民财富也基本保持了同步增长。国民财富的增长带动了投资与理财的巨大需求,量化投资作为主流的投资方式之一,获得了巨大的发展空间,成为量化科技发展最基本的驱动力。2、科技进步是保障性驱动因素通信技术结合计算机技术使得人类社会进入信息时代,科技的加速发展全方位改变了人类生活的样貌。量化科技依托于数学、物理学、信息科学、计算科学、统计学等基础学科发展,运用计算机软件编程、数据库技术、云计算、算法工程等技术手段,建立算法模型,打造决策与交易生态以辅助投资与资产管理,在新业务需求持续驱动下不断进步和发展。3、投资和理财需求是直接驱动因素经济发展与国民财富增长直接催升了对各类投资的巨大需求,证券二级交易市场由此应运而生并持续扩大,投资、交易、理财、资产管理等专业化、差异化分工持续深化。量化投资作为避免主观情绪化的、纯客观的、机器自动实现的应用场景和方法,应运而生。(四)全面注册制实施推动量化科技发展全面注册制的实施可推动量化交易的散户化和大众化,提高量化交易策略的收益和容量,从而推动量化科技的进一步发展。1、价格笼子机制设立凸显量化优势“价格笼子”是全面注册制改革配套的重要交易制度创新,旨在维护瞬时价格稳定、防范异常波动。以前主板报单没有价格笼子机制,游资可以利用资金和筹码优势直接涨跌停挂单追涨杀跌,不利于市场第一章 量化科技概述-07-稳定性。本次新规增设了“十个申报价格最小变动单位”的安排,当 2%有效申报价格范围较基准价格变动不足十个申报价格最小变动单位(即 0.1 元)时,取至 0.1 元,这使得低价股无法触发交易信号的情况得到明显缓解,但同时也要求散户要比之前花费更多的时间和精力去盯盘,随时留意盘中波动,及时调整自己的交易策略,增加了交易的时间成本。一般的普通投资者都不是专业选手,没办法做到全天候实时监控股市动态,当委托价超过了股票价格笼子时,还需要人工继续操作,在这种条件下,普通散户的劣势显而易见。但在量化工具面前,以上股票价格笼子等都不算是问题,基本可以实现“一键”解决。如当下全球热门的交易系统量化炒股机器人,系统中不但集成大量的高胜率量化模型,更可以完成全自动买卖设置,通过“价格笼子规则前置过滤器”,一旦限价超越价格笼子,则自动按规则计算新的限价,再执行交易任务,避免全面注册制后的废单问题。无需盯盘,可将交易时间成本降到最低,结合极速交易通道更可以大幅提高成交效率。因此,全面注册制的实施,可以推动更多的散户使用量化工具,从而推动量化交易的进一步散户化、普及化。2、融券券源扩大利好中性策略主板注册制改革借鉴科创板、创业板经验,新股上市首日即可纳入融资融券标的,优化转融通机制,扩大了融券券源范围。量化交易策略有两个主流产品,即指数增强和中性产品。中性产品是指同时构建多头和空头头寸,空头一般会用股指期货、期权、融券来做对冲。2022 年数据显示,我国融券余额占两融余额 3%,而发达国家这一比例为 20%-30%,融券比例明显偏低,在一定程度上影响了量化交易策略的容量和收益。全面注册制扩大了融券券源的范围,增加了更多的对冲工具,因此有利于中性策略,可提高策略的收益和容量。3、上市公司扩容提升量化策略空间全面注册制及交易制度的改革将加快股票上市的节奏,推动上市公司扩容,增加投资的标的物,选股难度也会随之增加,这将进一步凸显基本面量化选股的作用。此外,股票池扩容有助于分散投资,降低流动性风险和策略间的趋同性,同时增加策略的选择空间和容量上限。第一章 量化科技概述-08-09-科技在量化交易中的应用二本章摘要:量化交易利用数学、统计学和计算机技术,通过对金融市场的历史数据和市场现状等进行分析和计算,确定交易规则和交易控制,从而实现自动化的交易过程。本章从数据获取、数据加工、数据存储、策略研究、策略构建、策略执行和投后分析七个阶段讨论科技在量化交易中的应用,详细说明了量化交易过程中用到的各种数据源信息、软件技术、硬件资源、网络技术和模型算法,涵盖了量化交易的投前、投中和投后全过程。第二章 科技在量化交易中的应用(一)数据获取阶段量化交易用到的数据涉及面广、种类丰富、规模庞大。用户可根据量化交易的实际需要,确定具体的数据类型和数据供应商,采取合适的方法获取目标数据。表 2.1 列出了量化交易中常用的数据类型和数据供应商。表 2.1:量化交易中常用的数据类型和数据供应商数据类型数据实例数据供应商市场数据股票、债券、期货、外汇等资产的价格、成交量、成交额、市值和波动率等。交易所:纽约证券交易所、芝加哥期货交易所、伦敦证券交易所、上海证券交易所、深圳证券交易所等;金融数据服务商:Bloomberg、Morningstar、万得、同花顺、东方财富等;开源数据接口:Tushare 等;社交媒体平台:Twitter、Facebook、微博、微信等;气象服务商:TheWeatherCompany、华云气象等;地理信息服务商:谷歌地图、百度地图、高德地图等。财务数据上市公司的财务报表,如利润表、资产负债表和现金流动量表等,以及其他衍生财务指标。新闻数据各种新闻报道、公告和分析报告等,这些数据可以用于分析市场行情、资讯面的影响等。社交媒体数据各种社交媒体平台上的讨论、评论和评分等,这些数据可以用于分析市场行情、产品口碑等。宏观经济数据国内外的 GDP、CPI、PPI 等宏观经济指标,这些数据可以用来分析宏观经济走势和影响。气象数据气温、降雨量、风力等气象信息。地理数据地图、卫星图像等。资料来源:课题组整理-10-1、API应用程序接口(ApplicationProgramInterface,简称 API),定义了多个软件系统之间的交互规范,包括可调用或请求的种类、调用或发出请求应使用的数据格式和应遵循的惯例等信息。它还可以提供扩展机制,便于用户通过各种方式对现有功能进行不同程度的扩展。一个 API 可以是完全定制针对某个组件的,也可以是基于行业标准设计的以确保互操作性。通过信息封装,API 实现了模块化编程,从而允许用户独立地使用接口3。在量化交易领域,用户可以使用 API 接口从数据供应商处下载需要的数据。Tushare 等开源的Python 数据接口,提供了丰富的 API 接口,可以获取历史行情、实时行情、财务数据、基本面数据、宏观经济数据等多种数据类型,可以方便地进行量化分析和研究。每日的数据更新较快,一般可以在交易日结束后 1-2 小时内更新,保证了数据的实时性和准确性。类似的数据供应商还有万得、东方财富Choice、通联数据、聚宽、掘金量化等。但这些平台在数据管理和收费模式上存在一些差异,用户可根据自己的需求选用合适的数据源。2、网络爬虫网络爬虫(WebCrawler),是一种用来自动浏览万维网的网络机器人,通过统一资源定位符(UniformResourceLocator,简称 URL)来查找目标网页,将用户所关注的数据内容直接返回给用户,并不需要用户以浏览网页的形式去获取信息,为用户节省了时间和精力,并提高了数据采集的准确度,使用户在海量数据中游刃有余。在量化交易领域,网络爬虫的最终目的是自动从互联网(包括新闻媒体和财经网站上的公开数据)中获取交易所需的信息。目前用于爬虫开发的主要语言为 PHP、Java、Python 和 C+等,其中Python 由于简便易用,且有强大的模块化功能和成熟的爬虫框架支撑,已成为网络爬虫应用的首选。(二)数据加工阶段1、多模态数据处理多模态(Multimodal)是具有不同的数据结构特点,来自不同的采样数据,描述同一对象的多媒体数据,包括文本、图像、视频、音频等。多模态数据处理技术指的是将多种类型的数据进行结合处理,以获得更多的信息和洞察力的技术。常见的多模态数据处理技术支持多种不同的数据模型,包括结构化的数据和非结构化数据,覆盖普通文本、KeyValue 介质存储、全行搜索、排索引、图存储、图数据库、存储文档,以及时空数据等。其中,自然语言处理技术是量化交易中应用最广泛和最频繁的数据处理技术。自然语言处理技术自然语言处理(NaturalLanguageProcessing,简称 NLP),是多模态数据处理的重要组成部分,3来源:Wikipedia。第二章 科技在量化交易中的应用-11-4Snowball 算法是专为英语而设计的。主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理可以从语义资料中提取行为金融学和市场情绪信息,主要用于文本分类、情感分析和关系抽取。A、文本分类文本分类一般使用基于模板的、有监督的机器学习或者深度学习算法实现,如手写规则、朴素贝叶斯、支持向量机、决策树、随机森林和神经网络等算法。结合文本分类可以实现以下几个方面的应用:市场情绪预测、选股决策、风险控制和高频交易。其中,文本分类可以对资讯、新闻、公告等内容进行分类,了解市场情绪变化和主要关注点,为投资者制定交易策略提供参考;也可以通过对公司公告、行业研究报告等内容进行分类,筛选出优质企业的相关信息,并对其进行评估,辅助投资者进行股票选取和持仓决策。B、情感分析情感分析一般使用有监督的机器学习或者深度学习算法实现,如朴素贝叶斯、长短期记忆(LongShort-TermMemory,简称 LSTM)神经网络和预训练的基于词表/规则的情感分析工具(ValenceAwareDictionaryandsEntimentReasoner,简称 VADER)等。使用情感分析可以实现的应用包括资讯文本情感分析、公司信息分析、特定事件分析和情感指数构建等。通过对目标公司的新闻、社交媒体等文本进行情感分析,可了解市场情绪和投资者情绪,分析其股票和期货价格等的潜在走势;同时,也可以对公司公告、财务报表、行业研究报告等进行处理,提取出关键信息,为交易策略提供数据支持。C、关系抽取关系抽取功能一般使用基于模板、有监督、半监督或无监督的机器学习或深度学习算法实现,如手写规则、逻辑回归、支持向量机、神经网络和 Snowball 系统4等,通过识别文本中实体之间的关系来获取更深层次的信息。关系抽取相关的应用包括事件分析、风险控制、情报获取和基础知识建设。通过关系抽取,可以对新闻、社交媒体等文本进行处理,提取出不同实体之间的关系,分析其对市场的影响;同时也可以利用关系抽取技术对企业和行业等多方面的信息进行分析,发现潜在风险点和危机事件,并及时调整投资组合和风险控制策略。2、数据清洗数据清洗是数据加工阶段的重要步骤,目的是提高数据的质量,从而提高分析和建模的准确性和效率。由于采集到的各类数据通常不完整,包含噪声、前后矛盾、冗余、有缺失值等,无法直接用于量化交易中,使用之前需要进行处理。常用的数据清洗算法包括:第二章 科技在量化交易中的应用-12-缺失值填充算法:用统计方法或插值法填充缺失值。异常值处理算法:识别和处理异常值。重复值处理算法:识别和删除重复值。数据转换算法:将数据转换为适合分析的格式,如对数变换、归一化等。数据合并算法:将多个数据集合并为一个数据集。3、因子计算因子计算是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小的、潜在的或隐藏的结构来解释已观测到的变量间关系。因子通常具有以下特点:一是因子的数量远少于原始变量个数,因此因子分析能够减少分析中的工作量;二是因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重组,能反映原始变量的大部分信息;三是因子之间不存在线性相关关系。量化交易因子一般分成三类。第一类是量价因子,主要来源于成交量的数据,包括每分每秒的股票价格、资金流,以及各类 K 线等技术指标,包括动量指标、周期指标、成交量指标、价格指标等。第二类是基本面因子,包括财务报表、营收、券商报告、分析师预期等,一般来源于万得、朝阳永续等数据库,其更新频率较长,一般按月或季更新。第三类是另类因子,包括社交舆情、电商数据、门店数据等因子,往往需要在有较强的金融逻辑支持时使用,但数据获取成本较高。(三)数据存储阶段获取数据之后,需要把数据整合并储存起来,方便后续分析和处理,主流的数据存储方式包括数据库、文件和数据仓库。1、数据库存储数据库提供高效的数据管理和查询功能,使得数据整合的过程更加高效和方便。用户可以将不同来源的金融数据存储在同一个数据库中,并运用数据库的强大功能来整合和处理数据。(1)关系型数据库技术关系数据库管理系统(RelationalDatabaseManagementSystem,简称 RDBMS)利用了关系模型来存储数据。这些数据库特别适合于财务数据,因为可以将不同的“对象”(例如交易所、数据源和价格等)设计为单独的表,并在不同的表之间定义关系。RDBMS 利用结构化查询语言(StructuredQueryLanguage,简称 SQL)对财务数据执行复杂的数据查询操作。常用的 RDBMS 包括 Oracle、MySQL、SQLServer 和 PostgreSQL 等。RDBMS 的主要优点是安装简单,独立于平台,易于查询,方便与主要的回测软件集成,在大规模数据存储的情况下仍能保持高性能。其缺点是定制化设计比较复杂,在缺乏有关 RDBMS 数据存储方式的基础知识的情况下,实现上述性能存在困难。图2.1列出了当前业界最受欢迎的前10种关系型数据库。第二章 科技在量化交易中的应用-13-图 2.1:最受欢迎的前 10 种关系型数据库资料来源:专业数据库排名网站 DB-Engines(2)时序数据库技术时序数据库是一种专门用于处理时序数据的数据库。时序数据是指时间上有规律的数据,包括行情数据、传感器数据、网络日志和运动数据等,这些数据的时间戳是最重要的因素之一。无论是程序化交易还是量化投资,都是基于历史的证券交易数据以及各种宏观数据做出实时的交易决策,因此量化金融已成为时序数据库最重要的应用场景之一。常见的时序数据库包括 InfluxDB(Go 语言编写的分布式时间序列数据库)、Kdb(收费的高性能金融序列数据库)和 DolphinDB(我国国产的高性能分布式时序数据库,由浙江智臾科技有限公司自主研发)等。时序数据库通常具有以下特点:(a)时间戳索引:时序数据库通常会自动将时间戳作为主键建立索引;(b)数据压缩:时序数据往往按时间序列存在较强的规则,便于压缩数据和加速查询;(c)实时采集和处理数据:时序数据库可以实时地采集和处理流式数据,包括数据解析、清洗、过滤、聚合等操作,还可以进行数据分发和复制等。图 2.2 列出了目前业界最受欢迎的前 10 种时序数据库。第二章 科技在量化交易中的应用-14-图 2.2:最受欢迎的前 10 种时序数据库资料来源:专业数据库排名网站 DB-Engines2、文件存储在金融应用程序中,文件存储最适合基本数据或元数据。可以将不同来源的金融数据存储在不同的文件中,例如 Excel 文件、CSV 文件等,并使用文件整合工具将它们合并成一个更大的文件。文件整合工具通常提供复杂的数据处理和分析功能,例如数据清洗、数据转换和数据可视化。3、数据仓库整合使用数据仓库来整合不同来源的金融数据。数据仓库可以提供高度可扩展性和高性能的数据管理和查询功能,并支持复杂的数据处理和分析操作。数据仓库的数据按照不同的主题组织并按照统一化的存储设计集成在一起,且保持稳定。数据一旦进入数据仓库,即不可修改,每次相同条件的数据查询结果是一致的。此外,由于数据仓库保存了数据的历史状态,可开展跨时间段的数据分析。(四)策略研究阶段本阶段利用机器学习等人工智能算法,对各种数据进行分析处理,研究和提取有用的交易规律。1、机器学习算法根据学习方式的不同,机器学习可以分为监督学习、无监督学习和强化学习三大类5。监督学习是对有标签(已知类别)数据进行学习,常用的模型有支持向量机、随机森林、深度神经网络等,在量化5来源:半监督学习介于监督学习和无监督学习之间,这里不展开论述。第二章 科技在量化交易中的- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 中国 量化 科技 白皮书
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文