基于遗传算法的人工人口生成与应用研究.pdf
《基于遗传算法的人工人口生成与应用研究.pdf》由会员分享,可在线阅读,更多相关《基于遗传算法的人工人口生成与应用研究.pdf(10页珍藏版)》请在咨信网上搜索。
1、系统仿真学报系统仿真学报Journal of System Simulation第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023基于遗传算法的人工人口生成与应用研究基于遗传算法的人工人口生成与应用研究张红历,邓井双*(西南财经大学 管理科学与工程学院,四川 成都 611130)摘要摘要:高精度微观人口数据是疾病传播、交通出行、应急事件等仿真系统的关键基础数据之一,现实中多采用计算机生成人工人口进行模拟。出于计算效率和生成步骤规范化考虑,目前人工人口合成多采用迭代比例拟合法,但是它对基础数据要求严格,存在零单元和数据代表性偏差问题且无法同时保证个体和家庭层面的拟合
2、。为克服这一不足,提出使用模拟退火算法生成初始解和精英选择策略的改进遗传算法合成人工人口,探究遗传算法的合成步骤与参数设置,并以生成的成都市人工人口为基础,进行生物气溶胶扩散仿真实验。实验表明,采用遗传算法合成人工人口的精度优于传统方法,对基础数据要求低,这一数据集可为仿真研究提供精细尺度的人口多属性信息。关键词关键词:人工人口;遗传算法;模拟退火算法;精英选择;气溶胶扩散中图分类号:TP391.9 文献标志码:A 文章编号:1004-731X(2023)09-1965-10DOI:10.16182/j.issn1004731x.joss.22-0525引用格式引用格式:张红历,邓井双.基于遗
3、传算法的人工人口生成与应用研究J.系统仿真学报,2023,35(9):1965-1974.Reference format:Zhang Hongli,Deng Jingshuang.Research on Artificial Population Generation and Application Based on Genetic AlgorithmJ.Journal of System Simulation,2023,35(9):1965-1974.Research on Artificial Population Generation and Application Based on
4、Genetic AlgorithmZhang Hongli,Deng Jingshuang*(School of Management Science and Engineering,Southwestern University of Finance and Economics,Chengdu 611130,China)Abstract:High-precision micro-population data are one of the key basic data for simulation systems such as disease spread,traffic travel,a
5、nd emergency events.In reality,computer-generated artificial populations are often used for simulation.Due to computational efficiency and standardization of generation steps,the iterative proportional fitting method is currently used for artificial population synthesis.However,it has strict require
6、ments on basic data and faces zero-unit and data representational deviation problems,and it fails to guarantee the fitting at the individual and family levels at the same time.In order to overcome this deficiency,an improved genetic algorithm using a simulated annealing algorithm to generate an init
7、ial solution and elitist selection strategy is proposed to synthesize artificial populations and explore the synthetic steps and parameter setting of the genetic algorithm.Based on the generated artificial population in Chengdu,a simulation experiment of biological aerosol diffusion is carried out.E
8、xperiments show that the accuracy of artificial populations generated by the genetic algorithm is better than that generated by traditional methods and has low requirements for basic data.This data set can provide fine-scale multi-attribute population information for simulation research.Keywords:art
9、ificial population;genetic algorithm;simulated annealing algorithm;elitist selection;aerosol diffusion收稿日期:2022-05-19 修回日期:2022-07-18基金项目:国家社会科学基金(17BTJ006)第一作者:张红历(1974-),女,教授,博士,研究方向为时空数据分析。E-mail:通讯作者:邓井双(1997-),女,硕士生,研究方向为人工人口合成方法研究。E-mail:第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of
10、 System Simulationhttp:/www.china-0引言引言人口是社会发展中的基本要素,对社会经济发展影响重大。传统研究多以行政区划人口统计数据为基础,这一数据存在空间分辨率低、时效性差,以及行政单元与自然单元不一致等不足。随着计算机技术的快速发展,仿真技术广泛应用于疾病传播、交通出行、应急事件以及城市规划等领域1。研究的准确性与人口数据密切相关,数据越微观、研究精度越高。但是,由于高成本和隐私保护,高精度微观人口数据很难获取,人工人口生成是解决这一问题的有效方法。人工人口生成,也称为人工人口合成,是指利用计算机技术,以现实人口的行政区划汇总数据和(或)随机抽样的微观人口数据
11、为基础,生成符合统计分布的微观个体人口记录,即虚拟人口数据集。该数据集并不包含真实的个体信息,但在一定范围内,其统计属性与现实人口相近或相符,进而可以代替现实人口2。人工人口合成方法有合成重构法(synthetic reconstruction,SR)、组 合 优 化 法(combinatorial optimization,CO)和统计学习法(statistical learning,SL)三类方法。其中,SR和CO通过复制个体进行生成,SL根据联合概率估计总体,SR为确定性方法,CO和SL为随机性方法3。SR是最早提出且目前广泛应用的一种方法,它通过拟合联合分布表和复制个体属性生成人工人口
12、。具体而言,SR中合成方法多采用迭代比例拟 合 法(iterative proportional fitting procedure,IPFP),IPFP由Deming和Stephan提出,用于估计已知边际约束下每个单元值占总数的比例4。Fienberg从理论上证明了这一方法的收敛性5。IPFP假设样本和汇总数据具有相同的内部结构,以人口整体统计性质和(或)样本的多维属性边际条件为基础,在合成过程中始终保证不同属性之间的相关结构与真实情况相近,并按照既定规则从样本数据(或人为构造的“样本池”)中不断选取合适个体,重复迭代合成符合整体统计信息的人工人口集合,其中包含了总体人口规模以及所有可能的属
13、性组合等信息1。针对复杂系统的人工人口合成,IPFP最早出现在Beckman等开展的交通分析模拟系统研究中,相关人员采用这一方法合成了研究所用的人工人口6。IPFP的优点是计算效率较高、生成步骤规范,在实践中广泛应用。学者们借鉴IPFP合成了多个国家或地区的人工人口,如Arentze等合成了欧洲的人工人口7,Zhu等则对IPFP方法改进得到两步IPFP算法,并结合土地利用、建筑物等多源信息,对新加坡129万个家庭和390万人口实现了合成8。Wheaton等合成了美国各州、市的综合人口数据库,作为人工社会仿真系统的基础数据库9。虽然得到了众多应用,但IPFP在合成人工人口时,家庭属性和个体层次属
14、性的联合分布都是单独或顺序拟合的,并不能保证这两个层次之间的一致性,即这种方法只能保证家庭或个体一个层面的属性分布得到很好的模拟,无法兼顾多个统计水平的约束。针对这一不足,Ye等对IPFP算法进行了改进,提出迭代比例更新法(iterative proportional updating,IPU),通过在特定类型家庭之间的迭代和权重的重新分配,同时兼顾了个体和家庭数据的合成精度要求10。Mller提出分层迭代比例更新法(hierarchical IPF,HIPF),通过熵优化调整步骤,同时估计家庭和个人层面的属性11。这些方法需要对输入数据进行预处理以适应算法要求,并且对所需数据类型非常严格,样
15、本和汇总数据必须在个人和家庭层面都可用11。另外,IPFP也存在另外一个局限性,由于它是以样本数据为基础进行迭代,如果原有数据代表性不强,某些关键群体缺失,那么最终合成的人工人口中也会缺失这部分群体,即IPFP合成精度受基础数据质量影响较大12-13,CO由此产生。CO将研究区域划分为互不重叠的子区域,然后利用人口抽样调查微观样本和各子区域内人口 1966第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023张红历,等:基于遗传算法的人工人口生成与应用研究http:/www.china-属性汇总统计表作为输入,通过随机复制、调整子区域内的初始人口,进行人口属性适应度衡
16、量和评估后,选择人口特征适应度的最优值1。这类方法同时实现了个体和家庭人工人口的直接合成,它的关键优点是对数据要求限制低于SR法,同时生成个体和家庭层面数据,不足之处是计算复杂度 较 高,随 着 合 成 规 模 增 长 需 要 较 多 计 算时间14-15。原则上,所有基于适应度的优化算法都可用于从 CO 角度生成合成种群。Williamson以英国人口普查数据和匿名记录样本为基础,对爬山算法、遗传算法(genetic algorithm,GA)和模拟退火算法(simulated annealing,SA)进行人工人口合成实验,取得了较好效果16。Kim等对IPFP和SA的计算精度进行对比,发
17、现SA算法能够有效解决IPFP算法中的零单元和数据代表性偏差问题,在实用中更具可行性17。Voas则证实CO法对于不同级别的人口统计数据适用性都较好,为大规模人工人口合成提供了有效方法18。Ryan等则发现使用CO法得到的人工人口质量主要依赖于属性交叉表的质量,并发现 CO 法的稳定性高于 IPFP,CO 比IPFP能产生更准确的群体19。但是,CO合成过程中参数设置多且灵活,取决于建模者对适应度标准及生成方案的设计,需要开展更深入的探究13。第三种可用于人工人口合成的方法是SL,也称为基于模拟的方法,它只考虑样本并关注联合分布,通过估计每个组合的概率计算所有属性。以此为基础,衍生出的合成方法
18、有马尔可夫链、蒙特卡罗模拟、深度学习生成方法和贝叶斯网络等20。SL的优点是只需样本微观数据,对于高维数据拟合效果较好,缺点是不能在满足条件分布的同时,满足所有变量的边际分布3。国内相关研究并不多,龙瀛等以多源数据、典型调查数据及个体通用规则为基础,提出居民属性反演算法,在没有微观样本的情况下合成个体信息和空间位置,使用蒙特卡罗随机模拟合成所需的人工人口21。葛渊峥以人口统计数据为基础,提出以家庭户结构为核心的人工人口合成方法22。刘列等从我国特殊的家庭组织出发,提出了解决复杂多代户家庭的人工人口合成方法2。邱晓刚等以家庭结构为基础实现了北京人工人口的合成23。人工人口是交通流量、疫情传播,以
19、及社会政策模拟等多种仿真系统的关键基础数据,这一阶段积累的误差将在模型系统中传播,即其合成精度对于相关系统有效运行至关重要。人工人口合成本质上为组合优化问题,GA求解精度高、限制条件少,不易陷于局部最优解,是一种有前途和灵活的可用算法14,但目前在人工人口合成中的研究较少。综上,本文以特大型城市成都市为例,对GA构建大规模人工人口的步骤与参数设置进行实验,并与IPFP、SA的合成结果进行精度比较;同时,以构建完成的成都市人工人口数据为基础,进行生物气溶胶扩散模型的应用研究,以期从GA视角对人工人口有效合成与应用进行探究。1研究区概况与基础数据研究区概况与基础数据人工人口合成所需的基础数据为研究
20、区行政区划人口普查汇总数据、个人与家庭的人口普查抽样微观数据,以及相关区域地理数据。其中,行政区划人口普查汇总数据来自国家统计局相关资料,随机抽样人口微观数据来自国际微观共享整合数据库IPUMS(integrated public use microdata series)。它汇集了全球6.72亿条来自多个国家官方统计部门的随机抽样人口微观数据,中国相关数据为1982年、1990年和2000年。研究区域地理数据来自国家基础地理信息数据库。本文以成都市2000年中心城区10个区县188个街道为研究对象,进行人工人口构建。2000年,成都市中心城区有188个街道,包括1 877 266个家庭户,常
21、住人口5 556 186人,其中:男性人口2 794 229 人,女性人口 2 761 957 人;014 岁 1967第 35 卷第 9 期2023 年 9 月Vol.35 No.9Sep.2023系统仿真学报Journal of System Simulationhttp:/www.china-904 756 人,1564 岁 4 866 153 人,65 岁及以上476 732人。IPUMS本研究区域中,人口普查抽样微观数据包括3 373户家庭10 515人,本文用到的人口数据主要属性(均为整型)如表1所示。2人工人口合成步骤人工人口合成步骤step 1:分别准备微观家庭数据和地区汇总家
22、庭数据,如表2和表3所示。表2中,微观家庭数据示例表明当前有5户家庭,家庭1共有3人,其中2人为成人,1人为未成年人(记录1),其他记录类似。表3中,地区汇总家庭数据示例表明该地区有3户家庭,规模分别为1人、2人和4人,共计7人。其中,成年人4人,未成年人3人。这一数据中包含了人工人口合成中的两类约束家庭规模约束和年龄结构约束。step 2:从表2微观家庭数据中随机选择3个家庭作为初始值,如选择1、4和5号家庭,作为样本家庭。step 3:计算微观家庭数据与地区汇总家庭数据的误差,如表4所示。表4中,Estimated为合成数据,Observed为实际数据,Error|(E)-(O)|为二者差
23、值的绝对值,表4中呈现了家庭规模和年龄结构两类误差的绝对值,构成了人工人口合成的目标函数,其数值越小表示合成精度越高。第一次迭代后,家庭规模误差为2,年龄结构误差为3,总误差(total error,TE)为5。step 4:迭代优化。从微观家庭数据中随机选择一个家庭进行替换与误差计算,如果误差减少则进行替换,否则重新选择。如本例中选择家庭3替换家庭1,替换之后的误差结果如表5所示。表1人口数据主要属性Table 1Main attributes of population data类别个体属性家庭属性变量名AgeSexNPFemaleMale说明年龄,取值范围为095及以上;可根据年龄,进行
24、成人(adult)与未成年人(children)区分性别,1-男性、2-女性家庭总人口家庭中女性总人数家庭中男性总人数表2微观家庭数据示例Table 2Micro-household data(人)编号12345NP32441Adult21231Children11210表3地区汇总家庭数据示例Table 3Regional aggregated household data类型数量合计家庭户(户)1132130415及5+0人口(人)成年人47未成年人3表4第一次迭代样本家庭与地区汇总家庭误差Table 4Error between household data and regional a
25、ggregated household data in 1st sample iteration约束条件12345+成年人未成年人Estimated(E)1011062Observed(O)1101043Error|(E)-(O)|0110021表5第二次迭代样本家庭与地区汇总家庭误差Table 5Error between household data and regional aggregated household data in 2nd sample iteration约束条件12345+成年人未成年人Estimated(E)1002063Observed(O)1101043Error
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 遗传 算法 人工 人口 生成 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。