党的二十大作出加快建设网络强国、数字中国的战略部署。党中央、国务院印发的《全国国土空间规划纲要(2021—2035年)》《数字中国建设整体布局规划》明确要求建设全国国土空间规划实施监测网络。2023年和2024年全国自然资源工作会议持续作出部署,强调要“深入开展国土空间规划实施监测网络建设试点,完善数字化治理政策机制和技术标准体系”。2023年9月,自然资源部办公厅印发《全国国土空间规划实施监测网络建设工作方案(2023—2027年)》,明确了建设目标、工作原则、主要任务和保障措施等,全力打造“可感知、能学习、善治理、自适应”的智慧国土空间规划,大力推进国土空间治理“数智化”转型,推动构建美丽中国数字化治理体系和建设绿色智慧的数字生态文明。2023年12月,自然资源部办公厅印发《关于部署开展国土空间规划实施监测网络建设试点的通知》,明确在长三角生态绿色一体化发展示范区和16个省份、29个城市、1个区县开展试点。为探索构建“共建共治共享”新型治理机制,凝聚全社会力量,高质量推动国土空间规划实施监测网络建设,特将原国土空间规划“一张图”建设、城市体检进行时等专栏融合为CSPON(China Spatial Planning Observation Network)建设专栏,面向全社会公开征集“智慧国土空间规划”和“国土空间规划监测评估预警”两大版块的理论方法、国际经验、前沿趋势、技术路线、算法模型、实践经验等。欢迎相关领域重点实验室、工程技术创新中心、科技创新人才和团队,高等院校、科研机构、行业队伍、企业,各级自然资源部门及单位等积极投稿,单位或个人不限,我们将以成果质量为唯一标准,择优刊载(投稿邮箱:ghjdcyzt@163.com)本期刊发《北京:运用大数据推算常住人口模型算法探索》为解决按行政边界统计的常住人口数据与规划边界不匹配的问题,北京市城市规划设计研究院与北京市统计局合作,结合国土空间规划实施监测网络(CSPON)试点,探索了利用大数据建模推算常住人口并实现人口数据空间化的技术方法,成果开始常态化应用于北京城市体检评估等国土空间规划业务工作。本文对相关模型算法作介绍,供CSPON试点单位讨论、参考。
我国每10年进行一次人口普查,中间年度的常住人口数据利用每年“人口变动情况抽样调查”结果推算得出。与此同时,当前已有丰富的大数据人口空间分布研究,然而尚未突破大数据与传统统计数据之间的关联路径。事实上年度统计推算与智能设备定位大数据推算的底层逻辑是一致的,即“抽样—扩样”。如果能够建立大数据与统计常住人口数据的关系模型,使其扩样结果与统计数据的耦合性足够好,则可以对抽样调查结果起到补充校核作用,甚至远期可以实现替代传统人口调查方法,大大节约人工调查成本。在此基础上,可以利用大数据的高时空分辨率优势,生成网格化的常住人口数据,从而实现对城区、街区等规划边界范围的人口统计。数据获取清洗:以A通信商手机信令数据为例,本研究将当月在北京驻留15天以上、每天驻留10小时以上的用户提取并定义为“常住用户”。常住用户分布按geohash7网格统计,网格尺寸约为150m*150m。为与统计抽样调查时点保持一致,将手机信令数据的采样时点确定为每年11月。2020-2023年该时点北京市域A通信商常住用户数在650-700万左右浮动。
模型单元确定:2020年第七次全国人口普查北京市街乡级数据共包括337个街乡。部分街乡的人口数不能直接落到对应的实体空间上(存在经济技术开发区等虚拟统计边界),最终确定318个数据可用的街乡单元。将2020年度A通信商常住用户网格数据也按照上述318个街乡边界汇总。构建回归模型:完整模型参见国家发明专利“常住人口确定方法、装置、设备和存储介质(专利号CN202310182296.2)”,本文对其简化算法作介绍。简化版模型数据需求更少、计算过程简单,如可满足日常业务使用精度要求,推荐使用简化版模型,算法如下。用318个街乡单元的手机信令常住用户数x与七普常住人口数y建立简单线性回归模型,结果如下,R2=0.9278。图1:线性回归结果
为提升模型精度,比较了分组回归、带交互项回归、地理加权回归等多种方案。最终选用的分组回归模型基于北京城市空间结构的四个圈层,并引入职住比作为影响因子,进一步分为6组。这一模型呈现的拟合效果最佳,反映大数据的代表性受人口密度、职住主导功能等因素的影响较大。图2:分组示意图
表1:分组回归结果常住人口推算:利用大数据和分组回归公式来推算各街乡常住人口数。例如,西城区某街道属于第1组,2020年11月A通信商常住用户数为24681人,代入第1组对应公式,推算常住人口数为82417人,与七普实际常住人口数82022人较为接近。2021-2023年11月该街道A通信商常住用户数分别为23891、24715、23457人,代入公式得出常住人口数分别为79786、82531、78341人。
网格数据分配:每个街乡内部按照A通信商常住用户数分布,将推算常住人口数分配到网格。也可根据能够准确反映街乡内部人口分布的其他因素来进行人口分配。最终形成包含21万个网格点的北京市常住人口空间数据集,用各种规划边界来框选,即可生成该范围的常住人口数。
图3:基于常住人口空间数据集计算规划边界常住人口
市级常住人口推算:利用该模型,每年12月即可生成当年度北京市常住人口规模的推算值。与近4年统计调查结果进行比对,模型准确率在99.5%以上。未来研究团队计划一方面继续探索大数据模型替代人工抽样调查方法的可行性,另一方面利用大数据生成季度、月度常住人口数据,并与统计部门加强合作,发布更丰富多元的人口统计数据。
表2:历年北京市常住人口模型预测与实际结果比较
规划边界人口监测:历年北京城市体检评估工作中,除了分析市、区级人口变化以外,还用本模型来实现分环路、新城、绿化隔离地区等非行政边界范围的人口变化监测。多源数据校核结果显示,模型准确性较高,例如北京二道绿隔地区常住人口的模型推算数与社区村统计推算数仅差0.5万人。
公服设施人口覆盖率计算:现行《国土空间规划城市体检评估规程》中,公共服务设施覆盖率指标算法大多采用的是对居住用地或村庄个数的覆盖率。基于常住人口空间数据集,可以计算相关设施对常住人口的覆盖率,进一步拓展以人为本的分析视角。例如,针对“等级医院交通30分钟行政村覆盖率”指标,如按照行政村的几何中心点计算覆盖村庄个数比例,初步测算北京市的指标结果近80%,未覆盖到的主要为山区村。如利用常住人口空间数据集,计算对常住人口的覆盖率,结果则为97.3%。多种算法结果比较,有助于更科学的认识指标背后的真实问题。未来可探讨在《国土空间规划城市体检评估规程》中增设人口覆盖率相关指标算法的可行性。
图4:“等级医院交通30分钟行政村覆盖率”按村庄个数(左)和常住人口(右)的测算结果比较(原始数据为网络公开数据,时点为2021年)
全国各城市如需参考此方法,用大数据来推算常住人口,核心是基于本城市的人口结构性分布特征和空间形态规律,确定合理的空间单元划分。北京实践显示,影响手机用户数与常住人口数关系的主要因素包括:一是人口密度,人口密度较低地区的移动通信基站分布密度也较低,从而影响对用户信号的捕捉;二是年龄结构,因老人、儿童无手机或家人代办号较多,造成人口年龄结构不同的地区扩样系数差异较大;三是职住功能,在就业主导和居住主导地区的用户时空分布规律有显著差异;四是空间尺度,确定合适的空间单元和分组数量是提升模型准确度的重要前提。各地可参考这些因素,为本城市量身定制一套测算模型,通过反复调试确定最佳的常住人口拟合方案,以供实践工作使用。(作者:伍毅敏 北京市城市规划设计研究院规划研究室主任工程师;杨明 北京市城市规划设计研究院科技委副总师、规划研究室主任)
新媒体编辑:陈平