文章摘要:为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。
文章关键词:
项目基金:河南省科技攻关计划项目(212102110213),
论文作者:张辉1,2 魏东1,2 乔璐1,2 李丹丹1 张玉尧1 冯晓1,2
作者单位:1. 河南省农业科学院农业经济与信息研究所 2. 河南省智慧农业工程技术研究中心
论文DOI: 10.15933/j.cnki.1004-3268.2021.10.022
论文分类号: G254;TP311.13
相关文献:ADS-B历史飞行轨迹数据清洗方法.《交通运输工程学报》地方综合年鉴构建大数据应用的设想.《中国年鉴研究》开源工具支持的专利数据清洗流程研究.《医学信息学杂志》年鉴大数据出版之探析.《中国年鉴研究》基于Petri网的工业设计过程管理工作流建模研究.《图学学报》工作流驱动的ERP实施管理系统研究与开发.《现代制造工程》工作流建模技术综述及其研究趋势.《计算机科学》国外主要可视化数据挖掘开源软件的比较分析研究.《图书馆理论与实践》“统计年鉴”系统:对比与差异.《首都经济贸易大学学报》基于工作流程的数据清洗系统.《计算机工程与设计》
相似文献:云环境下基于阶段划分的数据密集型工作流调度.....作者:陈俊宇,刘茜萍,刊载期刊:《南京邮电大学学报(自然科学版)》面向交互式建模的科学工作流活动推荐方法.....作者:文一凭,侯俊杰,谭铮,刘建勋,许小龙,刊载期刊:《计算机集成制造系统》云科学工作流截止期限约束代价优化调度算法.....作者:陈彦橦,裴树军,苗辉,刊载期刊:《计算机科学与探索》移动云计算环境下多工作流任务调度的联合优化方法.....作者:宋祖尧,戴月明,刊载期刊:《计算机应用研究》端边云协同环境下能耗感知的工作流实时调度策略.....作者:秦志威,栗娟,刘晓,朱梦圆,刊载期刊:《计算机集成制造系统》基于异构云计算的成本约束下工作流能量高效调度算法.....作者:张龙信,周立前,文鸿,肖满生,邓晓军,刊载期刊:《计算机科学》云计算环境下的大数据特征挖掘技术研究.....作者:张文,苏玉,刊载期刊:《现代电子技术》基于属性分类的装备保障数据特征挖掘方法.....作者:杨华,刊载期刊:《兵器材料科学与工程》基于属性分类的装备保障数据特征挖掘法.....作者:杨华,刊载期刊:《兵器材料科学与工程》考虑负载平衡的科学工作流容错聚类算法研究.....作者:高玮军,张春霞,杨杰,师阳,刊载期刊:《计算机工程与应用》
相关文章:信息检索课的教学设计与实践—从讲座到课程——科创专题信息检索课程设计.....作者:孙爱莉 结合钉钉办公系统医院图书馆网络培训模式初步实践与探讨.....作者:曹湘博;丛爱玲基于云端的医学信息服务平台-知识管理服务科技创新.....作者:王军红;吴丹;孟娜新冠肺炎疫情期间图书馆线上讲座服务策略.....作者:李晓婧推广人文阅读 打造书香医苑 让“悦读”成为新生活新风尚.....作者:搭平台、促健康、提素养,引领信息服务新时尚.....作者:王璞琳;崔婷;张延一;张美玉“百年毓医书香传承”医学人文阅读推广服务.....作者:王丽丽;刘培波;刘贺优质服务有温度 氤氲书香有情怀.....作者:柏梅;孙奇;张秀娟;董松
文章来源:中国统计 网址: http://zgtj.400nongye.com/lunwen/itemid-116455.shtml
上一篇: 有机化工论文_造纸过程成纸质量的单变量统计过程监测研究
下一篇: 经济体制改革论文_投资总体稳定 结构继续优化