第五次全國經濟普查是一項重大的國情國力調查,也是一項龐大的社會系統(tǒng)工程,其中單位清查工作是經濟普查工作的一項重要基礎性工作,是準確界定普查對象類型、保障普查工作順利實施的關鍵。
清查底冊是進行單位清查的重要支撐環(huán)節(jié),直接影響普查登記成效和數(shù)據(jù)質量?!度珖洕詹闂l例》《國務院關于開展第五次全國經濟普查的通知》中明確提到在清查和正式普查開始前,需根據(jù)地方民政、稅務、市場監(jiān)管等具備單位設立審批、登記職能的部門提供的審批或者登記的單位資料,形成經濟普查單位名錄。
清查底冊特征
1.重要程度高:清查底冊是單位清查的重要線索,清查之后形成的單位名錄是進行正式普查的直接依據(jù),一份準確詳細的單位名錄是普查工作取得成功的關鍵。
2.單位類型多樣:單位一般分為企業(yè)法人單位及產業(yè)單位、非企業(yè)法人單位(民政、編辦、教育等部門審批的非企業(yè)法人單位)和個體工商戶三種。
3.數(shù)據(jù)多源:清查底冊的來源局包括地方編制、民政、稅務、市場監(jiān)管以及其他具有單位設立審批、登記職能的部門,數(shù)出多源,信息重復率較高。
4.數(shù)據(jù)量大:各級政府部門提供的單位資料中普查對象數(shù)量、字段眾多,且各部門提供的資料具有一定重復率,整體清洗工作量較大。
5.清洗程序復雜:由于單位類型多樣、數(shù)出多源、數(shù)據(jù)量大等特征,清查工作程序需謹慎嚴密,保證數(shù)據(jù)信息不重不漏、盡可能多地保留有用信息,如地址、電話等。
工作方案
數(shù)喆數(shù)據(jù)作為國內領先為數(shù)據(jù)要素市場提供全產業(yè)鏈技術服務的支撐機構,積極響應和創(chuàng)新底冊清洗工作的方式方法,采用傳統(tǒng)手段與AI技術相結合的方式,為“五經普”底冊清洗工作提供新思路。
一是數(shù)據(jù)整合。將基本單位名錄庫數(shù)據(jù)與民政、稅務、市場和編辦等行政單位提供的數(shù)據(jù)資料合并,確保單位清查底冊的“全面性”。
二是刪減剔重。對合并后的底冊進行無效數(shù)據(jù)刪減、重復數(shù)據(jù)剔除,確保單位清查底冊的“準確性”。
三是數(shù)據(jù)補充。利用我司內外部數(shù)據(jù)資源,對底冊缺失數(shù)據(jù)進行補充,確保單位清查底冊信息的“完整性”。
四是有序分割。將清查底冊按區(qū)縣進行分割,確保單位清查底冊的“高效性”。
五是人機合審。利用單位清查比對程序以及人工審核,進一步確保單位清查底冊的“精準性”。
技術路線
制定清洗策略。充分研析數(shù)據(jù)邏輯關聯(lián)(包括主外鍵關聯(lián)關系、層級關系和條件關系),針對性的制定邏輯嚴密的清洗算法規(guī)則。
模型訓練。利用Python、Java等工具引擎,搭建清洗環(huán)境,靈活嵌入邏輯規(guī)則和優(yōu)化算法,自動化地進行多庫數(shù)據(jù)匹配、比對與集成,利用數(shù)據(jù)比對算法、NLP、AI等技術進一步規(guī)范、修正以及效果驗證,并進一步判斷規(guī)則適用性。
數(shù)據(jù)驗證與測試。對集成清洗后的數(shù)據(jù)進行系統(tǒng)驗證和測試,判斷清洗后的數(shù)據(jù)是否符合預期結果和業(yè)務邏輯,確保底冊數(shù)據(jù)的全面性、準確性和可用性。
圖:技術路線
數(shù)喆優(yōu)勢:
成熟的清洗規(guī)則。數(shù)喆數(shù)據(jù)基于“四經普”和“五經普”試點工作經驗,已形成適應各地底冊清洗可復用的清洗規(guī)則,可供后續(xù)工作使用,提高工作效率。
自動化。利用靈活匹配代碼,自動化實現(xiàn)數(shù)據(jù)快速集成、識別、規(guī)范與修正。
高效性。數(shù)據(jù)比對模型、NLP文本處理等技術可以在短時間內處理大規(guī)模的數(shù)據(jù)集,利用AI技術優(yōu)化模型算法,提高信息保有率。
準確性。使用高級算法和模式識別能力,可以更準確地檢測和修復數(shù)據(jù)中的問題。
方案可擴展??焖俑咝峁┑胤蕉ㄖ苹變郧逑唇鉀Q方案。
來源:中華網
網站簡介 / 廣告服務 / 聯(lián)系我們
主辦:華夏經緯信息科技有限公司 版權所有 華夏經緯網
Copyright 2001-2024 By m.essencecafe.cn