何寶宏:讓數據資源向數據資產發展,從能存、能算到釋放價值、對外流通
9月1日,由人民網·人民數據主辦的“數據要素發展座談會暨數據要素公共服務平臺上線儀式”活動在人民日報社成功舉辦。
(資料圖)
在主題演講環節,中國信息通信研究院云計算與大數據研究所所長何寶宏發表《數據要素技術概覽》主題演講。
圖為中國信息通信研究院云計算與大數據研究所所長何寶宏發表演講
何寶宏表示,數據市場發展幾十年來,技術一直在變化。在過去20年,大數據時代讓所有的數據能夠管起來、用起來,把原始數據提煉成數據資源,但仍然面臨“用得不夠好、價值釋放不夠”的難題。從大數據到數據要素時代的目標,是讓數據資源向數據資產發展,從能存、能算到釋放價值、對外流通,真正進入數據3.0時代。
何寶宏指出,圍繞數據資產化過程主要有三大類:第一是數據管理,當前的數據管理的工具和智能化不夠,人為介入比較高,應該更技術化;第二是數據安全,原來數據安全主要靠防火墻的邊界,只有在邊界內才是安全可控的,數據要素要求在流通中解決安全問題,就要將邊界安全變為數據的內生安全;第三類是數據流通,致力于從“流通即失控”變為“可用不可見”。
何寶宏認為,數據管理技術應達到好用、易用的技術需求。易用,即靈活應對各類需求;好用,即數據質量全面提升。數據管理的基礎性技術現已成熟,而創新融合還在繼續。面向數據質量自動化管理的AI技術方案已基本成熟,有待進一步推廣應用;針對“讓數據更好地找到人,而不是讓人找數據”的問題,融合各類技術進行數據管理以實現“數據主動找人”的數據編織技術正在快速興起,但目前處于概念期;數據倉庫和數據湖技術已得到廣泛應用,融合數據倉庫、數據湖各自優勢的湖倉一體技術有待進一步提高性能。
何寶宏指出,數據安全保護技術已相對成熟,全生命周期的模式創新不斷。數據安全技術方面,應從數據存儲、訪問、使用和流通安全及數據的分級分類幾個方面實現數據的有效保護和有力控制。建立“規則+AI識別”是當前常用的數據安全保護技術路線,分類分級、防泄露、零信任驗證等均在一定程度上依賴相應規則的設置和人工智能的精準度;基于“持續驗證,永不信任”理念的零信任技術架構進一步適應不斷突破邊界的云、網環境,進一步推動數據安全對全生命周期的覆蓋。
何寶宏表示,數據流通的技術需求:確權、轉移和定價。數據流通中的問題主要是確權、轉移和定價在法律法規的基礎上需要相應技術手段的支持。在確權方面要解決聲明技術和共識:聲明權利可通過在數據內嵌入標識、憑證以聲明權利的數字水印等技術來實現;權利獲得共識且不可篡改則可通過數據各類權利共識存證、不可篡改、可追溯的區塊鏈/web3等技術來實現。
何寶宏認為,數據轉移則是核心問題,涉及到很多的相關技術。API接口和數據脫敏是目前最常用的兩個技術,兩者經常會結合使用。何寶宏指出,這兩者當前也存在一定的局限性。首先,API接口只提供數據集中的部分記錄、字段,數據脫敏改變了原始數據的形態,原始數據的全量信息均受到損失,價值較原始數據大幅降低;其次,通過API或脫敏給出的數據已不再受數據提供方掌控,容易被濫用,或通過其他關聯反推原始數據。何寶宏表示,基于加密隱藏的多方安全計算技術是數據轉移的另一個重要技術,其需要去中心化及支持通用計算,目前計算效率還較低、開發難度較大,應用性距產業化推廣還需要一個過程;另一方面,傳遞建模中間信息隱藏原始數據的聯邦學習日趨發展成熟,廣泛適用于風控、營銷、政務、醫療、互聯網金融等應用場景,但這項技術的局限性在于目前缺乏嚴謹的安全證明機制,參與方可能通過交互的中間數據反推出原始數據,還易受到數據投毒和模型攻擊等攻擊方式;另外,聯合建模往往需要多輪迭代,在多方參與情況下,由于計算資源不同會造成數據聚合不同步,從而影響整體性能;再者,該技術目前尚缺乏相關法律法規的支持。何寶宏還提到,智能合約則能實現數據流通使用限量、限目的、不可篡改,實現完全數字原生的合約,數字原生的定價機制等,但目前總體處于初步發展階段,理論和技術手段還不太成熟。隱私計算的“可用不可見”——企業在控制所持數據的基礎上,讓數據“來去自由”,成為自主可控的數據資產,已經可以產業化應用了。
何寶宏指出,定價問題的技術需求則是多方合作時的數據價值貢獻度量。對于多方聯合參與計算的場景,每方所提供數據的價值衡量需要技術支持,即在聯合計算的過程中通過算法公平合理地衡量數據價值貢獻度,作為收益分配的依據。數據定價在多方參與聯合建模的場景中,綜合運用博弈論、人工智能模型、信息論等技術,探討數據價值與決策模型精度的關系,可以為度量各數據方的貢獻度、進一步分配收益提供依據。何寶宏認為,目前其應用的場景相對比較局限、產業化不足,新的應用場景還不多。
何寶宏表示,總體而言,圍繞著數據要素需要更多的新技術,也需要相關法律法規的密切配合,目前依然面臨著嚴峻考驗。
來自29個中央部委相關部門負責人,湖北、河南、黑龍江、安徽、內蒙古等省區的地方政府部門負責人,以及各地大數據交易所、大數據企業的代表500多人出席會議。
關鍵詞: