《關于加快公共數據資源開發利用的意見》(以下簡稱《意見》)出臺,對科技企業有何影響?一些科技企業表示,系統性、規范性地進行公共數據資源的開發利用,對科技企業將是一大利好,而且多元公共數據的開發與利用,有助于大模型的訓練和優化。
促進公共數據資源更好運用
在科技從業者看來,一方面,公共數據的開放為企業和創業者提供了豐富的資源,能夠促進數據驅動的創新,催生新產品和服務;另一方面,鼓勵不同機構和企業之間的數據共享與合作,有助于打破信息孤島,實現資源的有效配置和協作。
《意見》提出,支持人工智能政務服務大模型開發、訓練和應用,提高公共服務和社會治理智能化水平。業內人士認為,多元公共數據的開發與利用,有助于大模型的訓練和優化。
硅心科技大模型算法專家蔣思源在接受《金融時報》記者采訪時表示,科技企業可以基于公共數據開發各種應用和服務,如利用先進的大模型技術,對公共數據進行高效處理和分析,提取有價值的洞察信息,通過創新應用提升公共服務的質量和效率。
政務大模型是加快推進政務工作數智化轉型的有力工具。因涉及經濟社會運行的多個領域,政務大模型的優化與訓練,往往需要海量、可信且更高質量的數據資源支持。
據國家數據局數據,截至今年7月份,我國已經有243個省級和城市的地方政府上線了數據開放平臺,開放的有效數據集超過了37萬個,最近8年來增長了44倍。
然而,隨著數據技術的發展,公共數據的開發利用方式更加多元化,也會產生安全風險。數據資源開發和利用程度越深,數據安全和個人信息保護的重要性也隨之增強。
針對公共數據安全問題,政府層面已有相應部署。國家數據局局長劉烈宏在發布會上表示,國家數據局將圍繞公共數據資源“供得出、流得動、用得好、保安全”,強化政策保障,加大項目和經費支持力度,提高技術能力和安全水平,加快釋放公共數據的要素價值。
平衡開放創新與合規安全
從應用端來看,當前,一些科技企業會將其研發訓練的大模型進行開源,而另外一些通用或垂直大模型也會使用這些開源數據進行訓練,因此,開源的模型數據就是一類公共數據。對科技企業而言,這類公共數據的開發與利用是否存在難點?
“公共數據的采集和更新頻率不高,導致數據過時或不準確,影響后續分析和決策,無法滿足動態化業務需求。此外,公共數據絕大部分是結構化數據,采集與處理過程會損失很多關鍵信息。”蔣思源直言,以公共開源代碼數據為例,當前的公共開源代碼數據會存在大量有語法、編譯、邏輯錯誤低質量數據,這會大大限制訓練出來的代碼大模型。
另外,“在利用公共數據時,需確保個人隱私得到保護,防止數據泄露和濫用,尤其是涉及敏感信息或者代碼時,需要采用命名實體識別等敏感信息去除技術和管理措施,保障數據的安全性和用戶隱私。”蔣思源表示。
如何兼顧開放創新與合規安全?
首先,要建立健全的數據管理制度,對數據采集、存儲、共享和使用進行全生命周期管理,確保數據質量。對此,《意見》提出,強化數據安全和個人信息保護,加強對數據資源生產、加工使用、產品經營等開發利用全過程的監督和管理。
其次,建立易于使用的數據共享平臺,提供數據訪問和分析工具,降低使用門檻。
“《意見》進一步提出了要推動實現‘一數一源’‘主動共享與按需共享相結合、完善共享責任清單’等一系列工作要求,后續政務數據共享工作力度將會進一步加大,以更好的服務支撐數字政府建設。”國家數據局副局長陳榮輝表示。
在保證數據隱私與安全的前提下,通過優化算法與架構設計,有助于提高大模型在處理公共數據時的效率與準確性,促進大模型在各行業的廣泛應用與創新。
那么,科技企業該如何更安全、高效地應用公共數據?
蔣思源認為,可以從以下方面著手,一方面,選擇可靠的公共數據源,確保數據的準確性和完整性,以提高模型的訓練效果;利用眾多數據預處理技術盡可能提升數據質量。另一方面,科技企業在大模型的公共數據使用上還要更加注重安全性與風險管理。“以我們關注的代碼數據來說,可以利用傳統軟件工程的語法分析、靜態分析、運行時分析等技術逐一檢測代碼項目的質量,并治理出一批高質量的公共開源代碼。”蔣思源說。
陳榮輝強調,對于公共數據資源,開發開放是導向,安全依規是前提。對那些潛在價值高,具有一定敏感性的數據,無法直接向社會開放,需要依托更加專業的力量,付出一定的治理和開發成本,形成數據產品和服務供社會各方調用。
基于這一原則,蔣思源建議,大模型企業需要定期進行安全審計,評估大模型數據使用及存儲的安全性,及時發現和修復潛在的安全漏洞;實施嚴格的數據訪問權限管理,確保大模型只能看到或者訓練到合法合規的數據。
針對當前存在的一些開源數據使用程序不夠明確、運營情況不夠透明等問題,科技企業還應加強自我約束,在開發大模型時,注重模型的可解釋性,確保用戶能夠理解模型的決策過程,從而增強信任感;此外,明確告知用戶數據的使用目的和方式,提升透明度。