<strike id="we02i"></strike>
<th id="we02i"><s id="we02i"></s></th>
<samp id="we02i"></samp>
<strike id="we02i"></strike><ul id="we02i"><pre id="we02i"></pre></ul>
<th id="we02i"><menu id="we02i"></menu></th>
  • <ul id="we02i"><pre id="we02i"></pre></ul>
    集團官微
    您的位置:首頁 > 新聞中心 > 文化產業智庫 > 正文

    高書生:當前文化領域大模型研發進展情況

    發布時間: 2024-01-21 09:50:00
    來源:
    字號: [小] [大] 【分享正文】

    2023年的最后一天,國家數據局聯合16個部門印發了《“數據要素×”三年行動計劃(2024—2026年)》,文件提出:挖掘文化數據價值,貫通各類文化機構數據中心,關聯形成中華文化數據庫,鼓勵依托市場化機制開發文化大模型。文件剛剛對外公布,參與文化大模型研發的中國公共關系協會文化大數據產業委員會(以下簡稱“專委會”)成員單位群情激動,紛紛表示要將文化大模型打造成為“數據要素×”三年行動計劃的“樣本項目”。

    文化大模型研發進程

    美國OpenAI公司研發的ChatGPT在全球范圍所產生的沖擊波,不可避免波及到意識形態領域,對青少年價值觀認同產生直接影響。專委會征詢了相關專家意見,認為應當充分運用文化數字化建設積累的數據,同科技公司聯手研發文化大模型。

    2023年5月,專委會同華為云計算技術有限公司(以下簡稱“華為云”)就聯合研發文化大模型和應用場景問題進行了深入溝通,華為云認同專委會提出的人工智能大模型是文化和科技深度融合產物的觀點,雙方應當發揮各自優勢、實現強強聯合,充分運用文化數字化建設成果,發揮華為云在人工智能大模型領域的技術優勢和研發能力,聯合研發文化大模型和應用場景,探索人工智能時代維護意識形態和文化安全的有效途徑。

    文化大模型是基于華為盤古大模型而開發的。華為的盤古大模型是一個基礎大模型,主要作用就是做好海量基礎知識的學習,可以形象地理解為“讀萬卷書”。在此基礎上依托行業伙伴的專業數據打造行業模型和場景模型,可以稱作“行萬里路”。文化大模型是在基礎大模型的基礎上形成的行業模型,文化機構再基于文化大模型開發專業模型,也就是場景模型。

    2023年8月,專委會邀請20余家成員單位、國家文化大數據標識基地負責人,在北京召開文化大模型評測工作座談會,就文化大模型如何賦能文化數字化建設進行深入研討:

    ——針對文化企事業單位在文化數字化建設中面臨的數據體量大、處理成本高、數據處理效率低等問題,通過文化大模型的自動智能化標識、圖像元素自動提取、文生圖和圖生文的多模態能力可以有效解決。文化大模型幫助文化機構在多個應用場景高效完成各種工作,包括數字人對話、基于NLP的知識問答和搜索、多模態知識圖譜生成、AIGC文生圖自動標注、畫作鑒真、長視頻拆條自動處理等。

    ——針對文化機構自有數據量多、但因大模型投入大而裹足不前,專委會和華為云可以提供安全且自主可控的基礎設施平臺,保障數據端到端的安全處理,文化機構不需要投入巨額資金建立自己的算力存儲基礎設施和工具鏈,就可以使用自有數據擁有專業模型。

    2023年9月,文化大模型開發應用大會在中國(南京)文化和科技融合成果展覽交易會期間舉行,大會展示了基于文化大模型開發應用的示范案例和相關工具等。中國數字文化集團、國家圖書館出版社、雅昌文化集團、北京世紀超星等機構根據評測情況,展示了文化大模型能做什么?

    ——中國數字文化集團擁有國家舞臺藝術影像庫等8個主數據庫、69個子庫、276個文化資源數據庫,數據規模達6000TB。由于數據采集、封裝、存儲的標準不同,在實際工作當中需要投入大量的人力與物力來對數據進行人工識別與手動標注,不僅效率低,增加了人力成本與時間成本,而且錯誤的數據標識又會影響其他關聯數據,最終導致數據標識錯誤率的增加。接入文化大模型,就可以對海量文化資源數據進行過濾,將重復、冗余、弱相關的旁支數據自動篩除。文化大模型強大的自然語言理解、智能圖像識別、圖文生成與圖文轉化功能,還能夠直接對文化資源數據的文字描述和圖像內容等要素進行理解和識別,自動抓取關鍵詞并智能產出對應的檔案標簽,自動進行數據分類。

    ——國家圖書館出版社是一家古籍專業出版社,以整理各種稀見歷史文獻為主要特色。前期在數字出版方面進行了一些嘗試,也遇到了一系列的問題,比如中國古籍據大約有20~30萬個品種,因為古籍中的插圖沒有標準,很多情況下難以判斷有沒有插圖,以及插圖在哪一頁,只有采用人工的方法,一張張的瀏覽將插圖挑選出來,收集大約14萬多張古代插圖,就花費了幾年時間。利用人工智能技術即使普通人員也可以在短時間內完成。但打造一個出版行業自己的通用大模型,是出版社自身難以實現的目標,而文化大模型的出現,為整個出版行業的發展提供了一個新的契機,借助文化大模型,融合出版可以實現一次新突破。

    ——雅昌文化集團以藝術數據為核心,打造了藝術行業中最大的中國藝術品數據庫,急迫需要在業務應用與海量數據庫的數據處理上,以智能化提高效率和質量。運用盤古大模型的CV視覺模型、多模態模型,可以智能化解決圖片智能校色、老照片智能修復、圖片智能搜索、跨內容的智能標注/關聯、以圖識文、藝術品價格評估、藝術品鑒定、智能設計、智能排版、構建知識圖譜等。

    ——北京世紀超星信息技術發展有限公司在發展過程中面臨兩大問題,一是文本數據和圖片數據數字化后的利用率不高,二是搜索定位不準確。在文化大模型評測階段進行了四方面探索:打造知識圖譜自動生成功能,提升時間和效率;打造模糊查詢、圖片檢索;查重與分析,實現對文字與圖片、圖片與視頻與音頻的查重;智能歸類,根據讀者平時個人喜好,根據閱讀習慣等進行分類和排序,方便讀者查詢。

    經文化機構的評測,文化大模型基本達到了設計目標,能夠滿足實施國家文化數字化戰略中AI能力建設的各類應用場景,包括但不限于:自然語言處理能力(NLP),圖片自動分類聚類能力,自動化標簽能力,長視頻切片能力,知識圖譜(語義識別、概念抽取),AIGC能力,賦能數字人等。

    文化大模型大規模開發應用的基礎條件已具備

    《“數據要素×”三年行動計劃(2024—2026年)》對文化大模型開發應用指出了清晰的路徑:

    一是挖掘文化數據價值

    二是貫通各類文化機構數據中心

    三是關聯形成中華文化數據庫

    自2020年成立以來,專委會積極組織成員單位協同推進國家文化大數據體系建設,為實施上述路徑奠定了堅實的基礎:

    布局國家文化大數據標識基地

    大模型時代,數據是人工智能的三大核心要素之一。優質的數據集直接決定了大模型的競爭力,要把文化大模型打造為便捷、好用的文化數字化生產工具,離不開高質量數據。數據不標注,等于沒內涵;數據不標識,等于沒身份。為提升文化數據的供給規模和質量,專委會自2023年起布局國家文化大數據標識基地,旨在對文化資源數據進行分類、編目、標引和賦碼。目前,國家文化大數據標識基地已有11個,分布于文化、藝術、電影、出版、廣電網絡、文化投資等細分行業。

    圖片推動建設國家文化大數據體系省域中心

    中辦、國辦印發的《關于推進實施國家文化數字化戰略的意見》指出:依托現有有線電視網絡設施、廣電5G網絡和互聯互通平臺,部署提供標識編碼注冊登記和解析服務的技術系統,完善結算支付功能,形成國家文化專網以及國家文化大數據體系的省域中心和區域中心,服務文化資源數據的存儲、傳輸、交易和文化數字內容分發。國家文化大數據體系省域中心的主要職能,就是按照物理分布、邏輯關聯原則,貫通文化機構數據中心。目前,全國11個省級廣電網絡公司已建成國家文化大數據省域中心,能夠為文化機構接入國家文化專網提供網絡服務,其中四川廣電網絡公司承建的省域中心,已為全省314個文化、圖書、博物、旅游等機構提供國家文化專網接入服務。

    推動建設標識解析體系

    不同于互聯網的域名解析,文化數字化采用的是標識解析。2015年,國際標準化組織(ISO)發布了由我國提案創建的信息與文獻領域國際標準,中文叫國際標準關聯標識符,英文簡稱ISLI(International Standard Link Identifier)。依托這項國際標準進行技術架構,即在廣電網絡公司機房部署提供標識編碼注冊登記和解析服務的技術系統、在文化機構數據中心部署底層關聯服務引擎和應用軟件,就可以形成了標識解析體系,數據即使在分布式存儲的狀態下,依然可以互聯互通,實現“物理分布、邏輯關聯”,把零散的文化資源數據關聯起來,把思想理論、文化旅游、文物、新聞出版、電影、廣播電視、網絡文化文藝等不同領域的文化資源數據關聯起來,把文字、音頻、視頻等不同形態的文化資源數據關聯起來,最終形成中華文化數據庫。

    推動建設國家文化大數據交易體系

    在國家文化大數據體系架構上,交易扮演著十分重要的角色——既是資源與生產的中介,又是生產與消費的中介。針對目前數據交易所存在的交易不活躍等問題,文化數據交易倡導“一碼通”,即交易主體及其交易標的被賦予唯一的關聯標識符(ISLI碼),憑碼交易、拼碼結算。文化數據交易由買賣雙方在“數據超市”完成交易,文化產權交易所提供第三方交割,交割完成后“點對點”交付數據,以確保數據安全。目前,由深圳文化產權交易所承建的全國文化大數據交易中心和由江蘇文化產權交易所承建的華東區域交易平臺均已上線運行。

    組織開展文化元宇宙試驗

    文化大模型具有領域寬、應用廣的特點。中辦、國辦印發的《關于推進實施國家文化數字化戰略的意見》明確,集成全息呈現、數字孿生、多語言交互、高逼真、跨時空等新型體驗技術,大力發展線上線下一體化、在線在場相結合的數字化文化新體驗。數字化文化新體驗,是文化大模型最重要的應用場景。專委會正在組織開展文化元宇宙試驗,旨在培育文化數據要素應用場景,基本思路是把電視機作為文化元宇宙的入口,路徑是將機頂盒升級為文化元宇宙發射器,機構和個人進入文化元宇宙需進行身份認證,即被賦予唯一的關聯標識符(ISLI碼),作為生產者或消費者的憑證。目前,文化元宇宙發射器已研發出來,正在貴州、遼寧、寧夏等地進行測試。

    合作研發文化大模型一體機

    對計算資源的需求、超百億甚至千億級的參數規模、體系架構設計的高難度,提升了中小機構其開發應用大模型的門檻。為加速大模型的行業落地,針對百億級模型應用,華為公司打造了大模型一體機系列,免去大量適配調優、系統搭建的成本,為大模型伙伴提供“拎包入住”式的部署體驗,2小時內即可完成部署。為加速推進國家文化大數據體系建設,專委會組織成員單位同華為公司合作研發出國家文化大數據一體化機柜,機柜內部實現了專業機房環境,裝配了服務器、交換機等硬件設備,配置文化數據標識服務系統,對機柜微環境參數實施實時監控,由各級廣電網絡公司負責運維。隨著文化大模型的開發應用,專委會同華為公司達成共識,將國家文化大數據一體化機柜升級為文化大模型一體機,底層算力全部采用華為昇騰AI芯片,配備推理等功能,實現“一機在手,開發場景模型不愁”。

    結語

    文化大模型作為智能化工具,應用范圍很廣泛,涵蓋了宣傳思想文化全戰線。文化大模型的文化,是“大文化”或跨部門范疇,從部門講包括宣傳、網信、文旅、新聞出版、電影、廣播電視、網絡文化文藝,從領域上講包括思想理論、文化旅游、文物、新聞出版、電影、廣播電視和網絡文化文藝。大模型時代,文化機構一定要跟上科技發展步伐,否則就會落伍甚至被邊緣化。文化機構無論規模多大,擁有的數據量多么龐大,如果游離于體系之外,僅僅靠自身的實力開發文化大模型,都會很吃力。在文化大模型開發應用上,“抱團取暖”,“眾人拾柴火焰高”,依然是共贏的法寶。

    主站蜘蛛池模板: 曰韩无码二三区中文字幕| 国产成人无码午夜视频在线观看| 永久免费av无码网站韩国毛片| 亚洲中文久久精品无码1| 亚洲中文无码mv| 成年午夜无码av片在线观看| 日韩一区二区三区无码影院| 亚洲另类无码专区丝袜| av无码精品一区二区三区四区| 无码人妻精品一区二区三区99仓本 | 中文字幕av无码专区第一页| 久久久久无码精品国产不卡| 国产午夜无码片在线观看影院| 精品一区二区无码AV| 亚洲AV无码一区二区三区久久精品| 精品人体无码一区二区三区| 亚洲人成无码网站在线观看| 日韩精品人妻系列无码专区| 久久青青草原亚洲av无码| 无码国产精品久久一区免费 | 精品无码一区二区三区爱欲| 无码人妻一区二区三区免费视频 | 潮喷失禁大喷水aⅴ无码| 九九在线中文字幕无码| 亚洲国产精品无码第一区二区三区| 成人无码AV一区二区| 亚洲?V无码成人精品区日韩 | 亚洲AV无码成人专区片在线观看| 免费无码又爽又刺激高潮| 无码亚洲成a人在线观看| 久久男人Av资源网站无码软件| 成在人线av无码免费高潮水| 亚洲Aⅴ无码一区二区二三区软件| 亚洲日韩国产二区无码| 高清无码中文字幕在线观看视频| 亚洲精品无码久久毛片波多野吉衣 | 无码任你躁久久久久久久| 亚洲午夜AV无码专区在线播放| 国产精品爽爽va在线观看无码| 色欲aⅴ亚洲情无码AV蜜桃| 无码av无码天堂资源网|