近日,記者從四川大學獲悉,該校計算機學院呂建成教授研究團隊通過收集海量工業數據,創新大模型注意力機制,研制首個工藝設計大模型——“魯班-10B”,在實驗中展現出更高的工藝生成質量,有望提高我國制造業現有工藝編制效率,展現出人工智能賦能先進制造的廣闊前景。
據悉,隨著通用大模型在自然語言處理領域的快速發展,其在文本生成、問答系統和語言理解等任務中已取得顯著成果。然而,在工藝設計等高度專業化的工程應用場景中,現有大模型的適用性仍面臨諸多挑戰。
今年5月,呂建成教授研究團隊在《四川大學學報(自然科學版)》發表學術論文《面向工藝設計的領域大模型構建方法》,系統性地闡述工藝設計領域垂直大模型的構建和訓練方法。
文章指出,工藝設計領域的文本生成任務面臨雙重挑戰。一方面,工藝設計文本專業術語密集、流程描述冗長,傳統注意力機制在處理長文本時,計算效率低下,且全局語義容易出現失穩情況,難以精準捕捉文本核心信息。另一方面,通用大語言模型依賴大規模標注數據進行訓練,而工藝設計領域的數據具有獨特性,與通用大語言模型的訓練范式存在顯著差異,這使得通用模型難以直接適配工藝設計需求。
為此,該研究團隊提出“混合稀疏注意力機制”,通過動態篩選關鍵標識符、鎖定起始標識符權重,有效壓縮了非核心語義的計算負擔,把自注意力機制原本需要兩兩對比(N2級別)的計算方式,優化成只需要線性級別(N的倍數)的計算量,在降低資源消耗的同時提升了模型對長文本的生成穩定性。
“目前,‘魯班-10B’工藝大模型系統已在多家制造企業中被實際使用。該大模型的創新實踐表明,針對特定場景的數據特征與任務需求設計專用模型架構,或將成為突破行業瓶頸的關鍵。”呂建成表示。
友情鏈接: 政府 高新園區合作媒體
Copyright 1999-2025 中國高新網chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業務經營許可證060344號主辦單位:《中國高新技術產業導報》社有限責任公司