您使用的浏览器版本过低!
可能无法正常浏览,您可以选择
本文節選自:
郭旺, 楊雨森, 吳華瑞, 朱華吉, 繆禕晟, 顧靜秋. 農業大模型:關鍵技術、應用分析與發展方向[J]. (中英文), 2024, 6(2): 1-13.
GUO Wang, YANG Yusen, WU Huarui, ZHU Huaji, MIAO Yisheng, GU Jingqiu. Big Models in Agriculture: Key Technologies, Application and Future Directions[J]. Smart Agriculture, 2024, 6(2): 1-13.⠀
農業大模型關鍵技術與特性
大模型依賴於諸多技術支撐,也具有區別於其他人工智能模型的特性。Transformer架構是當今眾多大模型的基礎,使大模型能夠有效處理大規模的數據並擴展模型規模,擴展定理則指導大模型進行有限預算的最優開發,大規模的自監督學習使模型在無需人工監督的情況下擴展訓練規模來提升能力。同時,大模型中新產生的湧現能力(Emergent abilities),是其區別於其他小規模模型的重要特征。
1. Transformer模型的產生與核心原理
Transformer架構的設計核心是一種簡單高效的自注意力(Self-attention)機製,通過計算序列內元素間的相互關注度分數,為各元素賦予差異化的重要性權重。這一設計使得模型能夠在處理序列數據時,動態地集中處理序列中的關鍵信息,並能夠覆蓋序列中任意位置的數據元素,有效捕捉長程依賴關係。這種機製使得模型能夠方便地擴展,不會因此在模型推理時丟失細節。此外,Transformer模型的架構允許並行化計算,模型在參數規模較大時訓練效率有了顯著提升。這些特性促使其在大模型領域具有廣泛應用。
Transformer推動了自然語言處理領域的一係列重大進展。BERT(Bidirectional Encoder Representations from Transformers)、GPT等基於Transformer架構的預訓練語言模型相繼產生,並在文本翻譯等子領域展示出卓越的性能。GPT使用了Transformer中的解碼器設計,允許文本正向輸入,並通過預測文本序列中的下一詞來進行訓練,使模型能夠理解並生成連貫的文本內容。BERT則使用雙向Transformer編碼器架構,能夠考慮到給定單詞在上下文中的前後信息,實現同時從正向和反向與對文本的深入理解,顯著提升了模型對語義的把握能力。同時,BERT通過在掩碼語言建模(Masked Language Modeling)與下一句預測(Next Sentence Prediction),學習到複雜的語境關係。隨著模型的進一步擴大,例如GPT-3、LLaMa(Large Language Model Meta AI)等語言大模型的開發,將模型能力推升至新的高度。同時,Transformer架構的影響也擴展到了其他的人工智能子領域,如計算機視覺領域的代表模型ViT(Vision Transformer),通過將圖像分割成多個小塊並應用Transformer架構處理,打破了傳統依賴卷積神經網絡(Convolutional Neural Networks, CNNs)的圖像處理範式。進一步地,Caron等將ViT與自監督學習結合,提出了DINO(Self-distillation with No Labels)框架,在自監督條件下也能學習到圖像中的深層語義特征,為構造視覺大模型奠定了一定的理論基礎。
2. 大模型的擴展定理
Transformer架構允許模型進行大規模的堆疊,而對模型規模、數據規模與計算量的擴展,可以大幅提高模型能力。尤其在語言大模型領域,開展了一些對擴展的定量研究。語言大模型發展出兩個代表性的法則:KM(Kaplan-McCandlish)法則與Chinchilla法則。KM法則是通過擬合神經語言模型的性能在不同模型規模(N)、數據集規模(D),以及訓練計算量(C)三種變量的表現提出了一種性能隨這三種要素擴展而提升的定量描述;Chinchilla法則提出了另一種形式來指導語言大模型進行最優計算量的訓練,認為模型大小與數據量應以同比增加來在一定預算下取得最優模型。KM法則可以表示為公式(1)~公式(3),Chinchilla法則表示為公式(4)~公式(6)。
式中:L(ⷩ為nats表示下的交叉熵損失。
式中:E=1.69,A=406.4,B=410.7,0.34,0.28。在C≈6ND的條件下,將計算預算分配給模型規模與數據量的最優解,為公式(5)和公式(6)。
G為基於A、B、 與 舧擴展係數。
3. 大規模自監督學習
大模型的能力依賴於大規模的訓練。早期的深度學習模型基於監督訓練,依賴於對數據的人工標注。這種方式耗時耗力,限製了模型的訓練規模。相對地,自監督學習的核心思想是利用數據本身自動化地產生對應的監督信號,使模型能夠在未經人工標注的數據上,學習到有用的特征,進行自我監督。通過減少或避免對人工的依賴,使得在更廣泛、更大規模的數據集上進行訓練成為可能。
在大模型領域,自監督學習主要采用生成式學習與對比學習兩種策略。生成式學習,也稱預測學習,旨在通過模型生成與訓練數據相似的數據,深入挖掘數據的內在結構及生成過程的潛在因素。生成式學習在語言模型中應用廣泛,如BERT模型通過掩碼語言建模與下一句預測進行訓練,前者旨在預測文本中挖空的詞匯,後者則是從候選句子中挑選出最合適作為文本下文的句子。對比學習則廣泛地應用到計算機視覺領域中,如SimCLR(Simple Framework for Contrastive Learning of Visual Representations)架構,將同一批圖片采用不同方式增強後進行編碼,最大化來自相同圖片的編碼的相似性,以此學習對圖片的特征表示。
同時,進行大規模自監督學習的可擴展性訓練技術也至關重要,可以包括如使用3D並行技術(數據並行、流水線並行、張量並行等),將計算分散到多個GPU上進行訓練,或使用零冗餘優化器(Zero Redundancy Optimizer, ZeRO)技術,解決數據在多GPU部署後的冗餘問題,以及采用混合精度訓練,減少計算量與數據傳輸開銷。這些技術結合計算機硬件的持續進步,為大模型的規模擴展和訓練效率提供了堅實的算力支持。
4.⠥䧦补通用能力與適應微調
經過預訓練,大模型具有解決廣泛任務的通用能力。通過一定的提示(Prompts),大模型能夠執行不同的具體任務。如ChatGPT可基於語言等提示,執行如文本翻譯、開放領域問答、文本摘要、文本生成等多種自然語言處理上的具體任務;Meta公司開發的SAM(Segment Anything Model)允許使用文本提示與可視化的分割範圍提示,對照片中的具體物體進行實例分割。
大模型可以通過微調適配到特定的目標上。如在語言大模型上可以進行指令微調(Instruction tuning)與對齊微調(Alignment tuning)兩種微調方法。前者通過構建人工參與的格式化的指令,包含任務描述、輸入輸出以及可選的少量示例等,監督大模型對特定的工作進行調節,提升其完成具體目標的能力;後者則著重於將人類的價值取向與偏好等對齊於語言大模型,防止其生成有害的、虛假的、帶有偏見的等不符合人類期望的內容,一般采用基於人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF)方法,通過收集的人類反饋進行訓練獎勵,有監督地調節模型。視覺大模型亦可通過微調工作,來提高模型在特定任務,如開放世界物體檢測中的性能,也可提高模型的某種能力,如視覺定位(Visual Grounding)等。
對模型進行全參數微調需要大量計算資源。而對模型添加少量額外結構,就能使模型在僅調節這些結構後快速適應下遊任務。這種參數高效微調的方法包括適配器微調(Adapter Tuning)、前綴微調(Prefix tuning)、低秩適應(Low-Rank Adaption, LoRA)微調以及提示微調(Prompt tuning)等。適應器微調通過在模型的多頭注意力層與前饋層之間插入小型的神經網絡模塊來實現;前綴微調則是向模型的輸入添加一係列固定的向量(即前綴)來引導模型輸出;而LoRA微調通過在Transformer層中添加低秩矩陣來模擬模型內部較低的本征維度,從而使用少量參數進行快速學習。此外,提示微調則通過自動調整添加到輸入上的提示模板來激發模型在特定任務上的性能。這些方法的出現顯著降低了微調的計算量,促進了大模型在多個領域的推廣。
5. 湧現能力
語言大模型與一般預訓練語言模型的主要區別之一是湧現出在較小模型上難以出現的能力,即湧現能力。將模型的規模提升到一定程度,其能夠展現出解決複雜的問題的新能力。其中有三種典型能力:上下文學習(In-Context Learning)、指令遵循,以及逐步推理。上下文學習是指模型能夠按照一定的自然語言指令以及任務演示,對測試樣例進行補全來生成答案,不需要對模型參數進行更新。指令遵循是指模型在混合多任務數據集上進行微調後,在格式相同但未曾見過的任務中具有良好表現,即便沒有顯式的示例依然可以遵循新的命令。逐步推理則強調語言大模型可以解決涉及多個推理步驟的複雜任務,通過思維鏈(Chain of Thought)等方式生成中間的推理步驟,最後生成最終的答案。
(轉自:智慧農業期刊)
排名 | 城市 | 今天气温 |
1 | 中共中央、國務院:推動國有資本參與發展養老服務,完善分類考核評價華泰期貨:昨日市場波動較大 貴金屬仍以逢低買入為主 | 23~26 ° |
2 | 英特爾發布酷睿Ultra 200H和200HX係列處理器美銀:英偉達決定加大對‘物理AI’的投入是合乎邏輯的下一步舉措 | 23~25 ° |
3 | CES前哨 | 海信:已將AI融入顯示技術、智慧家庭、智慧城市等場景美聯儲對美股發表罕見直接警告 理事庫克稱市場估值過高或麵臨大幅回調 | 23~25 ° |
4 | 光大期貨:1月7日金融日報農業銀行:徐瀚因年齡原因辭去副行長職務 | 23~25 ° |
5 | 史上第二!孖展之王誕生!資深副行長林景臻到齡退休!中國銀行高管“老將”時代落幕 | 23~25 ° |
6 | 花旗:美債收益率升至5%將提供買入良機五大方麵抓落實,發改委詳解全國統一大市場建設指引 | 23~25 ° |
7 | 深夜!美股突然跳水!中概股走強丹麥國王更新皇家徽章 外媒:警告特朗普“購島”言論 | 20~25 ° |
8 | 機器人概念局部走強,巨輪智能漲停【財富直通車】叮!今日份財富策略已備齊,話不多說,趕快上車!【1月7日】 | 20~25 ° |
9 | 滬深兩市成交額連續第69個交易日突破1萬億元如何優化內容來提升搜索引擎SEO?內容優化有哪些技巧? | 17~25 ° |
10 | 中共中央 國務院發布關於深化養老服務改革發展的意見(全文)英偉達下場做“PC”,AI超級計算將觸手可及 | 12~25 ° |
1 | 特魯多:加拿大“絕無可能”並入美國中國大地保險啟動理賠應急預案 快速應對西藏日喀則市定日縣地震 | -24~-12 ° |
2 | 洛杉磯山火蔓延導致數萬人撤離 美國氣象部門發布最高級別火災警報德國去年前11個月遣返非法移民1.84萬人 同比增加20% | -24~-9 ° |
3 | 穀歌CEO皮查伊大位不保?消息稱已有投資公司向董事會施壓要求他今年辭職CES前哨 | 小鵬匯天:飛行汽車將在2026年量產交付 | -23~-12 ° |
4 | 字節短劇首次出海:成立海外短劇團隊,能否複製 TikTok 成功銀行領漲!高股息再度出手護盤,價值ETF(510030)逆市上探0.51%! | -23~-8 ° |
5 | 招商輪船榮獲2024年《新財富》雜誌“最佳上市公司獎”卓創資訊:雞蛋消費旺季推遲 價格稍顯弱勢 | -20~-8 ° |
6 | 抖音怎麽快速升粉?有哪些有效的漲粉技巧?歲末銀行存款出現分化行情:有城商行3年期定存利率可達2.35% 另有機構大額存單利率不升反降 | -20~-8 ° |
7 | 美債收益率飆升打擊風險資產 加密貨幣市場受衝擊【光大海外】騰訊等多家科技公司被美國國防部列入CMC清單點評(12頁內含清單) | -20~-5 ° |
8 | 賣雞湯的快餐,都要上市了券商合並大潮下 民生證券多位分析師入職國金證券 | -19~-10 ° |
9 | 德銀:美債收益率或還能漲40個基點養殖飼料市場2025年展望:細雨生寒未有霜 庭前木葉半青黃 | -18~-12 ° |
10 | 華林證券向西藏日喀則地震災區捐贈500萬元及不超100萬元物資CES前哨 | TCL:與穀歌合作,將在海外電視集成最新Gemini大模型 | -18~-10 ° |
排名 | 城市 | 今天空气 |
1 | 司法部詳解涉企行政檢查新規:堅決遏製亂檢查,讓企業放心幹事寶尊集團吳駿華:騰訊的生態是“毛細血管”和“滿天星” | 7优 |
2 | 恩智浦為汽車芯片需求複蘇做準備? 將以6.25億美元收購TTTech AutoCES前哨 | 黃仁勳公布英偉達合作機器人品牌:宇樹科技、小鵬在列 | 7优 |
3 | 歌爾亮相CES2025,聲光電多領域技術煥新央行12月末黃金儲備7329萬盎司,連續兩個月擴大黃金儲備 | 7优 |
4 | 銀行基金銷售頻踩紅線 無證上崗成重災區金價單日“巨震”35美元!與特朗普言論有關 接下來如何交易黃金? | 7优 |
5 | 英偉達發布首個世界基礎模型,黃仁勳劇透正在研發全球最小AI超級計算機太平洋安信農險總經理石踐卸任 副總經理鄭凱出任臨時負責人 | 7优 |
6 | ST恒久(002808)收處罰事先告知書,股民索賠分析愛瑪科技實控人、董事長張劍解除留置 | 7优 |
7 | 45億元出售中藥公司後,和黃醫藥擬要開發新一代ADC藥物深成指漲超1%,滬指、創業板指漲0.6% | 7优 |
8 | 公調處“轉包”逮捕令,總統府強硬“反檢舉”,逮捕尹錫悅成“不可能的任務”?私募“搶籌”新發的上證180ETF,除了投資配置目的,還暗藏什麽玄機? | 7优 |
9 | 關於內陸核電,中國核電最新回複!特魯多宣布將辭任總理後,加拿大會發生什麽 | 7优 |
10 | 歲末銀行存款出現分化行情:有城商行3年期定存利率可達2.35% 另有機構大額存單利率不升反降韓媒:韓國調查人員周三可能嚐試逮捕尹錫悅 | 7优 |
1 | 追問集采①“三分錢一片的阿司匹林”是賠本買賣嗎?國家醫保局:應尊貴陽銀行首席風險官離任 10年任期內該行資產質量如何? | 381严重 |
2 | 提示強製退市風險,普利製藥股債一字跌停!可轉債回售無法全額兌付?公司回應:還不是確定性結果超619萬億元!2024年期市“成績單”出爐,金融板塊大放異彩 | 324严重 |
3 | 法國消費者信心意外降至一年來最低 政治不穩定及預算危機令經濟承壓原油價格周二收高 需求前景與供應中斷威脅令油價走高 | 273重度 |
4 | 對四川能投·櫻花莊園報道律師函的情況說明三部門聯合印發《國家數據基礎設施建設指引》 加快布局國家數據基礎設施 每年將吸引直接投資約4000億元 | 270重度 |
5 | 每日論金 | 重點關注2640美元多空爭奪特魯多回應特朗普:加拿大沒有可能成為美國一部分 | 269重度 |
6 | 單日2000元!開年多家銀行調整部分客戶手機銀行交易限額 保護資金安全成主因央行12月末黃金儲備7329萬盎司,連續兩個月擴大黃金儲備 | 257重度 |
7 | 韓媒:韓國調查人員周三可能嚐試逮捕尹錫悅Wpp Plc American Depositary盤中異動 急速跳水5.01%報46.63美元 | 256重度 |
8 | 汽車整車板塊盤初走弱,力帆科技、上汽集團跌超4%ETF日報:AI浪潮下,算力資本投入有望快速增長,產業鏈有望持續受益,可以關注通信ETF | 229重度 |
9 | 2024中國十大品牌領袖 | 汪林朋:居然智家集團董事長兼CEO新能源車股多數走低 Rivian Automotive跌超3% | 229重度 |
10 | 優步盤前漲2.68% 與英偉達合作支持AI自動駕駛技術開發中國東方航空股份1月7日斥資762.8萬元回購200萬股A股 | 226重度 |
友情链接: