@戈壁淘金:
1、阿(a)里(li)千問推(tui)出最(zui)新(xin)推(tui)理模型QwQ-32B,僅用(yong)320 億參(can)數,性(xing)能可與具備(bei) 6710 億參(can)數(其(qi)中 370 億被激活(huo))的(de) DeepSeek-R1 媲美(mei)。
這一(yi)成果突顯了(le)將強化學習應(ying)用(yong)于(yu)經過大規模預訓練的(de)強大基礎(chu)模型的(de)有效性(xing)。此外(wai),我們還(huan)在推(tui)理模型中集成了(le)與 Agent 相關的(de)能力,使(shi)其(qi)能夠在使(shi)用(yong)工
73
贊同-41 評論