omniture

一级片在线播放-国产高清不卡-男女黄色片-国产精品黄色片-亚洲在线视频观看-日韩欧美偷拍-亚洲va在线-君岛美绪在线-69av在线播放-久久精品a-总裁憋尿呻吟双腿大开憋尿-成年人免费观看视频网站-人妻巨大乳hd免费看-在线观看中文字幕2021-比利时xxxx性hd极品

浪潮"源"AI大模型如何求解數(shù)學應用題

2022-07-07 16:19 5214

北京2022年7月7日 /美通社/ -- "源1.0"大模型是浪潮信息發(fā)布的中文巨量模型,參數(shù)量高達2457億,在中文語言能力理解和生成評測基準CUGE總榜中取得榜首,并獲得語言理解(篇章級)、語言生成、對話交互、多語言、數(shù)學推理等5項評測最佳成績。其中在數(shù)學推理評測中,源1.0大模型完成1000道小學數(shù)學應用題,以76.9的高分大幅領先。

數(shù)學對邏輯和推理能力有極強的要求,以往大模型在數(shù)學領域表現(xiàn)欠佳。源1.0為何能取得這么好的成績?本文將介紹數(shù)學推理任務的背景、研究現(xiàn)狀,以及源1.0在數(shù)學推理任務方面的解決方案和表現(xiàn)。

1. 數(shù)學單詞問題的研究背景及意義

數(shù)學單詞問題,即Math Word Problem(MWP),其主要目標是根據(jù)自然語言文字描述的內容解決相應的數(shù)學問題。也就是說,對于給定的數(shù)學問題,模型需要理解相關文字的數(shù)學含義,并推理出正確的表達式。

一個典型的MWP示例如下。

問題:"快車和慢車同時從相距450千米的兩城相對開出,4.5小時后兩車還相距90千米,快車和慢車的速度比為9:7,慢車每小時行多少千米?"
表達式:(450-90)/4.5*7/(9+7)
結果:35

不難發(fā)現(xiàn),該題目除了要求模型能夠理解基本的加減乘除法之外,還需要理解什么是比例問題。此外,若將問題中的"相對開出"改為"相反方向開出",將會導致問題的數(shù)學邏輯大相徑庭。如何讓模型分辨出語言表達上的差異,并正確地推理出對應的表達式是MWP任務的基本要求。

需要注意的是,在上面的MWP中,表達式中所需的數(shù)字量均可以在問題中找到,但在某些情況下,表達式中所需要的數(shù)字量并不會全部包含在問題中。例如,在含有分數(shù)的MWP示例中(如下紅框中所示),需要根據(jù)題目中的數(shù)學邏輯,在表達式中額外添加相應的數(shù)字量"1"。同樣的問題還常見于計算圓的周長或面積時,需要額外添加數(shù)字量"3.14"。

問題:"一根電線長80米,第一次截去的全長的2/5,第二次截去了余下的1/4,這根電線還剩多少米?"
表達式:80*(1-2/5-(1-2/5)*1/4)
結果:36

毫無疑問,MWP任務給模型的語言理解能力和數(shù)學推理能力都帶來了極大的挑戰(zhàn),如何解決MWP任務也是NLP領域的研究熱點之一。

2. 數(shù)字單詞問題的研究現(xiàn)狀

實際上,直到2016年MWP的任務精度仍然比較有限。關于MWP任務在2016年之前的研究在此不作細述,相關綜述可參考論文:How well do Computers Solve Math Word Problems? Large-Scale Dataset Construction and Evaluation (Huang et al., ACL 2016)

近幾年,借助DNN解決MWP任務的方法顯著提升了MWP任務精度,這些方法大致可以分為以下三類:基于seq2seq模型、基于seq2tree模型和基于預訓練模型。

2.1   基于seq2seq模型

該方法是由Wang Yan等學者[1]首次應用在MWP任務上,并在大規(guī)模多題型的數(shù)據(jù)集(Math23K)上取得了顯著的效果(對于Math23K數(shù)據(jù)集將在后續(xù)內容中進行說明)。該方法本質上是采用Encoder-Decoder(enc-dec)結構直接完成了從"問題"到"表達式"的映射。值得一提的是,前述的Math23K數(shù)據(jù)集規(guī)模較大題型較多(約22000道),是目前MWP任務評測的benchmark。

此外,通過設計不同的Encoder和Decoder結構可以得到改進后的seq2seq方法。不過令人驚訝的是,Transformer結構的enc-dec并未在Math23K數(shù)據(jù)集上表現(xiàn)出明顯的優(yōu)勢;而采用LSTM結構作為enc-dec的LSTMVAE方法表現(xiàn)最佳。

2.2   基于seq2tree模型

基于Seq2tree模型實際上是基于seq2seq模型的變種,簡單來說,就是將number-mapping后的表達式轉化為樹結構作為模型訓練的輸出(如圖1所示),由于父節(jié)點與子節(jié)點處的數(shù)學符號以及連接方式是固定的,這種方式能夠有效地限制表達式的多樣性。這里,表達式的多樣性可以理解為針對同一個問題可以列出不同的表達式,例如n1+n2-n3還可以寫成n2+n1-n3或者n1+(n2-n3)。

圖1 樹結構化的表達式生成示意[2]
圖1 樹結構化的表達式生成示意[2]

在前述基礎下,基于seq2tree模型的MWP任務解決方法應運而生,其核心思想是將原先的decoder被替換成了tree-based decoder。至此,MWP任務解決思路似乎主要集中在如何替換encoder和decoder問題上。例如,Wang Lei等學者又調整了encoder結構,提出了Graph2tree的方法并且在Math23K任務上精度高達75%。

2.3   基于預訓練模型

Wang Lei等學者[3]發(fā)現(xiàn)BERTGen和RoBERTGen(Dec:BERT、RoBERT;Enc:Transformer)在Math23K數(shù)據(jù)集上表現(xiàn)較為優(yōu)秀(76.9%)。此外,他們還驗證了GPT-2模型在Math23K數(shù)據(jù)集上的表現(xiàn)(74.3%),結果稍遜于基于BERT模型的方法,這可能是GPT-2模型結構的原因(Decoder結構)。

2.4   其他MWP任務解決方法

根據(jù)前述方法,可以看到的是encoder采用BERT模型較好,decoder采用tree-based方式較好,若將兩者結合形成BERT encoder + tree-based decoder[4],其在Math23K數(shù)據(jù)集上的精度達到了驚人的84.4%,是目前Math23K任務的baseline。

此外,在眾多MWP任務解決方法中Recall and learn方法[5]是十分值得一提的。該方法跳出了經(jīng)典的enc-dec結構,通過模擬人腦在解決問題時的類比能力,推理出數(shù)學問題的表達式,最終該方法在Math23K任務上的精度能夠達到82.3%。

3. "源1.0"大模型的MWP任務解決方案

需要指出的是,盡管構建單個技能模型在一定程度上能夠較好地完成MWP任務,但現(xiàn)有技能模型絕大多數(shù)仍采用的是encoder-decoder結構,針對類似decoder結構下(如GPT-2)的模型數(shù)值推理能力的研究仍然較少。此外,從實現(xiàn)通用人工智能的目標來看,提升通用大模型的數(shù)值推理能力是十分必要的。

接下來,筆者將詳細介紹浪潮信息的"源1.0"大模型(decoder結構)在Math23K任務上的相關工作,希望能夠對提升通用大模型的數(shù)值推理能力有所啟發(fā)。"源1.0"大模型在數(shù)學推理能力方面目前位列中文語言能力評測基準CUGE榜首。

3.1   目標導向的問答式Prompt設計

Math23K的標準數(shù)據(jù)樣例為:

{
"text": "某班學生參加數(shù)學興趣小組,其中,參加的男生是全班人數(shù)的20%,參加的女生是全班人數(shù)的(2/7)多2人,不參加的人數(shù)比全班人數(shù)的(3/5)少5人,全班有多少人?",
"segmented_text": "某班 學生 參加 數(shù)學 興趣小組 , 其中 , 參加 的 男生 是 全班 人數(shù) 的 20% , 參加 的 女生 是 全班 人數(shù) 的 (2/7) 多 2 人 , 不 參加 的 人數(shù) 比 全班 人數(shù) 的 (3/5) 少 5 人 , 全班 有 多少 人 ?",
"equation": "x=(5-2)/(20%+(2/7)+(3/5)-1)",
"label": "35"
}

其中"text"和"equation"分別對應了任務的問題和表達式信息。在嘗試過各種prompt后,最終確定的prompt設計如下。這種prompt設計將原本的問題拆分成了題干和待求解問題("問:全班有多少人")兩個部分,這是由于"問:"后面的內容對表達式的生成十分關鍵。例如,"全班有多少人"和"全班女生有多少人"所對應的表達式是完全不同的。

{
某班學生參加數(shù)學興趣小組,其中,參加的男生是全班人數(shù)的20%,參加的女生是全班人數(shù)的(2/7)多2人,不參加的人數(shù)比全班人數(shù)的(3/5)少5人,問:全班有多少人?答: x=(5-2)/(20%+(2/7)+(3/5)-1)
}

3.2   相似啟發(fā)式數(shù)據(jù)增強方法

Math23K數(shù)據(jù)集的題型雖然較為豐富,但題型分布并不均勻。例如,涉及圖形周長、面積和體積類的問題顯然比其他題目類型要少,為保證模型在各類數(shù)學題型上均有較好的表現(xiàn),有必要將該類型的題目擴充。

本文采用了Ape210K數(shù)據(jù)集[6]對Math23K訓練集進行擴充,Ape210K數(shù)據(jù)集是另一種較為常用的中文應用數(shù)學題集,其題型更為豐富且題量更大(訓練集約20萬道題)。然而,為保證模型在Math23K測試集上有良好的表現(xiàn),并不能簡單地將Math23K和Ape210K數(shù)據(jù)集混合在一起。為保證數(shù)據(jù)增強的有效性,本文提出了一種相似啟發(fā)式數(shù)據(jù)增強方法(如圖2所示)。

該方法針對Math23K訓練集中的每一道題,首先判斷是否屬于圖形周長、面積和體積類題目。若屬于,則top-K取值為2,同時通過相似題檢索從Ape210K中召回對應的相似題;若不屬于,則top-K取值為1,同樣進行相似題檢索。最后,將找到的相似題添加至Math23K訓練集中,數(shù)據(jù)增強后的訓練集約包含42000道題。

圖2 相似啟發(fā)式數(shù)據(jù)增強方法
圖2 相似啟發(fā)式數(shù)據(jù)增強方法

3.3   Reset-position-idreset-attention-mask設計

輸入到模型的一個batch中通常包含多道應用題,且會出現(xiàn)截斷等問題。為避免不同題目和表達式之間相互影響,對模型進行reset-position-id和reset-attention-mask處理。圖3示意了reset前后的對比,采用了[eod]對不同題目之間做切割,在reset-pos-id之前,其位置編碼按照從左到右的順序排列;reset-pos-id之后,位置編碼按照單個題目進行順序排列。類似的,在reset-attn-mask之前,掩碼矩陣對應的是batch尺寸的下三角矩陣;reset-attn-mask后,原先的掩碼矩陣被拆分成若干小的掩碼矩陣,每個小掩碼矩陣對應單個題目尺寸的下三角矩陣。

圖3 reset-pos-id和reset-attn-mask前后對比(示意)
圖3 reset-pos-id和reset-attn-mask前后對比(示意)

4. 訓練參數(shù)及結果

訓練過程的主要參數(shù)設置如下。

表1 模型訓練部分參數(shù)

參數(shù)

數(shù)值

Seq-length

2048

Batch-size

256

Learning-rate

5e-6

Train-iters

400

在訓練了400個iteration后,模型的loss收斂至0.39(圖4)。

圖4 模型loss曲線
圖4 模型loss曲線

之后,在Math23K測試集上對所提方法的精度進行了測試,并與現(xiàn)有相關方法的結果進行對比(表2)。不難看出,與BERT、GPT-2以及CPM-2模型相比,所提方法下的"源1.0"大模型在Math23K任務上的精度最高。

表2 源1.0模型與BERT、GPT等在Math23K測試集上的對比(相關結果見參考文獻[4]

模型名稱

Encoder-Decoder

Math23K精度(%

BERTGen

76.6

RoBERTGen

76.9

CPM-2

69.4

GPT-2

Decoder結構

74.3

1.0

Decoder結構

76.9

5. 總結與展望

為提升decoder結構下的通用大模型在MWP任務上的精度,本文提出了一種目標導向的問答式prompt設計方法,該方法有利于引導模型建立問題與表達式之間的準確對應關系;同時提出了一種相似啟發(fā)式數(shù)據(jù)增強方法,通過相似句召回的方式對數(shù)據(jù)集進行擴充,克服了原有數(shù)據(jù)集中題型分布不均勻的問題;此外,采用了重置位置編碼和掩碼矩陣的方法,解決了單個batch中的題目之間相互影響的問題。最后,在Math23K數(shù)據(jù)集上驗證了所提方法,結果證明了"源1.0"模型有很強的數(shù)學推理能力。

針對MWP任務,"源1.0"模型后續(xù)將開展的工作包括:

1.         合理利用Number-mapping和tree結構的數(shù)據(jù)前處理,以及類似于recall and learn方法中的掩碼矩陣設計,進一步提高"源1.0"在MWP任務上生成答案精度。

2.         雖然"源1.0"僅在Math23K任務上取得了較好的成績,且目前還不能解決全部的MWP題型,但已經(jīng)證明了"源1.0"模型具備了較強的數(shù)學推理能力。如何進一步挖掘"源1.0"在MWP任務上的潛力,以解決更為復雜的多元方程以及幾何題型的問題,是我們后續(xù)準備繼續(xù)深入研究的重要方向。

參考文獻

[1] Yan Wang, Xiaojiang Liu, Shuming Shi (2017). Deep Neural Solver for Math Word Problems.
[2] Lei Wang, Yan Wang, Deng Cai, et al (2018). Translating a Math Word Problem to an Expression Tree.
[3] Yihuai Lan, Lei Wang, Qiyuan Zhang, et al (2021). MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers
[4] Zhenwen Liang, Jipeng Zhang, Lei Wang, et al (2021). MWP-BERT: Numeracy-Augmented Pre-training for Math Word Problem Solving
[5] Shifeng Huang, Jiawei Wang, Jiao Xu, Da Cao, and Ming Yang. (2021). Recall and Learn: A Memory-augmented Solver for Math Word Problems.
[6] Wei Zhao, Mingyue Shang, Yang Liu, et al (2020). Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems.

 

消息來源:浪潮信息
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection
九九国产视频 | 青青草免费在线观看 | 一区二区免费看 | 蜜桃久久久| 成人网在线观看 | 久久99精品国产.久久久久 | av免费播放| 亚洲综合欧美 | 欧美日韩在线视频 | 中文字幕免费高清在线观看 | 尤物网站在线观看 | 高潮毛片 | 国产在线第一页 | 久久久久一区二区 | 日韩精品久久久久久久酒店 | 懂色av,蜜臀av粉嫩av | 在线免费看黄色 | 一起操在线观看 | 天天射影院 | 亚洲第一av | 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 69视频网 | 天天操夜夜撸 | 免费a视频 | 日本精品在线播放 | 欧美浮力影院 | 在线中文字幕视频 | 成人97| 亚洲男人天堂网 | 久久久毛片 | 91网站在线免费观看 | 日韩中文字幕在线播放 | 中文字幕亚洲综合 | 久久天堂网 | av男人天堂网 | 欧美1区 | 在线观看一区 | 日本不卡高清 | 在线观看视频一区 | 激情六月 | 欧美乱妇狂野欧美在线视频 | 91九色porny国产 | 另类一区 | 人人干人人看 | 粉粉嫩嫩的18虎白女 | 久久99久久99精品免视看婷婷 | 久久九九视频 | 亚洲激情五月 | 91在线观看免费高清完整版在线观看 | 国产人人干 | 大尺度做爰床戏呻吟舒畅 | 亚洲一区二区久久 | 色接久久| 久本草精品 | 黄色av日韩 | 男人插女人下面视频 | 亚洲在线观看视频 | 午夜www| 亚洲日日夜夜 | 婷婷激情综合 | 久草青青 | 久久一二三区 | 免费日韩av | a片在线免费观看 | 麻豆视频在线免费观看 | 97人妻人人揉人人躁人人 | 欧美高清一区二区 | 在线一区二区三区 | 日韩在线观看一区二区 | 五十路av| 久久久精品国产 | 国产又粗又猛又爽又黄的 | 国产精品午夜福利 | 国产香蕉av| 97精品视频 | 美女爱爱视频 | 俄罗斯一级片 | 精品久久一区 | 久久久网| 日本女人毛茸茸 | 日本黄色录像 | 色哟哟国产| 久久精品一区二区三区四区 | 国产绿帽刺激高潮对白 | 一区二区三区在线观看视频 | 久久毛片视频 | 欧美一级生活片 | 极品粉嫩小仙女高潮喷水久久 | 久久久久久国产精品三级玉女聊斋 | 丁香婷婷激情 | 国产99久久九九精品无码免费 | 污视频在线免费观看 | 亚洲一区亚洲二区 | 欧美性另类 | 久久动态图| 精品久久一区二区三区 | 亚洲第一成人网站 | 99亚洲欲妇| 国产又粗又猛又爽又黄 | 麻豆av电影| 日本在线一区 | 天天干天 | 婷婷九月| 国产在线视频一区 | 国产自偷自拍 | av片在线看| 97久久精品 | 欧美成人影片 | 亚洲精品91| 老熟女重囗味hdxx69 | 99人妻碰碰碰久久久久禁片 | 大地二资源在线观看高清国语版 | 国产精品美女高潮无套 | 五月婷婷丁香六月 | 性做久久久 | 一本大道东京热无码 | 中文字幕中文字幕一区 | 丰满少妇在线观看bd | 精品人妻一区二区三区含羞草 | 在线中文字幕网站 | 在线超碰 | 天天干夜夜撸 | 日韩天堂 | 激情六月婷婷 | 久在线视频 | 亚洲欧洲在线观看 | 一区二区三区日韩 | 青青草福利视频 | 淫刑训诫学校(sm)调教 | 暖暖爱免费观看高清在线遇见你 | 亚洲综合伊人 | 国产乡下妇女做爰 | 91av在线免费观看 | av片在线免费观看 | 在线观看视频 | 99久久99久久久精品棕色圆 | 亚洲成色| 亚洲一区av| 国产无遮挡又黄又爽免费网站 | 1024日韩| 欧美不卡一区二区三区 | 九九综合 | 天天做天天干 | 少妇福利视频 | 免费看片黄色 | 亚洲aⅴ| 国产综合av | 亚洲精品国产精品国自产观看浪潮 | 五月丁香 | 另类一区| 国产又黄又硬又粗 | 嫩草视频在线观看 | 又色又爽又黄gif动态图 | 中文字幕日韩电影 | 蜜桃视频网址 | 91一区二区三区 | 国产成人在线免费观看 | 99精品视频免费观看 | 影音先锋国产精品 | 欧美日韩亚洲综合 | 午夜黄色影院 | 久久久午夜 | 性爱免费视频 | 国产视频观看 | 日本视频一区二区三区 | 欧美成人一区二区 | 国产最新av | 成人免费在线观看 | 国产精品伦理 | 91在线无精精品一区二区 | 日日操日日干 | 中文字幕不卡 | 一区二区三区四区在线 | 色乱码一区二区三区在线男奴 | 精品一区二区免费视频 | 免费91视频| 麻豆做爰免费观看 | 天堂中文| 中文字幕专区 | 少妇肥臀大白屁股高清 | 日韩国产一区 | av资源在线| 亚洲熟伦熟女新五十路熟妇 | 日韩精品在线观看视频 | 亚洲欧洲视频 | 国产在线观看网站 | 不用播放器的av | 国产又黄又硬又粗 | 扩阴视频| 超碰九七 | 一本高清dvd在线播放 | 麻豆网站| 国产中文视频 | 一区二区在线观看视频 | 亚洲首页 | 亚洲AV无码国产精品 | 朝桐光在线播放 | 国产激情综合五月久久 | 亚洲av无一区二区三区久久 | 97精品 | 日韩av电影网 | 草莓视频成人app免费 | 九九热视频在线 | 体内精视频xxxxx | av黄色 | 天堂资源在线 | 91久久综合亚洲鲁鲁五月天 | 免费看v片| 精品久久久久久久久久久久 | 国产精品久久久久久久久久久久久久久 | 日本欧美国产 | 欧美高清69hd | 麻豆免费视频 | 精品视频网 | 四虎影成人精品a片 | 午夜黄色影院 | sm调教母狗 | 91中文| 伊人在线视频 | 日本一级做a爱片 | 日韩精品在线看 | 91精品国产日韩91久久久久久 | 男男做性免费视频网 | 少妇综合| 一区二区三区高清 | 免费黄色在线观看 | 狠狠干免费视频 | 国产精品无码久久久久 | 国产视频在线免费观看 | www 在线观看视频 | 国产一级黄色电影 | 欲求不满的岳中文字幕 | 天天做天天爱天天爽 | 中文字幕免费在线观看 | 三级少妇 | 国产高潮白浆 | 1024手机在线看片 | av自拍偷拍 | 激情伊人| 韩国三级在线播放 | 97视频| 国产黄色片在线观看 | 四虎在线观看视频 | 午夜网址 | 人人爽人人爱 | 欧美一级淫片bbb一84 | 日韩视频一区二区三区 | 欧美在线免费观看 | 好吊一区二区三区 | 秋霞视频在线观看 | 欧美日韩在线免费观看 | 午夜精品一区二区三区免费视频 | 亚洲一级二级 | 中文字幕在线播放 | 综合久久99 | 国产精品无码久久久久 | 日本美女视频 | 体内精69xxxxxx | 羞羞网站在线观看 | 蜜桃av一区二区三区 | 国产不卡视频 | 999精品视频| 成人精品三级av在线看 | 欧美成人免费视频 | 伊人超碰 | 超级砰砰砰97免费观看最新一期 | 日本熟妇乱子伦xxxx | 国产成人综合视频 | av资源站 | 中文字幕一区二区三区人妻电影 | 精品欧美一区二区三区久久久 | 久久久毛片 | 88av在线 | 精品视频久久久 | 手机看片久久 | 中文天堂网 | 诱惑の诱惑筱田优在线播放 | 99色视频| 国产午夜在线 | 国产精品97| 欧美成人一区二区 | 国产欧美日韩综合 | 亚洲精品一区二区三区不卡 | 免费网站观看www在线观看 | 四虎永久 | 国产午夜麻豆影院在线观看 | 久久国产精品电影 | 中文字幕视频一区 | 中文字幕乱码在线人视频 | 成人av在线看 | www.一区| 古装三级吃奶做爰 | 国产视频一区二区 | 精品在线免费视频 | 人人草人人干 | 午夜免费小视频 | 激情婷婷 | 免费视频国产 | 岛国一区二区 | 亚洲午夜久久 | 一区二区三区在线免费观看 | 在线播放亚洲 | 日本不卡视频 | 99re这里只有| 熟妇女人妻丰满少妇中文字幕 | 国产精品综合 | 亚洲看片 | 麻豆免费版 | 伊人网站 | 亚洲综合激情五月久久 | 久久久精品中文字幕麻豆发布 | 成人黄色电影在线观看 | 欧美三级网 | 国产日本在线 | 男女插插视频 | 狠狠干综合 | 午夜视频在线播放 | 欧美第三页 | 国产嫩草影院久久久久 | 欧美精品久久久久久久多人混战 | 亚洲 欧美 激情 小说 另类 | 黄色欧美大片 | 黄页在线观看 | 久久久久999 | 国产无套精品一区二区 | 丁香花免费高清完整在线播放 | 亚洲国产精品视频 | 九九热免费视频 | av一二三 | 久草视频网| 国内精品视频在线观看 | 日日摸日日添日日碰9学生露脸 | 成人av免费| 成人在线免费看 | 秋霞在线视频 | 私人午夜影院 | 国内精品久久久久久久 | 欧美做受高潮1 | 天堂在线中文字幕 | 亚色在线| 揉我啊嗯~喷水了h视频 | 日韩有码在线视频 | 在线免费观看黄 | www.一区二区三区 |