技術

                      賽事評獎|“中文保險小樣本多任務競賽”知識工場團隊方案——2022AIWIN(春季)世界人工智能創新大賽優秀方案分享系列

                      2025China.cn   2022年08月08日

                      賽事評獎

                        賽事評獎是世界人工智能大會(WAIC)“會、展、賽、用”四大板塊之一,由世界人工智能大會組委會主辦,上海市人工智能行業協會作為唯一組織、服務、支撐和管理單位。

                        WAIC 2022現有品牌賽事包括:AIWIN世界人工智能創新大賽,BPAA全球算法最佳實踐典范大賽,黑客馬拉松和團市委青少年人工智能創新大賽。根據世界人工智能大會SAIL獎的推薦規則和資格要求,品牌賽事承辦方將有機會推薦本賽事中的優秀項目參與SAIL獎評選。

                        2022年AIWIN世界人工智能創新大賽春季賽與太平洋保險、國泰君安、SMG技術中心(上海東方傳媒技術有限公司)三家出題方聯合舉辦了中文保險小樣本多任務競賽、發債企業的違約風險預警競賽、文本語音驅動數字人表情口型競賽三場AI算法技術賽事。目前中文保險小樣本多任務競賽、發債企業的違約風險預警競賽已完成競賽,為了讓小伙伴們更好地通過賽事交流學習,在7-8月之間每周二,我們將陸續邀請優秀的賽事團隊分享賽事方案,大家敬請期待。

                        今天分享的是“中文保險小樣本多任務競賽”知識工廠團隊的方案,他們獲得本賽題的第6名。

                      1.團隊簡介

                        陸軒韜

                        復旦大學 軟件工程 碩士研究生二年級 @知識工場實驗室

                        本科畢業于 華東師范大學 計算機科學與技術

                        字節跳動 AI-LAB NLP算法工程師(實習)

                        曾多次在國內外自然語言處理競賽中獲得top名次與獎項

                        過往獲獎情況:

                        ? 2022 Kaggle - Feedback Prize - Evaluating Student Writing 銀牌

                        ? 2022 山東省第三屆數據應用創新創業大賽 - 網格事件智能分類 亞軍

                        ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-非標準化疾病訴求的簡單分診挑戰賽 冠軍

                        ? 2021 CCKS 華為-面向通信領域的事件共指消解任務 亞軍

                        ? 2021 iFLYTEK 科大訊飛AI 開發者大賽-試題標簽預測挑戰賽 季軍

                        ? 2021 DIGIX 華為全球校園AI 算法精英大賽-基于多模型遷移預訓練文章質量判別 季軍

                      2.賽題理解與問題建模

                        賽題理解:

                        本次賽題目標為探索統一范式的多任務小樣本學習。

                        多任務:

                        賽題覆蓋了保險真實業務場景中常見的保險領域、醫療領域和金融領域,包括文本分類、文本相似度、自然語言推斷、命名實體識別和機器閱讀理解等五大基礎自然語言理解任務,具體為18個保險業務場景中的常見任務。

                        小樣本:

                        為了還原真實業務場景中大規模高質量標注數據積累困難的情況,訓練集從18個任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,分A/B榜測試。

                        問題建模:

                        由于預訓練語言模型在NLP領域中大放異彩,因此是本次比賽中不可或缺的一部分。

                        具體地,有以下兩類方案:

                        1.使用NLU類型的預訓練語言模型。由于本次賽題的任務都屬于NLU范疇,因此可以使用諸如BERT之類的NLU模型進行建模。

                        2.使用NLG類型的預訓練語言模型(諸如T5,BART),將所有的任務都轉換為序列生成任務,也是baseline中的做法。

                        由于部分任務只在測試集中出現而沒有相應的訓練樣本,如果使用BERT等NLU模型無法有效處理這部分任務,因此我采用第二種方案。

                      3.數據探索與特征工程

                        模型結構:

                        訓練集從18個自然語言處理任務中選取了14個作為訓練集任務,每個任務提供20條標注樣本,共計280條標注樣本。

                        測試集從18個任務中選取了14個作為測試集任務,每個任務提供400條測試樣本,A/B榜各200條。

                        此外,主辦方還提供70個開源數據集,每個數據集從原始數據中采樣約500條(共計70*500條數據),構建了opensource_sample_500.json,用于輔助統一模型訓練。

                        數據增強:

                        擾動verbalizer在instruction中的出現順序。通過該方法可以利用一條數據生成多條數據。

                        該數據增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。

                      4.模型訓練

                        模型選擇(方案一)

                        BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

                        模型選擇(方案二)

                        CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation

                        模型選擇(方案三)

                        mT5: A massively multilingual pre-trained text-to-text transformer

                        不同模型在opensource驗證集上的表現

                        mt5-large > cpt-large > bart-large

                        因此模型最終選擇方案三

                        即int8量化的單模單折mt5-large模型

                      5.Tricks

                        1.在數據增強部分有提到:該增強方法可同時應用于opensource訓練數據,instruction訓練數據,以及instruction測試數據。實驗發現對于opensource訓練數據和instruction訓練數據的增強并不會帶來收益,因此只對instruction測試數據進行了增強。

                        2.Constrained decoding:分析bad case的時候,發現有部分生成的結果未出現在verbalizer(即候選項中),可以通過constrained decoding強制輸出中出現verbalizer 中的token。然而這類bad case并不多,會影響萬分位。

                        Ximing Lu, et al. [2021] NEUROLOGIC A*esque Decoding: Constrained Text Generation with Lookahead Heuristics.

                      6.實驗結果

                        A榜主要實驗結果

                      7.總結

                        1.量化過的大模型相較于同量級的小模型,通常能夠取得更好的結果,并擁有更快的推理速度。

                        2.Inference Ensemble(數據增強)能夠在只使用單一模型的情況下,同樣達到良好的集成效果。

                        3.Constrained decoding:學術界的熱點問題之一,比賽中這類bad case并不多,所以效果不明顯,但是仍不失為是一個很有前景的方法。

                        4.小樣本場景下,引入額外的外部數據能夠有效地幫助模型達到一個更好的初始狀態。

                      想一起交流學習的小伙伴

                      可掃碼加入“AIWIN算法競賽俱樂部”

                      掃碼完成云觀眾預注冊

                      (來源:世界人工智能大會)

                      標簽:世界人工智能大會 我要反饋 
                      2022年華南展
                      進博會
                      西克
                      專題報道
                      【產品推薦】菲尼克斯電氣數據連接器
                      【產品推薦】菲尼克斯電氣數據連接器

                      隨著設備的數字化、智能化的快速發展,工業領域對數據連接器的需求越來越多樣化。同時,因工業環境應用的復雜性,對傳輸速率,接

                      可持續篇第二期:“運籌帷幄 數領未來” ABB新一代智能低壓開關柜NeoGear
                      可持續篇第二期:“運籌帷幄 數領未來” ABB新一代智能低壓開關柜NeoGear

                      世界領先的配電系統解決方案提供商ABB公司于2019年10月18日,發布了一款革命性創新產品NeoGear低壓開關柜,N

                      賦能實現碳中和,共行創新低碳之路
                      賦能實現碳中和,共行創新低碳之路

                      ABB作為全球電氣與自動化領域的技術領導者, 致力于推動行業數字化轉型升級,運用技術專長和行業經驗,與合作伙伴一起挖掘數

                      使劲别停好大好深好爽