栏目分类
你的位置:开云·kaiyun(中国)体育官方网站 登录入口 > 新闻动态 > 欧洲杯体育奏效晋升了 LLM 在文天职类任务中的准确性和效用-开云·kaiyun(中国)体育官方网站 登录入口
发布日期:2025-06-05 22:49 点击次数:108
Scaling Law 不仅在放缓,而且不一定老是适用!
尤其在文天职类任务中,扩大教练集的数据量可能会带来更严重的数据毁坏和数据冗余。
淌若类别边界不够明晰,数据毁坏开心就更昭彰了。
而文天职类又在情谊分析、识别用户意图等任务中极为蹙迫,继而对 AI Agent 的性能也有很大影响。
最近,vivo AI Lab 接洽团队提议了一种数据质料晋升(DQE)的圭表,奏效晋升了 LLM 在文天职类任务中的准确性和效用。
现实中,DQE 圭表以更少的数据获取更高的准确率,况且只用了近一半的数据量,就能灵验晋升教练集的教练效用。
作家还对全量数据微调的模子和 DQE 遴荐的数据微调的模子在测试集上的截止进行了权贵性分析。
截止发现 DQE 遴荐的数据在大精深测试集上齐比全量数据发扬出权贵的性能晋升。
咫尺,此项截止已被当然话语处理顶会 COLING 2025 主会给与。
数据质料晋升圭表长啥样?
在当然话语处理中,文天职类是一项超过蹙迫的任务,比如情谊分析、意图识别等,尤其当今企业齐在推出各自的 AI Agent,其中最蹙迫的圭表之一,就是识别用户的意图。
不同于传统的 BERT 模子,基于自讲求的诳言语模子的输出经常是弗成控的,而分类任务对输出的时局条款较高。
通过在教唆词中加入 few-shot 不错灵验地改善这一开心,但是基于教唆词的圭表带来的晋升经常有限。指示微调不错灵验地改善模子的性能。
在文天职类任务中,枯竭一种灵验的技术来获取高质料的数据集。OpenAI 提议了缩放定律(Scaling Law),合计诳言语模子的最终性能主要取决于三个成分的缩放:计较才调、模子参数和教练数据量。
但是这一定律并不老是适用,尤其在文天职类任务中,扩大教练集的数据量会可能会带来愈加严重的数据毁坏开心和数据冗余问题。尤其类别的边界不够明晰的时分,数据毁坏的开心愈加昭彰。
底下是 vivo AI Lab 团队提议的数据质料晋升(DQE)圭表的具体圭表联想。
率先,作家对教练集进行了初步的数据清洗责任,包含处理具有缺失值的数据、query 和标签类似的数据以及标签不一致数据(吞并条 query 对应多个不同的标签)。
然后,使用文本镶嵌模子,将文本和洽为语义向量。再通过贪心采样的圭表,迅速驱动化一条数据算作驱动向量,然后每次遴荐距离向量中心最远的数据加入到新的荟萃中,以晋升数据的各类性。
接着,更新这个荟萃的向量中心,不停的类似这个流程,直到网罗了 50% 的数据算作 sampled,剩下未被选中的 50% 的数据集算作 unsampled,然后使用 sampled 数据集微调诳言语模子讨论 unsampled。
通过麇集向量检索的情势,将 unsampled 中讨论截止特别的数据分为 Uncovered、Difficult 和 Noisy 三种类型。
底下是三种类型的数据的识别旨趣:
Uncovered:主要指 sampled 中未阴私的数据,如果讨论特别的数据与最相通的数据具有洽商的标签,况且最相通的数据位于 unsampled 中,则合计该数据关联的特征可能莫得参与 sampled 模子的微调,从而导致 unsampled 中的该条讨论截止特别。
Difficult:主要指 sampled 中难以学会的繁难样本,如果讨论特别的数据与最相通的数据具有洽商的标签,况且最相通的数据位于 sampled,则合计该数据关联的特征依然在 sampled 中参与过模子的微调,讨论特别可能是因为这条数据很难学会。
Noisy:主淌若标签不一致导致的噪声数据,如果讨论特别的数据与最相通的数据具有不同的标签。则怀疑这两条数据是噪声数据。大精深文天职类任务的数据集齐是共同手工标注未必模子标注获取,齐可能存在一定的主不雅性,尤其在类别边界不明晰的时分,标注特别的开心无法幸免。这种情况下,作家通过教唆词,使用 GPT-4o 进一步接济判断。
效果若何?
作家基于多机多卡的 L40s 事业器上通过 swift 框架进行了全参数微调,遴荐开源的 Qwen2.5-7B-Instruct 模子算作本次现实的基础模子。
作家与 PaperWithCode 中收录的最佳的截止以及全量数据微调的圭表进行了对比,作家分别在 MR、CR、IMDb、SST-2、SST-5、AG News 数据荟萃进行了对比现实。
从现实截止不错看出,DQE 圭表以更少的数据获取更高的准确率,况且只用了近乎一半的数据量,不错灵验地晋升教练集的教练效用。
同期,作家页进一步对全量数据微调的模子和 DQE 遴荐的数据微调的模子在测试集上的截止进行了权贵性分析。将讨论截止正确的数据赋值为 1,将讨论截止特别的数据赋值为 0,通过 t 磨真金不怕火来评估模子之间性能互异的统计权贵性。
从表中不错发现DQE 遴荐的数据在大精深测试集上齐比全量数据发扬出权贵的性能晋升。
与传统的 BERT 模子不同的是,生成式的模子经常是弗成控的,作家进一步分析了指示奴婢截止。
截止标明,不论是全量数据微调照旧 DQE 圭表微调,齐不错灵验地晋升诳言语模子的指示奴婢才调,按照预期的截止和时局输出。
对于分类任务来讲,当数据量鼓胀大时,很难幸免标签噪声开心。即等于被各大顶级学术期刊会通议平庸使用的数据集,也无法幸免标签噪声开心。
作家分析了一部分通过现实找出的噪声数据,况且给出了开源数据荟萃的标签噪声的示例。
值得属主见是,在数据采样流程中,本接洽使用贪默算法将数据集阔别为 sampled 和 unsampled。此外,作家凭证文本相通度将 unsampled 分类为 uncovered、difficult 和 noisy 数据。
接下来,分析 sampled 中的这三种类型:
由于该数据将用于最终的教练集,因此它不包含 uncovered。
对于 difficult,昔时自 unsampled 中识别为 difficult 的样本会加入到最终的教练集,这 uncovered 中的 difficult 和 sampled 是成对存在的,从而部分消弱了采样数据中的 difficult 问题。
对于 noisy 数据,使用 DQE 不错在 sampled 和 unsampled 之间识别出大精深成对的噪声实例。
由于使用 sampled 贪心采样战略,在 sampled 内遭受成对的相通噪声数据的概率会相对较低。从表面上显露了本有盘算的灵验性。
论文地址:https://arxiv.org/abs/2412.06575
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本体
附上论文 / 神色主页通顺,以及关联情势哦
咱们会(尽量)实时复兴你
点这里� � 顾问我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再见 ~
Powered by 开云·kaiyun(中国)体育官方网站 登录入口 @2013-2022 RSS地图 HTML地图
Powered by站群