语言选择: 中文版line 英文版

新闻中心

浙江大学实现AI代办署理评测新框架

  这项由浙江大学张晟宇传授带领的研究团队颁发于2025年10月的预印本论文,细致阐述了一个名为Graph2Eval的立异评测框架。该研究的焦点贡献正在于初次提出了基于学问图谱的从动化多模态使命生成方式,为AI代办署理(智能帮手)的评估斥地了全新道路。有乐趣深切领会的读者能够通过论文编号arXiv!2510。00507v1查询完整论文内容。设想如许一个场景:当我们想要测试一个新聘请员工的工做能力时,保守的做法是给他们一套固定的试题。可是,若是这个员工事先背过了所有的谜底,我们还能实正领会他们的能力吗?同样的问题也搅扰着AI代办署理的评估范畴。现有的评测数据集就像那些固定的试题一样,AI系统可能正在锻炼过程中曾经见过这些标题问题,因而正在测试中表示超卓并不代表它们具备实正的智能程度。研究团队认识到这个问题的严沉性。他们发觉,当前的AI代办署理评估就像用统一张考卷频频测试学生一样——学生最终可能会背下所有谜底,正在测验中得高分,但现实处理新问题的能力却没有获得实正的查验。更主要的是,现实世界中的AI代办署理需要处置各类动态变化的环境,而不是应对早已见过的固定场景。为领会决这个底子性问题,研究团队开辟了Graph2Eval框架。这个框架的焦点很是巧妙:让AI系统基于学问图谱从动生成新的测试使命,就像一个永久不会反复出题的智能考官。学问图谱能够理解为一个庞大的学问收集,此中包含了各类实体(好比人物、地址、概念)以及它们之间的关系。通过这个学问收集,系统可以或许不竭创制出全新的、具有挑和性的测试场景。这种方式的性正在于它完全改变了评测的范式。保守评测就像利用固定的食谱做菜,而Graph2Eval则像一个创意厨师,可以或许按照现有的食材(学问图谱中的消息)不竭创制出新的菜品(测试使命)。每次生成的使命都是奇特的,确保AI代办署理不成能提前背谜底,从而实正它们的现实能力。研究团队出格强调了多模态和多场景的主要性。正在现实使用中,AI代办署理需要同时处置文字、图片、网页等多品种型的消息,还要可以或许正在分歧的中施行复杂的交互操做。因而,Graph2Eval不只能生成文档理解类的使命,还能建立需要正在实正在网页中进行多步调操做的交互使命。这就像测验不只要测试理论学问,还要调查现实操做能力一样。基于这个框架,研究团队建立了Graph2Eval-Bench数据集,包含了1319个从动生成的使命。这些使命涵盖了从简单的消息提取到复杂的多步推理等各个层面,为全面评估AI代办署理的能力供给了丰硕的测试场景。学问图谱正在Graph2Eval框架中饰演着焦点脚色,就像一个包含无限学问的大型藏书楼。不外,这个藏书楼的出格之处正在于,所有的册本、章节、段落之间都通过各类关系线索毗连起来,构成了一个复杂而有序的学问收集。正在建立这个学问图谱的过程中,研究团队采用了一套细密的数据处置流程。起首,他们需要对各类来历的文档进行深度解析,这个过程就像一个细心的图书办理员,不只要理解每本书的内容,还要记实下每个章节的、每张图表的申明、以至每个题目的层级关系。这种精细化的处置确保了学问图谱可以或许精确反映原始消息的布局和语义。对于网页数据的处置愈加复杂。研究团队开辟了从动化的网页爬取系统,这个系统就像一个永久孜孜不倦的研究帮手,可以或许从动拜候各类网坐,提取页面布局消息,并将交互元素(如按钮、表单、链接等)转换为图谱中的节点和边。为了确保数据质量,系统还集成了多层过滤机制,就像质量查抄员一样,可以或许从动识别息争除低质量或无效的网页内容。学问图谱的节点设想出格巧妙。每个节点不只包含文本内容,还融合了视觉消息的描述。好比,当碰到一张图片时,系统会从动生成该图片的文字描述,然后将这些描述取图片的题目、说字等归并,构成一个完整的节点暗示。这种多模态融合的体例确保了即便是复杂的视觉内容也能被精确地编码到学问图谱中。边的设想同样细密。正在文档场景中,边可能暗示段落之间的逻辑关系、图表取注释的联系关系关系、或者分歧章节之间的援用关系。正在网页场景中,边则次要暗示页面之间的关系、元素之间的交互关系等。这些边就像道路收集中的各类道路一样,为后续的使命生成供给了丰硕的路径选择。为了提高检索效率,研究团队还为每个节点生成了高质量的向量暗示。这些向量就像每个节点的身份证,可以或许快速精确地找到语义相关的内容。通过这种体例,系统可以或许正在复杂的学问图谱中快速定位到取特定使命方针相关的消息。子图采样是Graph2Eval框架中的环节手艺环节,就像从一个复杂的拼图中切确选出完成特定图案所需的拼图块。这个过程的巧妙之处正在于,它可以或许按照分歧的使命需求,从学问图谱中提取出最相关、最有价值的消息片段。正在文档理解场景中,采样策略次要基于语义相关性和布局连贯性。系统起首阐发使命方针,然后正在学问图谱中寻找语义最婚配的节点做为起点。接着,系统会沿着图谱中的边进行扩展,逐渐收集相关的上下文消息。这个过程就像侦探破案一样,先找到焦点线索,然后顺藤摸瓜地收集相关。值得留意的是,系统正在采样过程中会考虑多种要素。除了语义类似度,还会考虑布局婚配度、节点类型的适配性等。好比,若是使命需要比力两个概念,系统会确保采样的子图中包含脚够的对比消息;若是使命涉及多步推理,系统会选择那些具有逻辑链条关系的节点组合。网页交互场景的采样策略则完全分歧,采用的是种子驱动的方式。系统起首识别页面中的环节操做元素(如搜刮框、按钮、表单等)做为使命种子,然后以这些种子为核心,收集它们的临近节点。这种方式确保了生成的使命一直基于实正在可施行的交互操做,就像确保每道菜谱都利用厨房里现实存正在的食材一样。为了节制使命的复杂度和难度,采样系统还实现了矫捷的参数调理机制。通过调整子图的大小、边的类型、节点的数量等参数,系统可以或许生成从简单到复杂的各类难度条理的使命。这就像调理逛戏难度一样,可认为分歧程度的AI代办署理供给合适的挑和。使命模板是Graph2Eval框架的智能焦点,就像一个经验丰硕的出题专家的思维模式。这些模板定义了各品种型使命的根基布局和要求,为从动化使命生成供给了尺度化的框架。研究团队设想了12种分歧类型的文档理解使命模板,涵盖了从根本的消息提取到高级的推理阐发等各个认知条理。每个模板都像一个细心设想的食谱,细致了需要哪些原料(节点类型)、若何烹调(处置体例)、以及最终菜品该当是什么样子(使命格局)。好比,比力阐发类的模板会要求子图中包含至多两个可比力的实体,以及它们之间的关系消息。模板还会指定问题的提问体例、谜底的期望格局、评估的尺度等。这种细致的规范确保了生成的使命具有分歧的质量和可评估性。使命模板的另一个主要特征是其可扩展性。研究团队采用了Jinja2模板引擎,这使得模板可以或许矫捷地顺应分歧的内容和场景。就像利用可调理的模具一样,统一个模板能够按照输入的子图内容生成千变万化的具体使命。对于网页交互使命,研究团队开辟了基于元路径的模板系统。元路径就像预定义的步履序列模式,好比搜刮-筛选-查看详情或登录-浏览-采办等。系统可以或许按照页面的现实功能和可用操做,从动婚配合适的元路径模式,然后生成响应的交互使命。模板系统还考虑了使命的教育价值和适用性。每个模板城市指定使命所调查的焦点能力,如消息检索能力、逻辑推理能力、多模态理解能力等。这种设想确保了生成的使命不只具有挑和性,还能无效地评估AI代办署理的特定能力维度。使命生成是整个框架的焦点环节,这个过程就像一个创意做家按照纲领创做出具体故事的过程。系统需要将笼统的模板和布局化的子图消息转换为具体可施行的使命实例。正在文档理解使命的生成过程中,系统起首会按照选定的模板和采样获得的子图,提取出所需的变量消息。这些变量就像故事中的脚色和情节要素,包罗实体名称、关系描述、上下文消息等。然后,系统利用狂言语模子将这些布局化消息转换为天然言语形式的使命描述和尺度谜底。这个转换过程的巧妙之处正在于它可以或许连结使命的多样性和天然性。即便基于不异的模板和类似的子图布局,系统也能生成表达体例分歧、侧沉点各别的使命实例。这就像同样的食材正在分歧厨师手中可以或许做出风味各别的菜品一样。网页交互使命的生成愈加复杂,由于它需要考虑实正在网页的动态性和交互性。系统会按照种子元素和元路径模式,生成一系列具体的操做步调。好比,若是元路径是搜刮-筛选-查看,系统会指定具体搜刮什么环节词、利用哪些筛选前提、查看哪些具体消息等。为了确保使命的可施行性,系统还会进行多层验证。起首查抄所有涉及的页面元素能否实正在存正在且可操做,然后验证使命步调的逻辑合,最初评估使命的完成难度能否适中。这种多沉保障机制确保了每个生成的使命都是成心义且可完成的。使命生成过程还融入了上下文工程手艺。系统会按照使命的具体要乞降方针受众,调整言语气概、难度程度、以及问题的表述体例。这种个性化的调整使得统一个底层布局可以或许顺应分歧的评估需乞降使用场景。质量优化是Graph2Eval框架的主要保障机制,就像食物出产线上的质量查验员,确保每个输出的使命都达到预期的尺度。这个多阶段的优化流程涵盖了使命质量、多样性、新鲜性等多个维度。正在质量评估阶段,系统采用了基于法则和基于LLM的双沉评分机制。法则根本的评估次要查抄使命的格局完整性、逻辑分歧性、以及根基的可施行性。好比,对于需要多步操做的网页使命,系统会验证每个步调涉及的页面元素能否存正在,操做序列能否合理等。LLM评分则愈加智能化,可以或许评估使命的言语质量、难度适宜性、以及内容的教育价值。这就像请一位经验丰硕的教师来审核考题一样,还要评估标题问题能否具有优良的区分度和讲授意义。多样性保障是优化过程的另一个沉点。系统通过度析使命的各个维度(如节点类型、边类型、使命模式、页面类型、网坐类型、难度品级等),确保生成的使命调集具有充实的笼盖性。这种方式就像确保测验标题问题笼盖所有学问点一样,避免了评估的盲区。新鲜性检测机制防止了使命的反复和类似。系统利用多条理的类似度阐发,包罗布局类似度、语义类似度、以及施行步调类似度等。当发觉重生成的使命取已有使命过于类似时,系统会从动调整或从头生成,确保使命调集的奇特征。为了均衡质量、笼盖性和新鲜性,系统采用了基于MMR(最大边际相关性)的迭代选择策略。这种策略就像正在选择代表队时既要考虑小我能力,又要考虑团队共同一样,确保最终的使命调集正在各个方面都达到最优均衡。Graph2Eval框架不只能生成多样化的使命,还供给了全面的评估系统,就像一个全科大夫可以或许从多个角度查抄患者的健康情况。这个评估系统涵盖了单代办署理、多代办署理、以及网页代办署理等分歧类型的AI系统。正在文档理解使命的评估中,系统采用了三种互补的评估目标。F1分数和ROUGE-L分数供给了基于法则的切确评估,就像用尺度谜底比对学生谜底一样,可以或许量化地权衡谜底的精确性和完整性。而LLM-as-a-Judge评估则愈加智能化,可以或许理解谜底的语义内容,评估其质量、相关性和完整性,即便表达体例取尺度谜底分歧,也能给出的评分。对于网页交互使命,评估次要基于使命完成的成功率。因为网页的复杂性和动态性,保守的基于形态查抄的评估方式往往不敷靠得住。因而,系统采用LLM评估器来阐发代办署理的施行轨迹、分析判断使命能否成功完成。多代办署理评估是框架的一个立异特色。系统建立了包含规划器、检索器、推理器、验证器和总结器等分歧脚色的多代办署理架构。每个代办署理都有特地的职责,它们通过尺度化的动静和谈进行协做。这种设想可以或许评估AI系统正在复杂使命分化、协做共同、以及集体决策等方面的能力。网页代办署理的评估出格关心多模态处置和交互施行能力。SoM(Set-of-Mark)代办署理通过视觉标识表记标帜系统实现切确的页面元素定位,而Agent S 2。5则集成了反思机制和回忆办理,可以或许从施行过程中进修和改良。这些分歧的代办署理架构为评估AI系统的分歧手艺路线供给了有价值的对比基准。研究团队基于Graph2Eval框架建立了包含1319个使命的Graph2Eval-Bench数据集,并进行了全面的尝试验证。这些尝试就像一场大规模的AI能力测试,涵盖了当前支流的各类模子和代办署理系统。正在文档理解使命上,尝试测试了GPT-4o、GPT-4。1-mini、Qwen2。5-VL系列、以及Deepseek-V3等多个模子。成果显示,分歧模子正在各类使命上的表示存正在显著差别。GPT-4o正在F1和ROUGE-L目标上表示最佳,而Deepseek-V3正在LLM评估中获得了最高分数。这种差同性刚好证了然框架的无效性——它可以或许清晰地域分分歧系统的能力程度。出格风趣的是,尝试发觉多代办署理协做并没有显著提拔文档理解使命的机能,有时以至略有下降。这个成果表白,对于基于检索加强生成的理解使命,简单的代办署理协做可能不如预期无效。这种发觉对于AI系统的设想具有主要的指点意义。正在网页交互使命的测试中,Agent S 2。5较着优于SoM Agent。正在最佳设置装备摆设下,Agent S 2。5的成功率达到69。20%,而SoM Agent仅为14。51%。这个庞大的机能差距凸起了反思机制和回忆办理正在复杂交互使命中的主要性。使命生成效率的测试成果也令人印象深刻。系统平均只需34。87秒就能生成一个文档理解使命,95。51秒生成一个网页交互使命。取保守的人工标注体例比拟,这种从动化方式的效率劣势是庞大的。尝试还验证了使命的质量和多样性。生成的使命正在难度分布、类型笼盖、以及内容丰硕性等方面都表示出优良的特征。更主要的是,这些从动生成的使命确实可以或许无效区分分歧AI系统的能力,证了然框架的适用价值。Graph2Eval框架正在多个手艺层面实现了主要立异。起首,这是第一个基于学问图谱的从动化代办署理使命生成框架,开创了新的评估范式。保守的评估方式依赖于固定的数据集,而这个框架可以或许持续生成新的测试场景,实正实现了动态评估。框架的多模态支撑是另一个主要立异。它不只能处置纯文本使命,还能生成涉及图像、表格、网页等复杂多模态内容的评估使命。这种能力对于评估现代AI系统的分析能力至关主要,由于现实使用中的AI往往需要处置多品种型的消息。正在网页交互使命生成方面,框架实现了从静态页面阐发到动态使命建立的冲破。系统可以或许理解网页的功能布局,从动识别可操做元素,并基于实正在的交互可能性生成使命。这种能力使得AI代办署理的评估愈加切近现实使用场景。框架的可扩展性设想也值得关心。模块化的架构使得系统可以或许轻松顺应新的使命类型、新的评估目标、以及新的代办署理架构。这种矫捷性确保了框架可以或许跟着AI手艺的成长而不竭演进。从使用前景来看,Graph2Eval框架无望正在多个范畴阐扬主要感化。正在AI研发范畴,它可以或许为模子锻炼和优化供给持续的评估反馈。正在产物开辟中,它可以或许帮帮企业快速评估AI代办署理的现实机能。正在学术研究中,它为比力分歧手艺方案供给了尺度化的测试平台。研究团队还瞻望了框架的将来成长标的目的。一方面,他们打算集成平安策略生成功能,用于评估AI代办署理正在复杂动态中的平安性和鲁棒性。另一方面,他们但愿操纵学问图谱的布局特征实现错误归因阐发,帮帮开辟者切确定位AI系统正在言语理解、推理和使命施行等方面的具体弱点。说到底,Graph2Eval框架代表了AI评估范畴的一次主要paradigm shift。它从底子上改变了我们评估AI能力的体例,从依赖固定测试集转向动态使命生成,从单一维度评估转向度分析调查。这种变化不只提高了评估的精确性和公允性,也为AI手艺的持续成长供给了更无力的支持。跟着AI代办署理正在各行各业的普遍使用,我们需要愈加靠得住和全面的评估东西来确保这些系统的质量和平安性。Graph2Eval框架恰是朝这个标的目的迈出的主要一步,它不只处理了当前评估中的环节问题,也为将来愈加智能和自顺应的评估系统奠基了根本。对于通俗用户而言,这项研究的意义正在于它将帮帮开辟出愈加靠得住、愈加智能的AI帮手。通过更精准的能力评估,我们可以或许更好地领会AI系统的劣势和局限,从而正在现实使用中做出更明智的选择和更合理的期望。A:Graph2Eval是浙江大学开辟的AI代办署理从动化评测框架,它基于学问图谱从动生成测试使命。该框架处理了保守AI评估中的焦点问题:现有测试数据集固定不变,AI系统可能正在锻炼中见过这些标题问题,导致评估成果不克不及实正在反映其现实能力。A:保守评测利用固定的标题问题调集,而Graph2Eval能持续生成全新的、从未呈现过的测试使命。它不只支撑文档理解使命,还能建立需要正在实正在网页中进行多步交互的复杂使命,更切近AI代办署理的现实使用场景。A:目前Graph2Eval次要面向AI研究人员和开辟者。但它的价值正在于能帮帮开辟出更靠得住的AI帮手产物。通过更精准的能力评估,将来的AI系统将愈加智能靠得住,通俗用户正在利用AI帮手时将获得更好的体验和更精确的办事。




栏目导航

联系我们

CONTACT US

联系人:郭经理

手机:18132326655

电话:0310-6566620

邮箱:441520902@qq.com

地址: 河北省邯郸市大名府路京府工业城