自等大模型爆火并加速融入工作与生活场景以来,其带来的效率提升有目共睹,但伴生的“幻觉”问题——即生成错误或虚构信息——也随之成为用户诟病的焦点,严重制约了其在专业、严谨领域的深入应用。如何在大模型“智力”蓬勃发展的同时,确保其输出的可靠性?
近日,在2025世界人工智能大会(WAIC)上,蚂蚁集团旗下蚂蚁密算给出了一个工程化解决方案:宣布开源高阶程序(High-Order Program, HOP)技术框架,旨在通过智能与工程的深度融合,构建大模型可信应用的新范式,为解决这一行业痛点提供了新的思路。
浙江大学教授、区块链与数据安全全国重点实验室主任陈纯表示,大模型的专业化应用,首当其冲的是可靠性问题。尽管当前最优模型的准确率已经达到80%-90%的水平,但其可靠性距离医疗、工业、金融等专业场景的要求仍有显著差距。陈纯说,有人将这一问题简单归结为“幻觉”,但我想强调:幻觉是智力的必然代价。若消除所有幻觉,大模型将退化为机械的检索工具。因此,可靠性的突破不在于消灭“智力特征”,而在于构建工程化保障框架。
蚂蚁集团副总裁、蚂蚁密算董事长韦韬认为,要突破大模型在专业化应用中的可靠性困境,技术上不应当只依赖于大模型“十全十美”不犯错,而是通过智能体系和工程体系的结合,实现专业应用可靠性的保障。正如每个人作为个体,是容易犯错、容易有幻觉的,但人类几千年以来不断在工程体系上的进步,能够在易错的个体之上构建庞大而可靠的工程体系,完成诸如登月、探访火星等巨型任务。他提出,通过全新的程序表达、场景知识嵌入和闭环核验反馈机制,可以将大模型不确定的智力输出转化为可信的专业生产力。
论坛上,蚂蚁集团旗下蚂蚁密算宣布对外开源高阶程序(High-Order Program)大模型可信应用技术框架,探索智能与工程融合的AI应用新范式,致力解决大模型在专业应用中的可靠性困境,推动大模型在专业领域中规模化应用。
记者了解到,该大模型的核心组件包括业务逻辑的程序化表达、场景知识图谱和受控工具链,在全流程中贯穿核验机制,对关键执行结果进行及时、有效地核验和处理。该框架借鉴了人类在工程管理体系中的成功经验,如通过标准作业程序(SOP)和检查清单等机制,构建一个能够有效复用、验证、扩展和派生的机制,使大模型在应用过程中即使出现幻觉问题,也能保证大模型达到专业领域所需的精确性和可靠性。
韦韬表示,高阶程序可以与大模型强互补,将大模型这样的通用智力引擎,可靠地应用于众多专业场景。“大模型可靠性的解法,不在于大模型本身,而在于工程化和智能化的融合。我们开源高阶程序HOP,希望与行业一起把大模型从人类助手正在变成规模化专业生产力。”