幻觉率直降40%,中国电信千亿参数「星辰大模型」炸场,业界首提缓解多轮幻觉解决方案
发布时间:2023-11-15 浏览量:181
经历了2023年「百模大战」的洗礼,不管是国内还是海外,不管是开源还是闭源,各家大模型都从追赶和超越中获得了实质的进步。
在语言、语音、视觉领域,大模型已经获得了强大的生成能力,不仅能在几秒钟之内生成非常合理的内容,甚至可以媲美拥有多年技能和知识储备的专家。这些进展似乎为「大模型超越人类智能」的说法提供了令人信服的证据,也具象化了大模型规模化落地的前景。
按照目前的进展情况,2024年很可能会成为大模型部署元年。但同样需要注意的是,大模型在技术上仍然存在一些关键缺陷,这或许会导致应用之路并不一定如想象中顺利。
业界对此的担忧包括但不限于以下几点:
第一,幻觉仍是大模型难以克服的问题,这关乎生成内容的可靠性。比如模型会笃定地说出错误的答案,对于金融、法律等专业度要求较高的领域来说,这会导致大模型难以胜任实际场景中的任务。
第二,大模型的推理能力仍有不足,面对一些复杂的数学和逻辑推理任务,大模型的回答正确率普遍不高。
第三,大模型需要增强对长上下文的理解能力,这也决定了大模型在很多领域能否落地。在下半年,我们看到很多大模型公司已经将上下文窗口扩展到了100k Token 以上。那么,这个窗口是不是越长越好?是否真能增加模型的理解能力?上下文窗口长度又会如何影响模型训练、部署的方式?
这引发了人们的种种疑问。如果希望在2024年实现大模型规模化落地,仍需先探索出这些问题的结论。
在近日举办的2023年数字科技生态大会人工智能与数据产业发展合作论坛论坛上,我们见到了中国电信星辰系列大模型的最新升级,以及针对上述问题所提出的一系列技术创新。
其中,星辰语义大模型正式发布了千亿参数版本,在推理和回答准确性方面都有显著提升,并将上下文窗口提到了96K Token。特别是,中国电信首次提出了缓解多轮幻觉的解决方案,使得大模型的幻觉率降低了40%。
与此同时,中国电信还宣布将加入到开源开放的行列中,预计今年年底开源百亿级别的大模型,明年4月则会开源千亿级别的大模型,旨在让更多研究者和开发者从中受益。此外,中国电信还将根据星辰大模型构建各种工具链,以满足不同用户的需求。
「幻觉率」降低40%,星辰语义大模型是如何做到的?
大模型的幻觉问题,是学界和业界都非常关心的问题,也是其落地应用面临的最难挑战之一。
在千亿参数大模型发布之前,星辰语义大模型已经具备了多版本稳定可用的大模型基座,覆盖3B、7B、12B 和130B 等参数量级。
在目前的大模型领域,百亿参数是一种非常主流的选择,这也是各家公司基于推理成本等因素的选择。至于为什么选择升级打造千亿参数版本的星辰语义大模型,何忠江也解释了背后的思考。
我们都知道,大模型的底层架构是「预测下一个 token」,导致其容易产生「幻觉」,给出事实上不正确的陈述。何忠江认为,从另外一个角度看,这恰恰反映了大模型像人一样,是因为并没有真正理解问题,才会回答出风马牛不相及的内容。解决办法可以是加强数据溯源,也可以是增加参数量,这些都能让大模型学到更多的东西,并真正地理解一个事物,而不是「胡说八道」。
让人最为关注的是,中国电信千亿参数星辰语义大模型在业界首次提出了缓解多轮幻觉的解决方案,将模型幻觉率降低了40%。这一方案包括四项关键技术:
关键信息注意力增强技术:通过对关键信息进行注意力增强,可以提升模型理解能力和答案回复一致性的能力,较大程度缓解模型幻觉问题;
知识图谱强化:通过知识图谱确保训练数据集知识事实性,并通过知识图谱知识提示能力辅助模型知识问答能力提升,大幅降低模型幻觉,提高通用问答准确率。
多轮知识记忆和强化技术:通过采用更优模型知识记忆方案,以及关联信息的强化训练方案,增强了模型上下文记忆能力和关联知识理解能力,增强了上下文回复一致性,降低了模型幻觉问题;
知识溯源能力:通过多种湖源方式,关联问题相关参考出处,生成答案更加可靠。
另一方面,中国电信将此前的百亿参数增加到千亿级别,使得星辰语义大模型获得了很大的性能提升:
首先,星辰语义大模型在长文本生成和长文理解上提升尤其明显,分别有30% 和20% 的提升;其次,在知识问答方面提升18%,在对内开放平台上回答正确率更可达98%,可支持96K Token 上下文理解;此外,逻辑推理、数学能力和代码能力等方面,也有10-15% 不等的提升。
截止目前,电信大模型已在电信内外多个场景落地:对内可提升办公、生产协同效率,包括了行文写作、代码编程、网络故障分析以及经营分析等多场景;对外可赋能2B 和2G 业务场景,提质提效、优化体验。同时,中国电信也联合多样化的工具辅助,来提高大模型在不同领域下的使用体验,包括外挂知识、插件使用以及百余种预置 Prompts。
从对话框走向千行百业,大模型落地还需要什么?
人们都在期待着规模化的 AI 应用诞生,而这种成果必将来自于大模型的底层创新。
除了让大语言模型的本行 —— 文本的理解与生成能力不断进化之外,科技巨头也竞相推出多模态方面的更新,将更多 AI 驱动的工具直接集成到核心产品中。比如这几个月来,OpenAI 陆续赋予了 ChatGPT 看(GPT-4V)、听(Whisper)、说(最新 TTS 技术)、画(DALL・E)的能力。
前几天,OpenAI 召开了自家的首场开发者大会。全新升级后的 GPT-4Turbo API ,将这些多模态能力开放给了每一位用户。当多模态能力被整合,必然会催生很多场景化应用。
何忠江指出,实际场景中的大模型应用不仅是一个简单的对话框,需要与多模态模型联动,才能真正去改变一些工作的流程和思路,提高其效率。而我们此前所熟悉的大模型 —— 语义大模型会是整个通用人工智能的核心,起到类似人类大脑的思考作用。
因此,在星辰语义大模型的打造过程中,中国电信同时开发了星辰多模态大模型和星辰语音大模型。
在这场论坛中,中国电信隆重介绍了星辰多模态大模型,该模型主要聚焦提升图文生成、图文理解能力,训练了超过12亿各种风格数据,支持近20种绘画风格,中文意象理解生成能力提升30%,语义细粒度生成效果提升25%。
此外,星辰语音大模型也是一大亮点。据介绍,星辰语音大模型基于数十万小时语音数据进行训练,具备精准的多语种 / 方言语音识别、语音实时自定义敏感词检测、超自然多音色语音生成和编辑、声音匿名等多项语音能力,支持智能会议、智慧办公、智能客服、智能语音机器人等多场景解决方案。
以「智能客服」为例,何忠江介绍说,此前 TTS 技术已经能够合成非常优美的声音,但还远远算不上自然,接电话的人很容易识别出声音是否由机器生成,这就是 TTS 技术在落地智能客服应用受到的最大阻碍。据统计,这类合成人声的挂断率甚至达到70% 左右。
要想破解应用的问题,就要依靠技术创新,达到「高仿真」。星辰语音大模型目前已经实现「超自然人声合成」,比如下面这段声音,听起来和真人发音别无二致,语气词和停顿节奏都比较还原:
星辰语音大模型超自然人声合成,机器之心,52秒
在通用模型之外,面向垂直领域的行业大模型也是各个厂商的「必争之地」。构建一个智能对话框不是最难的,让大模型融入具体的业务、成为新的生产工具更重要。对此,中国电信已早早布局。
本次论坛中,中国电信宣布了首批试商用12个行业大模型,包括星辰教育大模型、治理大模型、政务服务大模型、应急大模型、医保大模型、交通大模型、住建大模型、金融大模型、神农一号大模型、出行大模型、旅游导览大模型、矿山大模型。
比如星辰教育大模型,这是中国电信基于教育行业亿级服务数据沉淀,训练出具有国家中英文作文特级教师水平的「精准教学大模型」,15秒就能完成一篇中英文作文的打分、点评和改进建议,目前已在河南1.2万师生教学中应用并取得良好的效果。再比如星辰基层治理大模型,主要应用场景包括矛盾调节助手、线上法律顾问和公文助手等,目前已在某些城市的多个基层社区上线应用。
通用人工智能,越来越近
转眼间,距离 ChatGPT 发布已经快过去一年,热度却丝毫未减。究其原因,是因为大模型终于清晰地指出了一条前往通用人工智能的路。
一直以来,中国电信都将通用人工智能的目标当成长期努力的方向。近年来,从视觉、语音、语义到集各种模态能力于一身的数字人,中国电信目前已完成了全面布局,很多技术成果也逐渐投入实际生产使用。
谈到对通用人工智能的理解,何忠江表示,这仍然是一条漫长的道路,包括「感知智能」、「认知智能」、「具身智能」、「群体智能」几种阶段。
理想中的人工智能是像人一样能看、能听、会思考。借助视觉和语音的技术,模型把信息采集到以后,核心是要对信息做出判断,给出下一步的决策思路,这其实就是大语言模型在目前阶段起到的作用。
当这种决策能力落在虚拟空间中的数字人或是现实空间中的机器人,就意味着「具身智能」的诞生,假如数字人和机器人能够相互协作、统筹和调度,这就意味着「群体智能」诞生了,通用人工智能在这个过程中离我们越来越近。
比如在下方这个案例中,星辰语义大模型用来撰写宣传主题文案,星辰多模态大模型用来绘制产品海报,在这个过程中,数字人起到了下达指令的作用,也可视为人类的「数字分身」。
最开始,数字人将任务描述为:「中国电信有一款最新的产品是直连卫星的产品,我们假设要给这款产品做一些广告宣传的文案,我们应该通过大模型怎么来做?」短短两分钟,一张精美的海报就完成了。
面向下一阶段的竞争,中国电信的万亿大模型已经开启训练计划,并预计将于明年5月份完成。据了解,电信万亿参数大模型是以「成长策略」进行训练,是首个万亿稠密大模型,将拥有更高阶的「智能」。
可以想象的是,在不远的未来,融合语言、视觉和语音等多模态能力的大模型将会适应现实世界中不同模态的任务,逐渐接近甚至超越人类的水平。曾经只会出现在科幻作品的情节,终将走进现实。
最新热文 7天