{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

讯飞星火大模型迎来V3.5版本更新 支持长文本、长图文及长语音

来源:互联网    时间:2024-04-28 16:00:04

  近两个月来,国内大模型卷进了“长文本”大战,科大讯飞旗下的讯飞星火大模型也不例外。最近,讯飞星火大模型迎来了 V3.5 版本的更新,此次更新显著增强了对长文本、长图文和长语音的处理能力。同时,新版本还首次推出了星火图文识别大模型、多情感超拟人合成技术以及一句话复刻功能。

  根据官方的说明,讯飞星火大模型在长文本处理方面,能够快速吸收和理解来自不同渠道的大量文本数据,针对各个行业和专业领域的问答,提供更加精准的回答。此外,在文件上传、知识问答响应速度以及文本生成等方面,讯飞星火的效率也得到了显著的提升。

  今年初,IT之家对讯飞星火 V3.5 版本进行了深入的体验,并将其与 GPT-4 进行了全面的比较。从IT之家的评测来看,讯飞星火 V3.5 的综合能力已经能够与 GPT-4 相媲美,在逻辑推理、数学能力和知识库更新速度等方面,甚至展现出了一定的领先优势。

  那么,搭载了长文本、长图文、长语音等新功能的讯飞星火大模型 V3.5 更新版,体验又将如何呢?接下来,IT之家将围绕这些新功能,进一步分享体验感受。

  红框内,就是讯飞星火 V3.5 新能力的入口,最右侧的文件里,包含了你上传过的所有文档,都会以“云空间”的形式保存在里面,方便下次使用一、长文本体验

  长文本处理能力已经成为衡量各大模型产品硬实力的关键指标之一。

  在日常生活中,我们不可避免地会遭遇那些冗长的文本内容,比如阅读起来乏味透顶的隐私政策,那些篇幅庞大、晦涩难懂的免责条款,还有那些曲折复杂,绕来绕去的保险合同。

  面对这些动辄数十万字的文档,要完整地阅读它们,其难度堪比啃完哲学著作《形而上学》。

  对于笔者自己而言,如果某一天在卫生间里忘记带手机,一边是放着一册 xx 保险示范条款。另一边放着一瓶沐浴露。我宁愿把沐浴露的成分列表背过,都不愿意去主动看 xx 保险条款。

  然而,这些玩意的存在是有其必要性的,毕竟,写出来就是给我们看的。你可以选择不看,但若遇到问题,这些隐私政策和合同条款就可能成为关键。

  所以问题来了,我们如何在数万乃至数十万字的内容中迅速定位到关键信息?特别是诸如保险条款、合同这些,如何找到对我们自己最有利的条款?或者,如何立即发现那些对我们不利规定?

  再比如,对于一些财务人员,又或者是文字工作者,当面对某企业发布财报或白皮书时,如何从海量信息中提取出最关键的要点?如何快速找到最关心的信息?

  总而言之,这种长文本的阅读需求是生活中经常遇到的痛点,而大模型的存在意义,就是帮我们繁杂的文字中找到我们最想要、最所需的信息。

  那么讯飞星火大模型 V3.5 的表现又如何?

  讯飞星火大模型 V3.5 界面,为了方便大家阅读,网页放大了 50%1、合同条款类

  首先,讯飞星火大模型 V3.5 全新引入了新引入的“星火合同助手”小组件,能全面辅助用户快速起草各类合同。

  讯飞星火 V3.5 不仅能够提供一系列专业问题的通俗解答,确保法律准确性与合规性,还能通过其精准地判断和回答,帮助用户更有效地理解和处理复杂的信息。

  以下图的《网站隐私政策》为例,这种隐私政策在我们生活中到处可见,诸如每款 App 打开之前都滑动同意那些冗长的条款。

  网站隐私政策

  笔者将该隐私政策复制成 Word,随后上传至讯飞星火大模型 V3.5 聊天框中:

  红色箭头部分是长文档上传入口

  随后询问了如下两个问题:

  概述该隐私条款中我需要特别注意的问题

  该隐私政策会获取我的哪些信息

  讯飞星火大模型 V3.5 在收到问题后,都迅速做出了简单易懂的回答。

  接下来笔者又上传了《费改机动车商业保险示范条款及免责事项说明书》(下图),字数在 2 万 + 左右,并针对免责条款、保险赔偿等方面咨询了各种问题。

  费改机动车商业保险示范条款及免责事项说明书

  比如,笔者询问“发动机进水赔偿吗?”,讯飞星火大模型 V3.5 迅速给出了回答:

  回到《免责事项说明书》中,确实找到了这一说法,如下图红框内。

  不过,笔者对这个“特约条款”的意思还是不太够理解,接着继续问飞星火大模型 V3.5.给出的回答(下图):

  随后,同样的问题咨询了保险公司人工客服,回答如下:

  讯飞星火大模型 V3.5 和人工客服给出的回答是一样的。

  关于这个“特约条款”,这里插一句。

  笔者在网上查询了一番资料,简单来讲,保险新规后,正常发动机涉水是在车损险保障范围内的。但是呢,有些人的用车环境是在沙漠或者是雨水较少的地区。那么投保这个“特约条款”,可以进一步降低保费,但发动机进水损坏后,保险公司不会理赔。

  从讯飞星火大模型 V3.5 的回答来看,确实将这个“条款”的意思表达的清清楚楚,和客服回答的也基本一致。

  但是,这里有个“发动机涉水是包含在车损险保障范围内”的前提,而这个前提并未出现在这份两万字的“免责事项说明书”中。讯飞星火大模型 V3.5 是通过笔者提供的长文本来检索,自然也不知道这一点。

  接下来,笔者又问“建议购买吗?”

  讯飞星火大模型 V3.5 给出了明确的回答 —— 不建议。

  客服同样不建议。

  笔者又针对保险中的各种问题进行了提问,讯飞星火大模型 V3.5 都给出了精准回答:

  从各种回答来看,讯飞星火 V3.5 都达到了一个令人满意的水准,且具备了一定的逻辑推理能力,能够给用户一个正确的建议。

  2、研究报告类

  本月 26 日上午,OPPO 发布了《OPPO 创新与知识产权白皮书》,pdf 文件,共有 23 页内容。

  针对这份白皮书的内容,笔者也进行了一系列的提问。

  讯飞星火 V3.5 的回答结果自然是令人满意的,且反馈速度极快,几乎就在几秒钟内给出回答。这对于一些文字工作者而言,简直就是效率神器了。

  关于理想汽车的一份研究报告,有大量的图表、图片说明和数据,讯飞星火 V3.5 甚至还能根据报告中非常细分化的问题(比如销量)做出回答。

  针对用户在科研方面的需求,这次讯飞星火 V3.5 还加入了长文本摘要能力,针对行业报告,也加入了长文本生成能力。

  在星火助手中心中,找到星火科研助手,即可进行一系列的专业化回答。

  笔者上传了研究报告《全球产业数字化转型趋势及方向研判》和《华为终端可持续发展报告 (2022-2023 年)》,并就其中的专业性问题发起了一系列提问。

  讯飞星火 V3.5 能够提供系统性的回答,以应对这些专业领域的复杂问题。

  3、读书娱乐类

  最后,笔者将余华《在细雨中呼喊》小说 TXT 文档上传至讯飞星火 V3.5.并针对小说中呈现的众多角色和故事情节提出了一系列问题。

  《在细雨中呼喊》也是笔者最喜欢的小说之一,来来回回已经读了四五遍,对里面的每个故事和剧情都有深刻的印象。

  但是呢,毕竟这也是一部有着 14.9 万字的长篇小说,小说里蕴含了众多的细节与情节交织,要让我给出一个周全而精准的回答,恐怕还真不容易。

  那么讯飞星火 V3.5 的表现如何?

  首先笔者提问,小说主人公的父亲(孙广才)是一个怎样的人?讯飞星火 V3.5 的回答如下:

  在笔者看来,孙广才的后半生算是一个彻头彻底的无赖,自私虚伪,可鄙可怜。讯飞星火 V3.5 给出的回答与笔者的观点颇为接近,但评判的“力度”不太够。但不可否认,矛盾贯穿了孙广才的整个人生,讯飞星火 V3.5 也给出了这个观点。

  《在细雨中呼喊》小说中作者对死亡有非常多的描述,而孙广才的死又是小说中最具戏剧化的一幕。

  关于这个问题,讯飞星火 V3.5 也做了精准的回答 —— 他葬身于最为肮脏的地方,但死时并不知道这些。

  关于祖父的一生经历,讯飞星火 V3.5 也能做一个简练的总结:

  不过,关于一些更复杂的问题,讯飞星火 V3.5 在事实陈述上虽然明晰透彻,在深度评价方面稍显肤浅了一些。

  比如,在“看待孙光明救人行为”这一问题时,讯飞星火 V3.5 回答“对其无私英雄主义的赞赏,也透露出对其鲁莽行为的批评态度。”

  小说中作者却是这样描述的:

  孙光明是为了救那个孩子才淹死的。将舍己救人用在我弟弟身上,显然是夸大其词。弟弟还没有崇高到愿意以自己的死去换别人的生。

  他在那一刻的行为,来自于他对那几个七八岁孩子的权威。

  当死亡袭击孙光明手下的孩子时,他粗心大意地以为自己可以轻而易举地去拯救。

  被救的孩子根本无法回忆当初的情景,他只会瞠目结舌地看着询问他的人。几年以后,当有人再度提起这事时,那孩子一脸的将信将疑,仿佛这是别人编造的。

  若不是村里有人亲眼所见,孙光明很可能被认为是自己淹死的。

  二、长图文体验

  比起单纯的无文字图片或长文本之外的复杂情况,讯飞星火 V3.5 的图文识别大模型可以针对复杂版面进行高精度解析。

  官方表示,识别场景包括教育(书籍、作文批改)、专利、学术论文、报纸、金融文档、体检报告、自然场景、PPT、产品说明书、海报、读物、药盒、APP 截图等等。

  针对上述场景,你可以对图片中的文字信息进行提问,也可以基于文字信息进行更深入、整合性的提问。

  以笔者刚刚买的“鼻用喷雾剂”举例,手机拍摄说明书照片,随后上传至讯飞星火 V3.5 中。

  笔者询问注意事项、使用方法,讯飞星火 V3.5 都能给出具体回答。

  从结果来看,基本上是将说明书中的文字信息“OCR”了出来,然后根据词义整理,反馈给提问者。

  更复杂的场景,笔者上传了 USB 测试仪使用说明书的截图:

  针对不同的接口,进行了功能提问,讯飞星火 V3.5 回答也令人满意。

  笔者又上传了此前参加活动拍摄一张 PPT 图片,并让讯飞星火 V3.5 提取照片中的重点。

  结果显示,讯飞星火 V3.5 准确地识别出了照片中的内容,并且正确判断出这是广汽集团的技术展示,同时注意到了在场观众对此表现出的高度关注。

  写到这,笔者简单感慨一下,这个功能的想象力空间确实巨大,特别是对于视障人士而言,尽管他们的双眼无法看见,但只需通过手机拍下照片,上传至讯飞星火,便能立即通过语音描述,将眼前的世界传达给视障者,能够给日常生活带来极大的帮助。

  当然,现阶段的体验也并非十全十美,比如就出现过一次“已读乱回”的现象(下图),回答得莫名其妙,有一定的优化空间。

  三、长语音、视频体验

  在当今的学习与生活中,我们不仅需要大模型来助力文字处理,同样也需要其协助处理语音和视频资料。尤其在“全民短视频”的风潮下,明明一两句就能说明白的话,非要做成一个视频。

  同时,对于学生群体和职场人士而言,无论是学术讲座还是商务采访的视频资料都包含了丰富的信息。关键在于,如何从这些视频中高效提取出核心要点?

  升级后的讯飞星火 V3.5 能够协助用户在这些多媒体内容中迅速捕捉和理解关键信息。

  笔者上传了IT之家《今天,北京车展,哭笑嘿哈》这篇语音文章,时长在 19 分钟左右。

  针对音频,笔者提问了音频的主要内容,讯飞星火 V3.5 用极短的时间给出了回答。

  从结果来看,基本是令人满意的。

  不过也有一些细节上的小错误,比如把极氪识别成了“极客”,把蔚来 ET7 识别成了“A7”,但瑕不掩瑜,这个表现已经很出色了。要知道,上述音频中有各种新技术名词、新车名称,以及各种汉英夹杂的情况,这本身就有非常高的识别难度。

  接下来笔者又围绕腾势、迈腾等新车,提出了更具体的问题,讯飞星火 V3.5 的答复都很令人满意。

  讯飞星火 V3.5 同样也支持上传视频,就拿IT之家发布过的《种草华为运动健康全家桶》导购视频为例,视频长达 6 分钟。

  首先,笔者让其概述整个视频内容,讯飞星火 V3.5 给出了精准回答。

  不过,一个细节上的小错误,把“HarmonyOS”识别成了“哈姆 6s”(也有可能跟视频里的读音有关),但是整体回答并没有偏离主题,也没有给出含糊不清的回答。

  询问视频推荐哪些值得买的产品,讯飞星火 V3.5 也能依次排列,并给出每个产品的亮点。

  另外,在体验中,讯飞星火 V3.5 在识别过程中,也没有太长的加载时间,基本问题都是按“秒”来回答的,而且是越用越快,你问的问题越多,它回答的速度就越快。

  四、讯飞星火语音大模型

  讯飞星火 V3.5 这次升级了星火语音大模型,带来了“多情感超拟人合成”和“一句话声音复刻”首发两项功能,偏趣味性体验。

  在语音对话中是一个类似通话界面,而讯飞星火大模型所提供的回答非常接近自然人声,虽然带有一丝机器人特有的韵味,但整体上已经非常逼真。

  “一句话声音复刻”就很有意思了,它可以模仿你或者是身边其他人的声音。完成声纹录制后,你可以在“我创建的发音人”中找到自己的声音。选择后,在使用语音交互时,大模型就会以自己的声音与你对话,且声音还原地相当真实。

  总结:

  AI 不是一个新鲜的概念,几年前谈及 AI 改变生活,笔者总觉得是天方夜谭,遥不可及。然而,也就在这短短两三年的时间里,AI 技术迎来了爆炸性的升级变革,一个真正属于 AI 的黄金时代就在眼前。

  在这个过程中,科大讯飞既是参与者,也是推动者。讯飞的星火大模型,也仅仅是科大讯飞在 AI 领域创新的一个具体呈现之一。

  这一次讯飞星火大模型 V3.5 升级,在长文本处理、图文识别以及长语音和视频处理方面都展现出了卓越的能力,重点加码了用户在专业性、实用性这两方面的需求体验。

  就拿文章开头讲到的那样,我们每天要接触着海量的信息,一份用词晦涩、专业术语堆积、绕来绕去的合同,又或者是复杂难懂的免责条款就能难道无数打工人。

  在过去,或许需要上网查阅各种资料,又或者是花钱咨询专家来获得帮助。这个过程中,你或许还会遇到各种充值缴费才能显示答案,寻找专家过程中也难免遇到各类骗子。

  但是有了讯飞星火大模型 V3.5 这类应用的出现,上述问题处理的就非常简单了。

  类似的场景还有那些冗长繁琐的会议音频,打工人可以轻松地在几万字的车轱辘话中找到最关键的那几句;在视频中迅速提取精华,甚至为科研报告快速生成摘要...

  尽管讯飞星火大模型 V3.5 在某些细节体验上还有待优化,但其所带来的想象力空间无疑是巨大的。

  今年 6 月 27 日讯飞星火 V4.0 将正式发布,届时还将带来哪些新功能,我们可以好好期待一下了。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
讯飞星火大模型迎来V3.5版本更新 支持长文本、长图文及长语音

讯飞星火大模型迎来V3.5版本更新 支持长文本、长图文及长语音

  近两个月来,国内大模型卷进了长文本大战,科大讯飞旗下的讯飞星火大模型也不例外。最近,讯飞星火大模型迎来了 V3 5 版本的更新,此
2024-04-28
元象首个多模态大模型XVERSE-V开源 刷新权威大模型榜单 支持任意宽高比输入

元象首个多模态大模型XVERSE-V开源 刷新权威大模型榜单 支持任意宽高比输入

  人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出
2024-04-28
iPhone 16对比iPhone 15有哪些不同 三分钟给你讲明白

iPhone 16对比iPhone 15有哪些不同 三分钟给你讲明白

  再过几个月,即2024年9月,苹果预计将推出全新iPhone 16系列,带来新功能并改进这款全球最受欢迎的智能手机。iPhone 16渲染图 vs i
2024-04-28
AMD和英特尔竞争的焦点 CPU缓存为何对游戏如此重要?

AMD和英特尔竞争的焦点 CPU缓存为何对游戏如此重要?

  AMD的7800X3D和7950X3D处理器在游戏CPU中很强,并非因为它们核心数最多或运行速度最快,而是因为它们拥有极为丰富的缓存资源。但究竟何
2024-04-28
久其女娲平台2.0全新升级!AI大模型加速 赋能政企数治未来

久其女娲平台2.0全新升级!AI大模型加速 赋能政企数治未来

  久其女娲平台2 0发布会在线成功举办。活动以数治未来 大模型加速为主题,通过专题报告、功能路演等环节,集中介绍了久其女娲平台作为
2024-04-28
技术干货重磅发布!鲲鹏开发者创享日·江苏站打造原生技术盛宴

技术干货重磅发布!鲲鹏开发者创享日·江苏站打造原生技术盛宴

  4月25日,鲲鹏开发者创享日江苏站暨2024数字技术创新应用峰会顺利举行。活动当日,多位权威大咖集聚南京,论道鲲鹏前沿科技,共话鲲鹏
2024-04-28
中国移动杨杰董事长:算力网络点亮AI新时代

中国移动杨杰董事长:算力网络点亮AI新时代

  4月28日至29日,2024中国移动算力网络大会在苏州开幕。大会以算力网络点亮AI新时代为主题,全面展示了中国移动最新算力网络成果与能力
2024-04-28
行业唯一 赛力斯魔方平台可兼容超增、纯电、超混三种动力

行业唯一 赛力斯魔方平台可兼容超增、纯电、超混三种动力

  阔别四年的北京车展回归依然顶流, 各企业均携最新产品和技术精彩亮相,短短两天媒体日,从新车型到新技术再到新概念,中外各参展商及
2024-04-28

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com