{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 科技快讯 > 正文

谷歌最强大模型免费开放了 长音频理解功能独一份 100万上下文敞开用

来源:互联网    时间:2024-04-10 16:17:09

  谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。

  目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。

  (Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)

  最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。

  无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。

  如下图所示:

  上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。

  而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。

  我们也赶紧实测了一把,结果是真香。

  Gemini 1.5 Pro开放API了

  谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”

  它主要面向开发者,可在谷歌AI Studio中获得API密钥:

  目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。

  问题不大,我们可以先在Google AI Studio中直接体验:

  在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。

  我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。

  并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:

  表现令人折服。

  接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。

  我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。

  Gemini 1.5 Pro最终在53s内按要求给出了10个亮点分析:

  可以说一分钟就让我们对1小时的演讲内容有了整体认知,再也不用费劲扒字幕文件了。

  继续回到API本身。

  除了音频理解,为了让开发者更好地控制模型输出,Gemini 1.5 Pro还提供了另外3项新功能/改进:

  首先是系统指令

  我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。

  设置完成后,这个指令就会应用于接下来的整个请求。

  示例如下:

  其次,JSON模式

  也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。

  第三,函数调用上也有改进

  为了提高可靠性,Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

  可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。

  最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:

  text-embedding-004(又名“Gecko”)。

  该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。

  两个月前诞生的谷歌最强大模型

  Gemini 1.5 Pro于2月15日发布,距今还不到两个月。

  它是Gemini Pro的升级版,多模态多语言,最大的亮点无疑是上下文窗口长度:

  从128k到最多100万。

  100万个token相当于可处理70万个单词或约3万行代码,折合成音频就是约11小时,视频约1小时。

  无疑是很大的一个量级了(现在则完全在API中开放)。

  当时官方的演示包括用它搜索阿波罗11号登月的电视转播信息,一共402页文字记录。

  模型的响应时间大约在20s到1分钟。稍微有点慢,但谷歌承诺会优化延迟时间。

  而Gemini 1.5 Pro发布之后,网友也很快分享了一些还不错的内测结果,包括:

  鉴别Sora视频是否AI生成,给出关键证据;

  在一场14分钟的NBA扣篮视频中,判断出哪个扣篮得分最高, 并给出其中扣篮细节;

  还有分析比较《星际穿越》和《星际探索》两个完整的电影脚本,合起来接近10万token,结果三十几秒内就给出了完整详尽的报告。

  可以说,这次谷歌整体是没有让大伙失望的。

  最高能的是,它还能看录像改BUG

  有网友在编写一个网页的代码时故意留了3个bug,并分别录制了3个bug视频,外加代码库打包成文件一同丢给Gemini 1.5 Pro,结果全部分分钟给出正确代码。

  这位网友当时就表示:这“小伙子”前途不可限量啊。

  而在今天,随着Gemini 1.5 Pro API的“全面”开放,大伙可以更进一步地感受其厉害了。

  咳咳,就是目前速率限制还有点高:

  每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个~

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
华升G4设备亮相2024CCMT展会

华升G4设备亮相2024CCMT展会

  第十三届中国数控机床展览会盛大开幕。本届展会以聚焦——数字·互联·智造的主题,开放17个展馆,吸引近2000家全球机床工具展商,其中
2024-04-10
今年山东16个市将全部达到千兆城市标准 明年底前再建成开通7万个5G基站

今年山东16个市将全部达到千兆城市标准 明年底前再建成开通7万个5G基站

  4月10日,国务院新闻办举行推动高质量发展系列主题新闻发布会的第8场发布会,围绕中国式现代化山东实践:绿色低碳高质量发展作介绍。 
2024-04-10
KreadoAI上架百度智能云千帆AI原生应用商店 短视频营销赛道再发力

KreadoAI上架百度智能云千帆AI原生应用商店 短视频营销赛道再发力

  百度智能云GENERATE全球生态大会在成都召开。本届大会以智能·共生为主题,携手大模型领域权威专家、行业领袖,共探大模型时代产业发展
2024-04-10
谷歌推出AI应用Google Vids 会PPT就能做视频

谷歌推出AI应用Google Vids 会PPT就能做视频

  4 月 10 日消息,过去传统办公一直围绕着文档、电子表格和幻灯片(如微软的 Word、Excel、PowerPoint,苹果的 Pages、Numbers、Key
2024-04-10
CITE2024观察:AI带动新需求,国产芯片、存储踏上风口

CITE2024观察:AI带动新需求,国产芯片、存储踏上风口

  在1月的CES、2月的MWC、3月的AWE后,属于4月的CITE2024如期而至。  和前面三次主要面向消费者群体的大型会展不同,中国电子信息博览
2024-04-10
中国工信部等七部门发文 推动工业领域设备更新

中国工信部等七部门发文 推动工业领域设备更新

  中国工信部周二表示,近日工信部、发改委等七部门联合印发《推动工业领域设备更新实施方案》。  《方案》提出,到2027年,工业领域设
2024-04-10
富采抢攻车用市场 力拚成为全方位车用光源第一供应商

富采抢攻车用市场 力拚成为全方位车用光源第一供应商

  LED 厂富采积极抢攻车用市场,包括车用显示、车用照明、车用感测,提供由内至外所需光源。 同时,富采也透过先进显示以智能传感两大
2024-04-10
传Google DeepMind首席执行官坦承:追上Sora有难度

传Google DeepMind首席执行官坦承:追上Sora有难度

  Google DeepMind首席执行官Demis Hassabis传出坦承,追上OpenAI的文字转影像AI生成工具「Sora」有相当的难度。  Business Insider
2024-04-10

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com