来源 | 新致远
作者|辛志远
引爆了核弹,让任何人都可以在几分钟内使用自然语言构建应用程序! 爆炸性的革命时刻真的到来了。
首届春晚,创业公司屠杀之夜。
正如萨姆所说:“我们正在孕育新物种,而且它们正在迅速繁殖。”
可以说,当一家初创公司是基于界面打造出来的,产品突然就失去了意义。 许多初创公司的产品不再有护城河。
杜克大学教授陈怡然表示,按照这种趋势,所有希望依靠领域知识在利基领域拉力气的人都将是死路一条,至少在学术界和中小型公司是如此。 这几乎是不可能的。
只要找到了合作伙伴,或者可以在公共领域找到对应的训练集,剩下的就是降维攻击了。
然而,使用您自己的数据集训练自定义版本的 GPT-4 并不便宜——起价为 2-300 万美元。
另外,如果想要达到理想的结果,最好拥有极其庞大的专有数据集(至少数十亿代币)。
史诗般的发布之后,微软股价连续八个交易日上涨盲人足球比赛视频,并在周二收盘时触及 360.53 美元的历史新高。
日涨幅1.12%也使其市值达到约2.68万亿美元。
说吧,这就是我们梦想的未来。 如果说过去是“让你的钱为你工作”,那么现在就是“让你的人工智能为你工作”。
01
创业公司:一夜回到解放前
刚刚正式宣布进军Agent战场,那么全球排名前十的领先Agent初创公司下一步该做什么呢?
看完下面的API demo,你就会明白为什么说“万千创业一更新就倒”。
有人曾预言,它最终将成为集PDF Chat、人工智能和高级数据分析于一体的“AI超级应用”。
02
自定义 GPT,但并非全部开放
所谓最重要的更新“GPT”,让每个人无需编程,只需通过对话和聊天即可创建专属且个性化的GPT。 您还可以通过“GPT商店”赚钱。 真的有这么神奇吗?
我亲自上台演示,只需几步就创建了一个“创业导师GPT”,用时不到3分钟。
神奇的是,“创业导师GPT”根据我的演讲风格给出了答案。
目前,“GPT商店”已上线GPT研发的16款机器人,包括数学导师、创意写作教练、助理厨师等。
上下滑动查看
那些获得内测资格的网友已经开启了大量的申请。
高级系统软件工程师 Bojan 花了 10 分钟打造出一站式助手。
例如,当你问“家伙指的是谁?”时答:那家伙是陈天琪……
给出 100% 正确的答案。
一位曾经创建热门网站的网友定制了全球第一个定制GPT代理“Agi.zip”。
在创建这个 GPT 时,他发现 GPT-4-turbo 不够快,并添加了 20 个预建热键来加快速度。
自动保存
-长期记忆
-可重复使用的技能
- 跟踪当前任务
- 使用 .sql 导出到任何聊天记录
现在,你不需要操作你的手,只需动动你的嘴,真正的AGI就在这里……
还有网友创建了“X GPT”并用它来优化X帖子。
它可以微调推文并确定高峰发布时间,以获得 X 上的最大参与度。
官方发布的“”——可以将你上传的图片改编成新的画风。 以下是网友体验的效果。
然而,对于大多数人来说,情况仍然是这样的:“对不起,我还没准备好。”
03
API、TTS,网友想象力大开
与此同时,随着海量新功能的发布,创始人Greg还兴奋地转发了网友们各种富有想象力的应用案例。
使用 GPT 进行视频聊天
例如,使用API,我们可以使用网络摄像头并播放“你画我猜”。
打开“视频”后,小哥哥问:你看到了什么?
它流利地描述了镜头中的场景:只见一个短发的年轻人坐在墙边,直视着镜头,身穿黑色T恤。
这家伙拿起一副墨镜,给对面的镜头看,然后问它:我拿着什么?
答案:你拿着一副太阳镜。
同样,也有网友制作了具有类似功能的应用程序。
对此,有网友表示,这个工具可能是用来帮助盲人“看到”现实世界的。
如果它能像私人助理一样通过语音做出回应并指导他们寻找丢失的物品或其他东西,这对于盲人来说将是一个很好的工具。
GPT-4V + TTS = AI解说员
结合视觉和语音API,AI还可以直接变身足球解说员!
例如,足球比赛视频的每一帧都被传递到 GPT-4,并且只给出一些简单的提示来生成旁白。
GPT-4V做得非常完美,配合TTS的解说,现成的体育解说视频发布了。 该视频完全未经编辑,直接来自模型。
该视频共有1131帧。 每 10 帧,选择一张图片并发送给 GPT。 总成本是30美元。
具体来说,首先提取视频帧,然后创建结构化提示来定义GPT请求的参数,包括模型、提示信息、API密钥和最大令牌限制,然后发送GPT请求,创建语音评论提示,并生成语音评论脚本。 ,向TTS API发送请求,将脚本转换为音频,然后将音频和视频结合起来。
有人说:30块钱换一个体育解说员,这太疯狂了。
除了体育比赛之外,GPT-4 API还可以用于识别游戏解说的屏幕,例如英雄联盟。
“高血压”预警:视频是LNG打T1……
完整版如下:
网友评论:如果叙事速度能加快一点,再加点情感,就和真人叙事差不多了!
“这是迄今为止我见过的 GPT 的最佳用例。”
GPT版本浏览器
网友可以将GPT-4V的功能与浏览器结合起来,圈出图片并获得答案。
例如,它可以帮助你学习解剖学、数学、汽车修理等。
通过将互联网访问与自定义 GPT 相结合,您可以创建您最喜欢的音乐家的音乐播放列表。
GPT瑜伽教练
通过GPT-4V API,您可以成为您的瑜伽教练。
无需支付教练费用,仍然可以进行标准动作。
简单地概述和设计 HTML
更令人惊奇的是,通过GPT-4V API,低保真模拟可以在5小时内与实际HTML流程结合起来。
假设你自己制作了一个全新的 界面,你可以简单地勾画出结构,GPT-4V 会立即将其制作成 HTML。
GPT-4V 支持的多模式 RAG
该平台认为,虽然一张图片抵得上1000个单词,但图像在RAG应用程序中通常是不可见的。
GPT-4V 等多模式法学硕士完全解锁使用图像的 RAG 应用程序。
使用新的 GPT-4V API,模板和说明将于本周发布,以重点介绍多模式 RAG 的几种方法:
选项1:多模态嵌入检索
- 优点:直接嵌入最高质量的 B/C 图像检索潜力
-缺点:多模态嵌入的选项较少
选项 2:生成图像摘要
- 优点:简单,因为它使用文本嵌入盲人足球比赛视频,并且不依赖多模式 LLM 进行答案合成
- 缺点:由于图像不直接用于答案合成或检索,因此信息丢失
选项 3:检索图像摘要但传递图像进行合成
- 优点:文本嵌入简化了检索,但在答案合成中仍然使用图像
- 缺点:嵌入检索 b/c 图像摘要中潜在的质量损失
这些方法使得RAG能够用于具有图像内容的文档(例如教科书、财务报告、技术手册等)。
通过 TTS 普通话 1 级
国外小伙在网上提交了新发布的TTS文字转语音,大家可以直接体验。
有5种男声和2种女声可供选择。
我们用普通话水平测试中的练习题来测试一下我们的TTS能力怎么样?
体验地址:
更令人震惊的是,TTS模型还可以精确控制标点符号的含义,生成不同声调的语音。
帮助API
一位开发人员使用该 API 构建了一个开源“”,仅使用了 109 行代码。
是一款有趣的应用程序,可以模拟两个个性鲜明的人工智能助手之间的对话。
令人兴奋的是能够通过检索、数据和自定义功能扩展这些功能。
他还要求DALL·E为此设计一个LOGO。
另一位开发人员用不到 30 行代码创建了一个网站。
此外,还可以使用AI和GPT-4-1106构建AI简历分析器和评分工具。
目标是通过使用人工智能评估候选人是否合适来节省宝贵的招聘时间。
在演示视频中,网友上传了两个文件:职位描述和候选人简历。
有一天,人工智能将为人们挑选工作……无需过滤简历。 简历将成为过去……
然而,开发人员想要利用在自己的应用程序中构建个性化代理的 API 并不便宜——存储数据的成本高达 0.20 美元/GB/助理/天。
与 S3 每月每 GB 约 0.023 美元相比,价格高出 260 倍!
04
谷歌,现在轮到你了
面对挑战,资深科学家Jim Fan表示,是时候重现2016年的辉煌了!
现在,人们对谷歌的期望高得离谱。
然而,它至少必须做到以下几点,并在 2024 年第一季度发布 API,才能与 GPT 竞争:
- 文本能力达到GPT-4的120%;
- 水平能力达到GPT-4的100%盲人足球比赛视频,但成本仅为Turbo的一半或速度的两倍;
-视觉能力达到GPT-4的100%;
- 对长视频的原生支持。
相比之下,Meta 只需要开源 Llama-3。
目前,已经对Bard进行了多次迭代。 内部也开发了一些基本的SOTA模型,例如UL2、PaLI、PaLM等。
所以,这在理论上是可能的。
参考:
排版:邵志平
本文标签: 盲人足球比赛视频