一年前,ChatGPT横空出世,“大模型”成为全球科技绝绝对的“C位”。
这一年,国外微软OpenAI和谷歌DeepMind等“众神”打架,国内百模大战。这一年,文生图以及文生视频都出现了巅峰的玩家和令人窒息的产品,如Midjourney、Runway Gen-2、Pika 1.0等。
今年,正值GPT-4震动世人的同时,开源社区的力量也积攒起来,LLaMa系列模型开源可为此做出了很大的贡献。而在大模型的基础上,AI Agent(智能体)这一概念也呈现了爆炸式发展,如绘图25个Agent的虚拟小镇曾火出天际。
在今年的尾声中,持续一周的 OpenAI 首席执行官奥特曼被董事会开除事件,也是第一次让网友接触到科技圈吃瓜吃累吃麻是一种什么体验。
总之,在经历了一年的热闹非凡之后,在2024年即将来临之际,二狗给大家带来了2023年必看的AI大事件。
目录
ChatGPT问世虽然不是23年的事件,但它却是23年这一切大事件的开端。ChatGPT已经超出了科技圈,真正了世界。站在今天,已经很难想象没有ChatGPT的改变世界。
而实际上,ChatGPT 的问世并没有举行什么隆重的发布会,OpenAI 只是简单地在官网上更新了一篇博客上。
ChatGPT的发布取得了巨大成功,上线仅5天后已有100万用户,上线两个月后已有上亿用户。
本周2月1日,OpenAI官方发文推出ChatGPT付费订阅计划ChatGPT Plus,定价每月20美元。付费版的ChatGPT提供的增值服务包括:高峰免排队、快速响应以及优先获得新功能和改进。
事实上每月20美元的ChatGPT Plus是OpenAI今年针对C端唯一的收入,而之后ChatGPT的一系列最先进的更新如GPT-4、Dall.E 3、GPT等确实只能在付费ChatGPT Plus中使用。
微软于今日正式推出了新一代AI驱动搜索引擎New Bing,将基于ChatGPT技术的生成模型与Bing集成在一起。微软副总裁Yusuf Mehdi进行了一次完美的演示,当日微软市值暴涨800亿美元。
在微软更新ChatGPT加持的New Bing之后,大家都非常关注谷歌Bard的首秀。然而Bard首秀翻车了,导致股票一夜之间暴跌7000亿人民币。
谷歌在演讲中展示了巴德的一个演示,在回答问题“关于詹姆斯韦伯太空望远镜(JWST)有哪些新发现,我可以告诉我9岁的孩子哪些内容?”巴德提供了三个要点,其中一个指出“该望远镜拍摄了太阳系外行星的第一张照片。”
然而有天文学家指出这是不正确的,第一张系外歌手形象是在 2004 年拍摄的。
ChatGPT表现出色了,今年是闭源的,如果23年只闭源的ChatGPT,那AI圈也不会活跃起来。
而Meta在这天突发发布了四个尺寸的大语言模型LLaMA:7B、13B、33B和65B,且效果好于GPT,更重要的是所有开源均,但需要申请之后才可下载。
所有权人要感谢Meta发布并LLaMa,LLaMa的开源打破了ChatGPT的垄断,也引发了大开源浪潮,让AI社区的更多玩家都可以参与其中。
OpenAI在这天发布了真正的ChatGPT API,不是GPT-3.5模型,而是ChatGPT的本体模型GPT-3.5 Turbo。ChatGPT API价格为1k tokens/$0.002,相当于每输出100个单词,价格约18元人民币,比现有的GPT-3.5模型便宜10倍。
ChatGPT API的开放将大量减少开发人员,将ChatGPT集成到自家应用和服务的基础上,构建属于自己的AI聊天机器人。可以说,中世纪的创业者都依赖ChatGPT API。
这一天,万众期待的GPT-4终于发布了!
Sam Altman 介绍,这是 OpenAI 迄今为止功能最强大的多模态大模型。
事实上,GPT-4发布以来,模块化科技集会都竞相追逐,但是都只能不断接近,但无法超越,GPT-4其中,仍然是一个能出来接触到的功能最强大的大模型。而且,GPT-4是OpenAI 2022年就的模型。
OpenAI发布GPT-4的同时还更新了集成GPT-4的ChatGPT Plus,发布GPT-4的API,以及公布GPT-4技术报告(没有详细技术细节,只报告技术,OpenAI开了一个坏头)。
这一天,百度创始人、董事长兼CEO李彦宏正式发布预训练生成式大语言模型文心一言。
这是国内第一家科技大厂发布的针对标ChatGPT的产品。
在文心一言之后,其他厂商在今年也不断发布自家的大模型,在国内开启了百模大战。
其中的代表有阿里通义千问、科大讯飞星火、智谱ChatGLM、百川智能大模型等等。
关于百模战争的空前盛况,网络上统一的一张图可以形象地说明:
Meta的LLaMA模型,让开源大语言模型振奋了稳定扩散时刻。今天,斯坦福发布了一个由LLaMA 7B改装的打模型Alpaca,仅用了52k数据,在8个80GB A100上训练了3个小时,不到100美元,性能比肩GPT-3.5。
这天,微软宣布把GPT-4全面接入Office,新功能名叫Microsoft 365 Copilot,微软Office全家桶Word、Excel、PPT都“AI”起来了!
微软CEO纳德拉在发布会上表示:今天,进入人机交互的新时代,重新发明生产力。
值得一提的是,Microsoft 365 Copilot 的能力不仅仅局限于传统 Office 这几个软件,而是整个微软办公生态全部打通。邮件、联系人、在线会议、日历、工作群聊……所有数据接入大语言模型,构成新的 Copilot 系统。
一天之间,一对情侣在网上疯了:
然而这二位不是真人,而是由AI一键生成的。
站在下面的视角,大家估计都对AI生成如此清晰的图像已经习以为常了。
但在今年的3月份,这样的生成效果肯定是炸裂的,这是出自Midjourney V5版本之手,就连当时AI画最被诟病的手指问题,也都解决了。
Midjourney 也成为了 23 年最成功的文生图付费公司。
中途生成的完美情侣刚刚刷爆网络,堪称文生图最强玩家。
这一天,文生视频的最强玩家Runway重磅发布了Gen-2。
有了Runway Gen-2,你可以使用任意的图像、视频或文本,生成一段大片。
自ChatGPT上线以来已被无数人使用,人们一直要求以各种形式让这个大语言模型接入更多数据,3月24日,OpenAI终于宣布部分解除了ChatGPT无法联网的限制。
OpenAI 的解决方案是用第三方插件作为桥梁,让 AI 在较安全的环境下「看」婴儿数据,OpenAI 开放了第一批 ChatGPT 插件名单。
除此之外,OpenAI 还自己提供了多种插件,包括一个网络浏览器和一个代码解释器,并开源了一个知识库搜索插件的代码。现在,开发人员都可以自行构建插件,用于增强 ChatGPT 的信息库了。
这天,网络上公开的联名信爆火,该呼吁呼吁所有的AI实验立即暂停研究比GPT-4更先进的AI模型,暂停时间至少6个月,为的就是把这些可怕的幻想扼杀在摇篮里。
人工智能的进步速度最终令人惊叹,但相关的监管、审计手段却迟迟没有跟上,这也意味着没有人能够保证人工智能工具以及使用人工智能工具过程中的安全性。
该联名信已获得包括图灵奖得主 Yoshua Bengio、马斯克、苹果联合创始人史蒂夫·沃兹尼亚克、Skype 联合创始人、Pinterest 联合创始人、Stability AI CEO 等多位知名人士的签名支持,截稿前联名阿里巴巴已达 1125 人。
昨天3月31日,意大利个人数据保护局宣布,从即日起禁止使用ChatGPT,并限制OpenAI处理意大利用户信息,同时个人数据保护局开始立案调查。
意大利监管机构认为,3月20日ChatGPT平台出现了用户对话数据和付款服务支付信息丢失的情况。此外平台没有收集处理用户信息进行通报,缺乏大量收集和存储个人信息的法律依据。
意大利个人数据保护局称:“没有任何法律证据表明,为了‘训练’平台运行的算法以及大规模收集和存储个人数据是充足的。”
为此,OpenAI公司必须在20天内通过其在欧洲的代表,向意大利个人数据保护局通报公司执行保护局要求并采取的措施,否则将被相当于2000万欧元或公司年营业额4%的全球罚款。
好在实际上,意大利于4月28日恢复了ChatGPT服务。
Meta于今天发布了可以分割的新模型Segment Anything Model (SAM) 。
Meta在博客中介绍,SAM已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成掩模,甚至包括在训练过程中遇到过的物体和类型。SAM足够通用,图像头部广泛的例子,并且可以不需要额外的训练就可以在新的领域上即开即用。
4月20日,谷歌母公司Alphabet首席执行官桑达尔·皮查伊宣布,谷歌将合并成立最大的两个AI研究机构——位于伦敦的DeepMind与位于硅谷的Google Brain,成立全新的部门Google DeepMind。
Google DeepMind 新部门继续由 DeepMind 联合创始人 Demis Hassabis 担任,而其首席科学家一职则由曾领导 Google Brain 的 Jeff Dean 担任。
桑达尔·皮查伊表示,此次合并将整合两个研究团队的优势,更充分地利用谷歌的计算资源,为迈进人工智能研究新时代做好准备。
这天,微软官宣全面开放BingChat:无需任何等待,只需注册一个账户,首页即可体验。
微软表示,这是进入下一代人工智能驱动的搜索。通过极大的扩展和功能更新来改变世界上最大的软件类别——搜索。
官方介绍本次的更新主要体现在四个方面:从纯文本搜索聊天转为多模式回答;Bing Image Creator支持多种语言;增加聊天历史记录功能;支持插件。
OpenAI宣布首个ChatGPT iOS应用“ChatGPT”正快步登陆移动平台。允许用户在手机端随时随地访问ChatGPT,且向用户自由开放,不设广告且支持语音输入,但发布仅供美国用户使用。
App Store 上充斥着仿佛是芬兰的山寨ChatGPT 的建筑。
不久,该App便冲上App Store免费榜第二名,效率榜第一名。
在两个月后,ChatGPT 还推出了 Android 平台上的应用程序。
在5月18日当天的特斯拉股东日,马斯克的人形机器人——特斯拉擎天柱进化了,价格还“比车便宜”。成群结队的擎天柱学会了像人一样缓慢前行:
相比首发的发布,特斯拉人形机器人在能力上确实有了进步。而且与前几轮特斯拉AI Day中也有所不同,不再是PPT般的宣传片底色,但机器人都没有出现在现场,总是引人质疑。
而就在前不久的12月13日,特斯拉人形机器人Optimus代来了。相比上一代有了很大的改进:行走速度提高30%、重量减轻10公斤、速度更快的11个自由度的全新说明书。
滑板预测说:
如果擎天柱成熟可用了,预计很多人都希望能够拥有一台父母台,那么它们的数量可能会达到100亿甚至200亿!
Google终于要庆祝它25年来最大的改变,谷歌于今天宣布开始内测开放【生成式搜索平台(Search Generative Experience,SGE)】,并逐步舍弃那些甚至是臭名昭着的十条蓝色链接(10 Blue Links)。
陪伴我们25岁今年我们熟悉的一整套搜索流程将会被革新,在未来当我们输入了问题时,比如如果我问“如果我家有三个孩子并且带着一条宠物狗,布赖斯峡谷与拱门国家公园哪个更适合我们进行家庭旅行?”,答案将不再是一条语几乎不存在的“比较布赖斯峡谷与拱门国家公园公园”的旅游笔记链接,却直接告诉我们“虽然这两个公园都禁止宠物狗在未详细的模拟小径上进行良好的活动,但布莱斯峡谷却有配制好的小径,允许宠物狗进入。”
同时,SGE 改变的操纵只是简单的搜索、依赖于电商的搜索、广告等等都将引发一场激动人心的革命。
ChatGPT再次大更新。
最核心的是API新增函数调用(函数调用)能力,与网页版的插件类似,API也能使用外部工具了。这个能力被交到开发者手上,ChatGPT API不清楚具备的能力也能全面解决各种第三方服务有人解决了。认为,这是一个杀手级功能,也是自ChatGPT API发布以来最重要的更新。
另外这次ChatGPT API的更新不仅能力加量,价格还已经了,而且GPT-4 API大规模开放,直到清空队列列表状况;
到了一个月后,GPT-4 API全面对外开放使用。
马斯克官宣成立新公司xAI,其终极目标是为了探索宇宙本质。新公司团队阵容十分豪华,几乎全部来自OpenAI、谷歌、DeepMind、微软等知名研究员,其中1/3是华人。
在今年 9 月份,马斯克终于推出了第一款 AI 模型——Grōk,——Grōk 和 X(推特)绑定使用,每月收费 16 美元。
今日,Meta 发布了大家期待已久的免费可用版本 Llama 2。
同时Meta发布的Llama 2模型系列包含70亿、130亿和700亿透明参数。
Llama 2 在 2 万亿的代币上进行预训练,精调Chat 模型是在 100 万个人类标记数据上训练的。
Llama 2 的并免费开源园区改变了大模型竞争的格局,也给大众创业公司带来了福利。
阿联酋在整个AI社区爆火的斯坦福智能体小镇在今天开源了。
在这个小镇上,有25个AI Agent生活,通过采用一种“记忆—计划—反思”驱动的智能体形态,以“社会事件”为动力源,使25个AI Agent间相互互动,拟定整个社会的分工体系。他们有工作,会八卦,能结交新朋友,甚至举办情人节派对,每个“小镇”居民都有独特的个性和背景故事。
今年,Agent 这个概念火出天际一周,从 AutoGPT 6 万星刷新 Github 涨星速度记录开始,AI Agent 项目如雨后春笋开始在四大技术平台支撑。
而斯坦福虚拟小镇描绘的是今年AI智能体研究的一个标志性事件,它让世人看到了利用LLM作为AI Agent中的Agent成为一条真正有希望实现“自主智能体”的技术路径。
更多内容总结可以参考「聊聊我对AI Agents技术的一些看法」一文。
这天OpenAI正式发布了GPT-3.5 Turbo的参数和API更新,为开发者提供了更多的个性化选择,开发者和企业能够自定义模型,为用户创造独特的体验。
初步测试显示,经过改装的GPT-3.5 Turbo甚至可以在某些特定任务上匹敌,甚至超越GPT-4的基础能力。并且所有通过API发送的数据都归客户所有,OpenAI或任何其他组织都不会使用这些数据来训练其他模型。
OpenAI 宣布推出针对企业的无限制、更快、更强的 ChatGPT 企业版。
ChatGPT Enterprise由GPT-4驱动,包含了所有ChatGPT的基础功能,如撰写文书、起草文章和编码,并新增了“企业级”的安全隐私和强大的数据分析能力,可以更高的模型性能和定制需求。
OpenAI 宣布 DALL·E 升级至 DALL·E 3,并暂停集成至 ChatGPT 中。
和DALL·E 2相比,在提示词相同的情况下,DALL·E 3对文字的理解程度及生成的图像质量显着提升。被诟病的“无法在图像上生成文字”的问题也得到了解决。
DALL·E 2(左)与DALL·E 3(右)生成图像对比:
百度世界大会官宣文心大模型4.0发布,综合水平与GPT-4相比已经毫无逊色。
另外值得一提的是,到了23年底,文心一言用户规模已突破1亿,这也是国内第一家用户规模超过1亿用户的大模型产品。
这一天,ChatGPT全球宕机,许多人发现无论是ChatGPT还是ChatGPT PLUS都不能正常工作了。还连带了全球数以万计的依赖ChatGPT API的热门AI应用也纷纷崩溃。
OpenAI 发布了一个“整合了几乎所有可用工具”的完整版 GPT-4 智能体版本。将之前版本相互独立各自分离的 Agent 功能统一起来。之前 GPT-4 的工作模式是四个独立的功能(一个对话窗内只能使用其中一个特性):
1.图片上传+GPT-4;
2.插件+GPT-4;
3.代码运行器+文件上传+GPT-4;
4.图像生成+GPT-4;
这次更新变成了:
GPT-4 + 图片上传 + 插件 + 代码运行器 + 文件上传 + 图片生成;
OpenAI 在首届开发者日上,正式公布了 GPT,每个人都定制 GPT,OpenAI 比特币上线“GPT商店”,但实际上推迟到了 24 年。
另外GPT-4也更新了新版本GPT-4 Turbo,支持128k上下文,知识本身更新到2023年4月,视觉能力、DALL·E3,文字转语音TTS等等全都开放API,API价格还打了3~5折。
要说,今年最后两个月 AI 圈最热闹的事情,当属奥特曼被 OpenAI 董事会开启除系列事件时,OpenAI 持续了一周的斗争。
感兴趣的读者可以翻看夕小瑶科技曾发表的文章:
广大网友期待的爆火文生视频 Pika 1.0于今天正式发布。
Pika由斯坦福斯坦福华人女博士CEO郭文景和CTO陈林孟退学创业6个月打造,目前4人团队估值超2亿美元。
谷歌DeepMind重磅推出了传闻已久的Gemini大模型,号称是谷歌历来功能最强大、最通用的多模态模型,在很多领先的基准测试中都实现了最先进的性能(SOTA)。Gemini 1.0共有Gemini Ultra、Gemini Pro、Gemini Nano三个不同版本。
然而,正常不到一天,谷歌双子座就翻车了——谷歌公布了成绩效果时,双子座用了很多小动作,出现刻意刷榜、夸大成绩的嫌疑,演示演示视频也被扒出是“合成造假”,谷歌也已经承认双子座视频是“剪裁”的。
这两天,法国前锋公司Mistral AI开源的一个Mixtral 8x7B MoE模型引爆了AI社区。
一是因为它的性能击败了LLama2和GPT-3.5。
二是因为,Mixtral是一个专家混合模型(Mixture-of-Experts model,MoE),使用了监听中OpenAI用于GPT-4的架构,但是GPT-4的参数要小很多,堪称是缩小版的“GPT-4”。
而且这个模型还是开源了,Mistral AI甚至直接通过torrent链接将其甩在推特上发布。
Huggingface下载链接:https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
今日Sam Altman宣布重新启用ChatGPT Plus订阅;一个月前,Sam Altman称,由于OpenAI开发日后ChatGPT使用量的突破超出了OpenAI的承受能力,暂停ChatGPT Plus新用户注册。
而在同一天,谷歌DeepMind也宣布开放Gemini Pro API给开发者使用。不过这次开放API是针对标ChatGPT的Gemini Pro,而不是针对标GPT-4的Gemini Utral。
Gemini Pro API 可以在一定时间内免费使用。
今年3月,Midjourney v5就已发布,在等待了9个月之后,Midjourney v6终于来了。相比之下,Midjourney v5.2、Midjourney v6在生成质量和细节方面有了进一步的提升。
大模型时代的到来促进了今年AI领域的显着发展,吸引了各类AI产品正在造福广大用户。
虽然真正的通用人工智能(AGI)还很遥远,但人们已经相信它会在不远的未来。
有理由相信,AGI终将在我们这个时代实现~
期待2024年会给我们带来更多惊喜!
邮件:siyushenqi@gmail.com
工作时间:周一至周五,9:30-18:30,节假日休息