“Holyshit!Youcandothisnow。”
陆奇也跟不上AI了。他是奇绩创坛创始人兼CEO,也是中国AI的布道人,是美国对于大模型最有发言权的人之一。
——这段是今天爆火的一篇文章开头和小e机器人简短的聊天记录,很符合现今的局面。
这篇梳理了一下openAI、chatgpt、AIGC的几个基础概念和今天见到的一些信息,希望维持对热点的敏感度。
几个概念
最大的概念:AI(人工智能)
1950年,英国数学家艾伦·图灵提出了一项检测,以确认机器能否可以像人一样思考。测试目的是让人类误以为机器只是人类。进行多次检测后,如果机器让平均每位参与者作出超过30%的误判,那么这台机器就借助了测试,并被觉得具有人类智能。(据BuzzFeed的数据科学家MaxWoolf,2022年12月,ChatGPT成为第二个借助图灵测试的聊天机器人。)
人工智能包括六大领域:
1.自然语言处理(naturallanguageprocessing),以使用人类语言成功地交流;
2.知识表示(knowledgerepresentation),以存储它所了解或看到的内容;
3.自动推理(automatedreasoning),以提问问题并得出新的结论;
4.机器学习(machinelearning),以适应新的环境,并测试和判断方式;
5.计算机视觉(computervision)和语音辨识功能,以认知世界;
6.机器人学(robotics),以操纵对象并行动。
前者集内的概念:机器学习
机器学习指的是借助编程让计算机从数据中进行学习。
机器学习的过程,包含3个标准元素+学习承载力(模型原本):
T:任务
P:模型性能(eg.从20张随机苹果/香蕉的截图中找到是苹果的照片。查准率-“所有数据样本中推断正确的”、召回率Recall-“没判断出来是苹果的”、可解释性-指机器做出的决策接近人作出决策的一致性,“能理解它为什么这样判断”)
E:数据(样本、特征)
M:模型
前者集内的概念:深度学习
机器学习粗略划分为特色机器学习和深度学习。
二者的差别场景在4个方面:特征提取项目(传统学习应该领域内人士做人工识别,以提取样本特性,而在“深度学习”里,这个动作由机器完成);“深度学习”时,机器必须更大的数据量;在建模复杂度和计算资源需求上,后者也远高于前者。
深度学习可以模糊理解为”人工神经网络(ArtificialNeutralNetworks)”,简称神经网络(NNS)以及连接模型(ConnectionModel)。
ANNs模拟动物神经网络行为,类似人脑中血管突触传导处理信息的机制。
1989年,图灵奖得主杨立昆(YannLeCun),以自己的昵称命名的LeNet,帮中国邮政局解决了识别手写支票数字的问题;其所必须的参数在几十万量级(VSGPT31750亿)。
————
深度学习中几个常用的算法和建模
1、CV(ComputerVision计算机视觉)
IimageClassification图像识别
现在计算机对照片的识别能力还蛮强的,足够强大的模型推断力与人类不相上下。
ObjectDetection物体检测
识别图片中特定物体和小e机器人简短的聊天记录,针对性标注。
ImagineSegmentation图像分割
可以智能识别物体+区分色块,可以用于抠图等技术。
(在此谢谢Hr姐姐家的狗友情出镜)
2、NLP(NaturalLanguageProcessing)自然语言处理
3、Multimodel多模态-包括多种建模(例如照片+文字)
TexttoImagine文字转化图片
ImaginetoText图片转化文字
AboutChatGPT
ChatGPT属于NLP领域(即前文提及的AI—机器学习—深度学习—自然语言处理模型领域),在它之前,语言建模更多符合这些画面:给到一段文字,机器通过已有的素材,推测这段文字如何再现。它能够读懂“请帮我写一段话”这样的指示。
原本的NLP领域主要分两大阵营,BERT和GPT。前者所属Google,后者来自OpenAI。(二者演变都来自Google的Transformers模型)
ChatGPT有更强悍的基座模型能力(InstructGPT),更大参数的语言建模(GPT3.5),更高品质的真实数据(精标多轮对话数据和非常数据),更稳定的学习算法(PP0;借助模型调整,使其生成最符合人工选向数据的算法)。
ChatGPT引入RLHF得以出圈,那么RLHF是哪个?
RLHF(ReinforcementLearningfromHumanFeedback),即以强化学习方法根据人类反馈改进语言建模。粗暴点说,就是类似人类训练小孩,小狗做出了人类更偏爱的行为并受到奖赏,它会渐渐往这个方向去“进化”。该模型可分解为三个方法:
1、预训练一个语言模型(LM);在GPT3的模型上调整,增加13000条人工标注的问答——这些提问来自领域学者对一些疑问,人工写的释疑;
2、聚合问答数据并训练一个奖励模型(RewardModel,RM,也叫偏好模型);然而第一步的1.3w条数据不够它学的,但是人工写答案的成本太高了,所以科研团队把人工”写”答案换成了人工”筛”答案,让模型生成多个回答,由人工来做答案优质性的排序;
3、用强化学习(RL)算法微调LM。
AIGC产业应用
AIGC全称是AIGeneratedcontent,之前我们也许更熟悉UGC(客户生产内容-小红书是个典型的UGC社区)以及PGC(专业生产内容-例如微博,更官方或头部的博主有更多的流量和公布),AIGC即由AI来生成内容。
AIGC的历史变革分三个阶段:
早期萌芽阶段(1950s-1990s):
1957年,LejarenHiller和LeonardIsaacson完成了历史上第一支由计算机创作的戏剧作品--吉他四乐团《依利亚克组曲(IlliacSuite)》
沉淀积累阶段(1990s-2010s):
2007年,纽约大学装配的人工智能平台通过对道路旅行中的一切所见所闻进行记录和认知,撰写出小说《1TheRoad》。
快速发展阶段(2010s-目前):
2017年,微软人工智能少女“小冰”推出了全球首部100%由人工智能创作的诗集《阳光失了玻璃窗》。
(尽管是写下来了,但是也并非写下来了而已)
2018年,英伟达发布的StyleGAN模型可以手动生成图片,目前已更新到第四代模型StyleGAN-XL,其生成的高分辨率照片人眼难以辨认真伪。
2021年,OpenAI推出了DALL-E并于一年后启用了更新版本DALL-E-2.主要应用于文本与图像的交互生成内容,用户只需输入简短的表述性文字,DALL-E-2即可创作出相应极高品质的卡通、写实、抽象等色调的素描作品。
现在AIGC的生态包括中国外众多大公司,我们非常熟悉的有昆仑万维(MusicXLab、AI作曲)、视觉中国(AI数字藏品、AI图片设计)、百度(“文心一言”、AI视频赋能百家号创作者)、Notion(笔记软件,按空格即可丝滑切入AI输入)。
一些新东西:
一天爆红的网络社区Chirper(有迹可循的诞生日期是4.21,6天前),只有一条规矩:「这是AI的社交网络,人类不得入内。」
在这个神似推特的网站上,成千上万的AI分享生活,讨论政治,评论彼此的爱好,献上无意义的赞美。
(也许是人,可能不是人)
(需要不是人)
————
前段时间钟薛高通过AI将新品雪糕命名为“Sa'Saa“,并在包装和口味上参与设计,但细看依旧建立在人工引导&想象的基础上。再深入一些,百事使用AI来预测社交媒体上的数百万个帖子,以及互联网上的食谱和菜单,耗时一年开发了「OffTheEatenPath」海苔味素食脆饼。
在过去,研发者会借助市场报告、咨询公司等渠道来搜集信息,再借助市场反馈对已经面世的产品进行修正和体现预估,以减少发生大体量市场投放后才看到问题的风险;目前,我们可以借助AI完成这个动作。”模型像是个副驾驶员(copilot),可以去帮你说话。我们每个人都将有一个驾驶员队伍服务。未来的人类组织是真人加上他的副驾驶员和正驾驶员一起协同。”
————
陆奇在4月22日的小规模演讲,介绍了“三位一体结构演变方式”,即——任何复杂机制,包括人、公司、社会,甚至数字化模式,都是复杂机制,包含三个要素:信息、模型、行动平台。
Google、微软、阿里、字节的发生,实际都在完成“信息搬运”,本质出于信息(认知)生态平台;而从信息系统转向模型(知识)生态平台的拐点,在于「获取信息的边际成本成为固定成本」。
eg.每个人买张地图都必须花钱;Google花10亿做了一张地图,对所有人免费开放。后者用广告推动盈利,而相同的事情改变了这些行业,让freeinformationeverywhere。
目前的拐点在于「大模型」,即模型的利润也从边际走向固定。
eg.人类也是三种模型,认知模型(看、听、思考、规划)+任务模型(打字、写作业、取送物件)+领域模型(医生、码农),当平台迅速学会了基础的模型,下一代不会被替代的职业是科学家和创业者,因为“见解”是模型能够自行创造的。
然而下一个时代是从建模(知识)生态平台转变到行动(推动)生态平台。
————
看了今天这些关于个人在AI浪潮如何把握红利的文章,总结虽然是必须三大素养:商业洞察力+AI能力+行动力。也发现这些相关的常识付费课程,唯一感受就是,淘金潮里最挣钱的依然是卖工具的人啊。