人工智能
2023:人工智能之年
毫无疑问,人工智能在2023年掀起了波澜。下面我们将重点介绍今年最有影响力的一些新闻,它们注定会塑造这个颠覆性行业的未来:
人工智能的进步
在今年的人工智能进步景象中,有值得注意的进展,已经提炼出现有的技术,而不是引入像前一年的ChatGPT或者图片生成器那样的突破创新。虽然没有什么惊艳的效果,真正的通用人工智能(AGI)还很遥远,但今年标志着早期突破与更强大力量到来之间的中间阶段。为了展示这种演变,我们制作了一个视觉时间线,突出今年最显著的人工智能发展:
图像生成
Adobe Firefly:Adobe的Firefly和Generative Fill赋能了多样化的视觉内容创造,包括插图、艺术概念和照片处理。Adobe Firefly被整合到Photoshop中,使众多用户能够一次性享受到AI的力量。文本效果特性的发布也算是一大进步,它让用户可以将样式或者纹理应用到单词和短语上。
Midjourney:Midjourney的V.5模型在图像生成中设置了一个里程碑,展示了提高的效率,连贯性,和更高的分辨率。最新的alpha版本Midjourney V.6带来了其他的优化,比如更精确的提示跟踪,增加的模型知识,以及少量的文字绘图能力。
DALL·E 3:基于ChatGPT构建的DALL·E 3简化了图像生成,消除了复杂的提示工程的需要。此外,ChatGPT引入了一个能够帮助用户根据反馈优化升级图像的特性。
Shutterstock.AI:这个图片库巨头集成了人工智能功能,让用户能将提示变成可授权的图象。Shutterstock走在了合理的AI应用的最前沿,它辨识并且奖励了贡献者。
视频生成
Stability AI:Stability AI引入了Stable Video Diffusion,这是一种用于生成视频的突破性模型,并在GitHub上开放了源代码。借鉴AI图像生成的趋势,Stable Video Diffusion模型很可能会在生成大部分AI视频的过程中发挥关键作用。
HeyGen:AI初创公司发布了一个用于视频中的语音克隆、嘴唇调整和语言翻译的工具。
Runway Gen-2:Runway发布了Gen-2模型,使用户可以只用文本提示、图片,或者其它视频,就能毫不费力地生成全新的视频。下面就是一个例子。
Pika和Pika 1.0:在初始版本发布之后,Pika获得了五十万用户,每周生成数百万视频。然后升级的AI模型Pika 1.0赋能了用户以各种风格创建和编辑视频,包括3D动画、日本动漫、卡通、和电影画面。
Codec avatars by Meta:Meta的Pixel Codec Avatars (PiCA)模型使我们离视觉感真实的远程存在更近一步。
文本生成
Bard和Gemini:谷歌的"Bard"赋予了聊天机器人一种像人一样的情感和情绪。双子星是在Bard聊天机器人中引入并且在多模态数据集上进行训练的,谷歌称其为“最有能力的”AI模型,也是OpenAI的ChatGPT的最接近的竞争对手。
Grok:艾隆·马斯克的创业公司xAI发布了“Grok”——一款拥有幽默感、反叛精神和通过X平台实时获取知识的聊天机器人,以此显示出其对AI发展的承诺,可能会与OpenAI竞争。xAI承诺格洛克设计用来回答其他AI系统拒绝的挑衅性问题。
OverflowAI:Stack Overflow的OverflowAI增强了知识策展的功能,启用了AI驱动的答案搜索,适用于Visual Studio代码和Slack。
Lama 2:Meta发布了Lama 2,它的下一代开源的大型语言模型,展示出了增强的效率。Meta优化过的LLM也适用于对话用例,而且在大多数基准测试中胜出其他开源模型。
GPT-4:OpenAI的GPT-4现在可以处理图像输入,生成标题,分类,听取并在对话中进行应答,支持实时网页浏览。OpenAI也扩展了对插件的支持,从而使得开源竞争者丰富的平台景观。GPT-4是OpenAI开发AGI路程的下一步。
Mistral 7B:今年估值约达20亿美元的Mistral AI发布了Mistral 7B,这是一款大型语言模型,挑战GPT-4和Claude 2。为了重申开放科技的路线,Mistral AI提供其模型免费下载。
Mixtral 8x7B:Mistral AI也推出了Mixtral 8x7B,这是一款质量上乘的稀疏混合专家模型(SMoE),含有公开的权重,总共有467亿个参数,这在增强真实度和减少偏见的模型中具有开创性。
Yi-34B llm:今年估值达10亿美元的李开复的创业公司01.AI发布了Yi-34B——一款比具有明显更高参数计数的竞争模型表现更好的开源神经网络,强调其成本效率。
其它进步:
裁剪任何模型(SAM):Meta AI展示了SAM,这是一个"剪切"图像中物体的裁剪模型,强调其适应性,不需要额外的训练。SAM在大数据集上进行训练,显示出在对象分割中的强大表现。
直接偏好优化(DPO):DPO成为对大规模无监督语言模型进行微调和教授文本到图像模型的稳定和高效的方法,实现了精确定制,无需复杂的人工反馈强化学习(RLHF)。
Zephyr直接馏分的LM对齐:由直接馏分偏好优化(dDPO)制成的Zephyr-7B成为了带有70亿参数聊天模型的基准,增强了意图对齐而无需大量训练。
自主AI代理:自主AI代理作为一个值得注意的趋势,展示了一个向高级和自主AI系统转变的变革性转变。AI代理被视为AGI的第一眼,因为他们可以基于用户的目标生成自我引导的任务和指令,并且在达成目标之前自行工作。
EvoDiff:微软的EvoDiff,这是一个用于快速和节省成本的蛋白质生成的开源AI框架,承诺在治疗和工业应用上有所突破。
稳定音频:Stability AI发布了一个从简单文本提示生成短小高质量音频剪辑的工具。
GPT商店,版权保护盾,ChatGPT机器人构造器:OpenAI推出了GPT商店以出售自定义的GPT机器人,版权保护盾来抵挡与版权侵权索赔有关的法律成本,以及一个用于自定义ChatGPT版本的无代码平台。
Stability AI开源其LLM:Stability AI已经开源了其模型,StableLM-Alpha和Stable Vicuna,它们因在生成文本和代码方面的出色表现而闻名。Stable Vicuna是第一个使用人工反馈强化学习(RLHF)训练的开源聊天机器人。此外,Stability AI还揭示了SDXL Turbo,这是一个实时的文本到图像生成模型。
合作
在动态的2023年,业界领袖之间有重大合作出现,塑造了未来的轨迹。以下是定义了今年AI风貌的顶级合并和合作:
Stability AI 和 Init ML
Stability AI进行了一项重大动作,收购了热门编辑应用ClipDrop背后的Init ML。目标明确:将Stability AI的先进技术融入到ClipDrop的生态系统中。合作已经带来了SDXL Turbo的开发。
Runway 和 Getty Images
Runway与Getty Images达成了策略性合作,推出了新的视频生成模型RGM(Runway和Getty Images模型)。该模型将Runway的AI能力与Getty Images的授权创作内容库结合在一起。合作旨在革新内容创建工作流,使公司能够生成高质量,定制的符合品牌身份的视频。
Snowflake 和 Neeva
数据仓库平台的巨头Snowflake收购了Neeva,这是一个以使用生成AI来增强搜索体验而知名的初创公司。Neeva最近关闭了其订阅为基础的、无广告的搜索引擎。Neeva的创办者们也承认,说服用户尝试一个新的搜索引擎是一项挑战。
Shutterstock和OpenAI
Shutterstock和OpenAI承诺进行为期六年的长期合作。OpenAI获取了来自Shutterstock的高质量数据,用各种图像,视频和音乐库丰富其模型训练数据集。Shutterstock继续利用OpenAI的技术,推出了Shutterstock的AI图像生成工具。
法律环境
在不断发展的AI的法律领域,2023年顽固于一片充满不确定性和持续辩论的环境。随着新挑战的出现,有关版权、公司政策和更广阔的监管框架的讨论继续,塑造着AI的法律环境的轮廓。以下是2023年最重要的法律问题:
欧洲AI法案
欧盟推出了世界上第一个全面的AI法案,对AI的使用进行规范。该法案根据AI系统所带来的风险进行分类,并相应地制定规定。虽然AI法案已经得到了暂时的同意,但其实施面临延期,执行工作将在2025年开始。
美国版权局对AI生成内容的注册立场
美国版权局坚决拒绝了AI算法Midjourney创作的图像的版权注册申请。该拒绝为未来设定了一个先例,即仅由AI创作且无人参与的AI艺术作品不符合版权保护的要求。与此同时,美国版权局就AI辅助作品发出了指导意见,明确了使用AI工具的人类创作的作品可能符合版权保护的要求。该指导意见确认了使用AI工具的人类创作的作品应根据人类在这些作品的创作过程中的角色是否具有决定性进行评估。
"在当前的法律体系下,未准备好承认AI创作的作品的版权,因为AI是从属于其他人的现有数据中学习的,这挑战了所有权的归属。解决这个问题的做法预计将在明年通过国家进行的调查中得以开展,需要公众的参与。现在独立解决这个问题已经很困难,需要有更广泛的公众参与。”
Everypixel公司的企业律师Daria Kuznetsova说。
麦肯锡还发布了一个全面的图表,捕捉到了2023年与AI治理相关的政策和法规努力的最重要的方面。视觉呈现突显了2023年在塑造AI的法律格局方面的重要贡献。
争议
2023年充满了引人入胜的争议和讨论,对AI领域的不确定性和发展规则进行了深入探讨。随着行业的发展,这些争议变得不可避免,预示着更多的富有启发性的对话和挑战在地平线上。以下是一些定义了这一年的最值得注意的争议:
对ChatGPT的公司限制
包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等主要金融机构已经限制了ChatGPT的使用,因为他们对安全和隐私问题感到担忧。这反映了一个更广泛的趋势,即公司正在向员工发出警告,关于在企业环境中应用AI的法律考虑问题。
OpenAI使用低工资工人
《时代》杂志的调查揭露了OpenAI与Sama的合作,雇用肯尼亚的低工资工人为ChatGPT筛选敏感内容。这一发现引发了有关对待工人的方式和内容审查对心理健康影响的伦理问题。
OpenAI的领导层更迭
上个月,萨姆·奥尔特曼的离职和快速回归成为了头条新闻。OpenAI经历了一次领导层的变更,因为萨姆·奥尔特曼在与董事会沟通不一致的情况下辞职。临时CEO米拉·穆拉蒂以及大部分的员工支持奥尔特曼的回归。这个前所未有的情况吸引了广泛的关注,留下了关于更迭背后的真正原因和未来影响的问题。
Adobe和Figma
Adobe对Figma的200亿美元收购计划遇到了监管障碍,引发了欧盟委员会和英国竞争和市场管理局对可能存在的反垄断问题进行的调查。提议的交易影响也超出了设计考虑,因为Adobe在客户数据平台上的主导地位使首席信息官对其在云软件开支上的潜在影响感到担忧。然而,由于在欧洲和英国获得反垄断审批的挑战,Adobe放弃了交易,导致了向Figma支付了10亿美元的终止费。
摄影师黑客攻击世界摄影大奖
摄影师Boris Eldagsen在索尼世界摄影大奖中提交了AI生成的艺术作品,引发了混乱。Eldagsen拒绝接受奖项引发了对AI生成图片在传统摄影比赛中的位置的辩论,挑战了人们对真实性和创造性的看法。
本文译自 everypixel,由 超载鸡 编辑发布。