大智号

探索人工智能AI世界

大智号之AI周报：2023年12月04日～12月10日

2023.12.10

本周的看点是谷歌Gemini大模型，从其发布会的演示视频看，是相当的景岩，能够实时感知人类动作，并作出回应，真的就是钢铁侠Javis的初级版了。

从这一周的动态看，主要还是AI大厂在各种讲故事。AI领域里，尤其是AI基础设置，小玩家的声量都不够——毕竟AI首先是个智力密集型的领域，其次是个资金密集型的领域——AI大厂占据了各方面的优势。

不过，在任何时候、任何领域，总会有些属于小公司、创业团队的机会出现的。

以下周报内容，敬请享用：

12月7日，谷歌发布了「Google 迄今为止规模最大、能力最强以及最灵活的AI模型」Gemini，试图重新争夺AI霸主的行业地位。

谷歌Gemini大模型的演示视频爆火全球。在视频中，谷歌Gemini像机器人贾维斯一样能够实时地感知人类的动作并且直接做出语音回应：一边看着用户绘画、变魔术、放视频，一边实时对画面进行分析，并主动和用户对话交谈，这让人大呼「《钢铁侠》的AI 助手贾维斯指日可待」。

Gemini是「原生多模态」架构，首次在MMLU（大规模多任务语言理解）测评上超过人类专家的水平，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

Gemini是迄今规模最大、能力最强的谷歌大模型，根据内部消息，Gemini有万亿参数，训练所用的算力甚至达到GPT-4的五倍。在性能方面，几乎全方位超越GPT-4

Gemini 大模型包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。

模型发布后，质疑声也随之而来。产业大佬如Hugging Face技术主管菲利普•施密德（Philipp Schmid）称谷歌夸大了测评成绩；爆火Gemini宣传视频也被曝不是实时演示录制，而是精心挑选和剪辑的营销内容，不太可信。谷歌官方澄清，视频是实拍剪辑，但场景真实地，并放出了视频拍摄证据。
谷歌发布了在无监督语音翻译的突破——Translation 3。通过利用SpecAugment、MUSE嵌入和反向翻译，Translatotron 3在翻译词汇的同时，更能处理停顿、语速、说话者身份等非文本语音细微差异。
在Meta AI成立10周年之际，研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」（Seamless Communication）模型。作为首个开源的「大一统模型」，Seamless集成了其他三款SOTA模型的全部功能（SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2），可以实时进行更自然、更真实的跨语言交流
由Meta和IBM牵头，总计50余家科技公司、高校和机构共同成立了——AI联盟（AI Alliance）。联盟成员里，有不少老牌科技公司：AMD，英特尔，戴尔，甲骨文，索尼等，以及在AI浪潮之后崛起的初创公司：Hugging Face，Stability AI等。联盟的主要任务就是「支持开放创新（Open Inovation）和开放科学（Open Science）」。根据AI联盟官方的数据，这50多个机构汇集了每年超过800亿美元的研发资金，力战OpenAI英伟达
12月6日，在旗下AI助手Copilot发布一周年之际，微软宣布Copilot迎来三大重磅更新，包括新模型、新搜索以及代码解释器，图文能力、代码能力大幅升级。 ChatGPT Plus能干的活，升级后的Copilot几乎都能干，并且还免费。

此次更新，Copilot不仅即将支持OpenAI最新的GPT-4 Turbo模型，还将文生图模型DALL-E 3进行了全面升级，从而提供更高质量、更准确的图像。搜索方面，Copilot推出两项新功能，分别从多模态、意图理解方面对搜索引擎进行加强。代码解释器目前推出简单版，能以自然语言生成代码，并支持在沙盒环境中运行，后续还将支持上传和下载文件。
继谷歌DeepMind AI工具GNoME成功预测出220万种晶体结构后，微软团队最新扩散模型MatterGen，能设计生成新颖、稳定的材料，稳定性超SOTA模型2.9倍。AI再次颠覆材料学
微软最新研究再次证明了提示工程的威力：无需额外微调，无需专家策划，仅凭提示，GPT-4就能化身「专家」。微软使用他们提出的最新提示策略Medprompt，在医疗专业领域，让GPT-4在MedQA数据集(美国医师执照考试题)的九个测试集上准确率首次超过90%，超越BioGPT和Med-PaLM等一众微调方法
在今年年初CES上发布过 MI300系列之后，美国时间12月6日，AMD在其举办的Advancing AI 活动上，又发布了这一系列两款新芯片——MI 300X和MI 300A。MI 300X芯片是适用于各种各样生成式AI应用场景的芯片；MI 300A则更适用于用在HPC 应用和数据中心上
InflectionAI发布了全新的一款AI模型——Inflection-2，在多项标准的基准测试中，成绩碾压谷歌5月发布的PaLM Large 2模型，还在很多不同的项目中击败了Meta开发的LLaMA-2。该模型由5000个H100训练而成，性能直追GPT-4
来自UC伯克利的计算机视觉「三巨头」联手推出了第一个无自然语言的纯视觉大模型（Large Vision Models），并且第一次证明了纯视觉模型本身也是可扩展的（scalability）。更令人震惊的是，LVM竟然也能做对图形推理题，这或许意味着LVM也展现出了「AGI的火花」
RAG（检索增强生成）技术能显著提高LLM（大型语言模型）性能、降低成本投入。实验结果表明，RAG技术在准确性、成本和延迟方面表现良好。与上下文窗口填充相比，RAG技术在成本和性能方面具有优势，RAG技术可能是大模型能力飙升的未来发展方向

20231210，文章初稿

AI 人工智能 AI周报