# AI及信息技术应用2024年5月20日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，能够执行通常需要人类智能才能完成的任务，如视觉识别、语言理解和决策制定。

## 2. 核心洞察 (TL;DR)
- OpenAI发布的GPT-4o模型在多模态处理能力上取得显著进步。
- Google在I/O 2024大会上展示多模态AI技术，强调负责任AI开发。
- 字节跳动推出豆包大模型和火山引擎全栈AI服务，助力企业智能化转型。

## 3. 关键事实与数据
- 关键事实1: GPT-4o模型在API使用成本效率方面比前一代模型提高了50%。
- 关键事实2: Google的AI生成内容检测水印技术可检测AI生成的文本。
- 关键事实3: 字节跳动豆包大模型每日处理1,200亿tokens文本并生成3,000万张图片。

## 4. 深度分析正文


AI及信息技术应用2024年5月20日简报
=====================

在过去的一周，人工智能领域取得了显著的进展，尤其是在多模态AI的开发和应用方面。OpenAI发布的GPT-4o模型因其高效性和多模态处理能力而引发广泛关注。此模型不仅在处理英文文本和编程任务方面表现优异，还显著提高了处理非英文文本和音频任务的能力。Google在I/O 2024大会上展示了其多模态AI技术的最新进展，强调了负责任的AI开发和隐私保护。与此同时，字节跳动推出的豆包大模型和火山引擎全栈AI服务，也推动了企业智能化转型。

在产品市场创新方面，ChatGPT的更新引入了直接访问Google Drive和Microsoft OneDrive的功能，大大提升了用户的数据管理和分析能力。此外，Google的AI生成内容检测水印技术，为打击虚假信息和版权侵权提供了新的解决方案。TikTok则开始测试使用ChatGPT的搜索功能，进一步提升用户的搜索体验。

在合规和监管领域，欧盟对微软发出了警告，要求其提供生成式AI工具的风险信息，否则将面临巨额罚款。OpenAI与Reddit达成合作，利用Reddit的实时内容来增强其AI模型，同时成为Reddit的广告合作伙伴。这一系列事件表明，AI技术的快速发展在带来巨大潜力的同时，也需要在合规和伦理方面进行严格的监管和审查。

**1，AI产业及应用研究**
---------------

#### OpenAI 发布 GPT-4o 模型 - 新一代 AI 技能震惊世界

**\[摘要\]：**5月13日，OpenAI发布了最新的人工智能模型GPT-4o（"o"代表“全”）。该模型集成到Stack AI中，并带来了显著的改进。GPT-4o的运行速度更快，而且相较于前一代模型，在API使用成本效率方面提高了50%。GPT-4o不仅在处理英文文本和编码任务方面保持了与GPT-4 Turbo相同水平的性能，还展现出了在处理非英文文本方面的增强能力。对于多模态爱好者来说，这款模型能够更好地处理包括文本、音频、图像和视频等多种格式的输入，并生成相应的输出。尤其是在音频处理方面，GPT-4o模型表现出了令人印象深刻的速度。它可以在232毫秒内为音频查询提供响应，这与人类对话中的典型反应时间相当，平均时间约为320毫秒。这一技术进步是人工智能领域的一个重大突破，预示着未来的应用可能会更加智能和高效。

#### **Google I/O 2024：多模态 AI 和负责任的技术创新**

**\[摘要\]：**在 Google I/O 2024 大会上，Google 推出了多模态 AI 的重大进展，能够处理文本、图像、视频和音频等多种数据形式，提升类人理解能力。亮点包括处理长文本的 AI、引入主动 AI 代理，以及 AI 在个性化教育中的应用。Google 强调了负责任的 AI 开发、隐私和安全，展示了确保技术惠及社会的努力，同时增强了开发者和用户体验。

#### **字节跳动豆包大模型发布，火山引擎全栈 AI 服务助力企业智能化转型**

**\[摘要\]：**字节跳动正式发布豆包大模型，旨在解决 AI 模型效果问题，每日处理 1,200 亿 tokens 文本并生成 3,000 万张图片。豆包大模型提供多场景服务，定价远低于行业平均，助力企业智能化转型。火山方舟 2.0 全面升级，提升模型效果和平台性能。多个企业如招商银行和蒙牛集团已实践应用豆包大模型。新发布的 veOmniverse 云开发平台和混合云 veStack 智算版，进一步提升企业 AI 基础设施。

#### **Google的自动内容生成播客：Transformer论文解读之旅**

**\[摘要\]：**Google最新产品展示了其在自动内容生成方面的巨大进步，通过将2017年发表的Transformer论文转化为4分多钟的双人对话式播客片段。这一尝试不仅展示了语言模型（LLM）在理解和传达复杂概念上的强大能力，也提醒我们中文互联网内容生态的严峻状况：高质量内容正面临着由于技术进步导致的信息噪声和劣质内容的洪涛。这一发展预示着我们需要采取措施，以确保良质内容能够得到更多的关注和传播。

#### 周三简讯：Ilya Sutskever离开OpenAI标志新时代开始

**\[摘要\]：**Ilya Sutskever，OpenAI的共同创立人员和研究总监，宣布他将在不久的将来离开OpenAI。这一决定标志着OpenAI自成一个团队以来，一个时代的结束。Sutskever在OpenAI的贡献无可估量，包括领导DeepMind与Google合作的项目之一。他的离职将对OpenAI的未来发展和研究方向产生深远影响。我们将在本周的新闻综述中更详细地探讨这一变动，并分析其对人工智能领域意味着什么，以及OpenAI如何应对这种变化。

Falcon 2：阿联酋技术创新研究院发布新AI模型系列，性能优于Meta新Llama 3

**\[摘要\]：**总部位于阿联酋的技术创新研究所 (TII) 发布了第二代 Falcon 开放模型。Falcon 2 有两个版本：11B 和 11B VLM。视觉到语言模型（VLM）是 TII 的第一个可以对文本和图像输入进行操作的多模式模型。据 TII 称，Falcon 2 11B 超越了 Meta 的 Llama 3 8B，与 Google 的 Gemma 7B 型号相当。

#### **OpenAI 与 Reddit 达成实时内容访问协议**

\[摘要\]：OpenAI 刚刚与 Reddit 达成协议，成功获取 Reddit 的实时内容数据。这一合作使得 OpenAI 的 ChatGPT 能够借助 Reddit 的丰富内容库，显著提升其智能水平。通过使用 Reddit 的数据 API，OpenAI 可以为用户提供更加实时和多样化的人工智能服务。此外，OpenAI 还成为了 Reddit 的广告合作伙伴，进一步巩固了双方的合作关系。尽管具体交易金额未公开，但这次合作无疑为 OpenAI 在人工智能领域的竞争中增添了强大砝码。

#### Google 推出下一代模型 Gemini 1.5

\[摘要\]：Google 宣布推出其最新的 AI 模型 Gemini 1.5，该模型在多模态长上下文理解方面取得了突破性进展。相比于之前的版本，Gemini 1.5 不仅显著提升了性能，还优化了计算效率和处理能力，能够在单次提示中处理高达 100 万个 token。这一进步将为开发者和企业用户提供更强大的工具，支持更加复杂和高效的应用开发。Gemini 1.5 现已在 AI Studio 和 Vertex AI 上开放预览。

DeepSeek-V2 by DeepSeek-ai实现了新的MoE模型基准，激发了机器理解能力的进步

\[摘要\]：DeepSeek-ai团队推出了另一款高效的多任务学习模型——DeepSeek-V2，其中包含了21亿参数的活跃部分和236亏总参数。该模型在机器理解（MMLU）测试中取得了显著成绩，引发了对于大规模语言模型（SLMs）能力的重新评估。尽管有些评论家对DeepSeek-V2以及它的前身Yi 1.5在MMLU上达到的分数表示怀疑，但这些成果无可否认地推动了开放模型领域的研究。将多头注意力（MoE）模型的规模扩展到100+亿参数是一个重大技术挑战，DeepSeek-V2的成功在此方面为未来的发展奠定了基础。

01-ai推出Yi-1.5-34B模型，进一步加强了国内开放AI研究地位

\[摘要\]：中国公司01-ai最近宣布推出其新一代基础模型——Yi-1.5-34B，该模型包含6亿、9亿和34亿参数的三种版本，其中包括专门针对聊天应用的变体。这个模型展示了01-ai在开放AI领域的强大能力，尤其是在大规模模型训练和部署方面。随着Yi-1.5-34B的推出，中国的AI研究者有望与世界各地的开放参与者竞争肩并肩，且模型数量上的优势也逐渐显现。虽然Yi-1.5-34B在技术上表现出色，但它尚未提供那些能够引起广泛关注和震惊的突破性创新。尽管如此，这一模型代表了中国AI研究领域不断进步的徵兆，预示着未来可能会出现更多独特的技术和应用。

Google的Paligma-3B-PT-896在视觉语言理解领域展示了强大性能

\[摘要\]：Google在其开放源代码库中推出了名为Paligma-3B-PT-896的新型视觉语言模型，该模型是Gemma套件的一部分。这个模型以其在处理和理解视觉内容方面的高效能力而受到市场的广泛关注。Paligma-3B-PT-896使用了3亿参数，并且在实验室的测试中表现出色，尤其是在图像识别和理解复杂语言描述方面。此外，这个模型的发布也证明了Google在人工智能领域的持续创新和领先地位。用户对Paligma-3B-PT-896的反馈表明，这个模型在视觉语言理解的领域是一个显著的进步，尤其是在热门AI研究领域的竞争激烈。

Llama3-OpenBioLLM-70B by aaditya：生物学微调的创新之举  
\[摘要\]：在AI模型微调领域，我注意到了一个令人印象深刻的Llama 3 70B版本，它专门针对生物学进行了训练。这一做法显示出对微调领域的投入和认真态度。该模型的出现时间较短，仅需两周左右，这在AI研究中并不常见。与之相比，使用DPO或类似PPO方法所需的时间更长。Llama3-OpenBioLLM-70B的推出不仅展示了aaditya在生物学微调方面的专长，也为未来的生物学AI研究和应用奠定了基础。

AI教母李飞飞创办人工智能公司 - 未来展望  
\[摘要\]：知名人工智能研究者和ImageNet项目的创建者李飞飞（Fei-Fei Li）筹得风险投资，并成立了一家新的AI公司。该公司的具体细节，包括其名称TBD、主要合作伙伴，如Andreessen Horowitz和Radical Ventures，以及其他所有内容，都尚未公开。

Google DeepMind 展示新AI模型 - Project Astra  
\[摘要\]：Google DeepMind 展示了一款名为Project Astra的人工智能（AI）模型，该模型能够观看视频并实时进行对话。这一成就标志着人工智能领域的一个重大进展，因为它向目标构建可以在世界上自主行动的人工智能代理迈出了重要一步。除此之外，Google宣布将对Gemini系列闭源模型和Gemma系列开源模型进行改进。

谷歌推出人工智能生成文本的水印技术  
\[摘要\]：谷歌最近宣布了一项新的技术，它能够在不影响质量的情况下检测人工智能（AI）生成的文本。这项创新旨在通过在AI生成的内容中添加隐形水印来打击错误信息、侵犯版权和剽窃行为。该水印工具旨在最好地处理更长、更多样化的文本，进而成为确保在线内容真实性的重要一步。这一技术的推出表明谷歌对打击AI生成内容中的虚假信息表示了强烈的承诺，并且对未来的人工智能应用持有积极态度。

**2，产品市场创新  
  
**
------------------

ChatGPT更新：引入GPT-4o，实现直接Google Drive与Microsoft OneDrive访问功能

**\[摘要\]：**在最近的更新中，ChatGPT的GPT-4o版本为用户带来了一项重大功能：即可直接连接并操作Google Drive和Microsoft OneDrive。这一升级使得用户能够更方便地管理和分析存储在云端的文件，无需下载到本地系统。此外，新版本的数据分析功能进一步提升了ChatGPT在处理复杂数据集方面的能力，为用户提供了更加高效和智能的数据分析体验。

Twitter.com的变化引发关注  
**\[摘要\]：**据The Verge报道，X公司宣布采用其自家的核心系统X. com，这意味着当用户在浏览器中输入Twitter.com时，他们将被重定向到X. com。然而，在我尝试访问Twitter.com后并未观察到此转变的发生。这次更改的过渡就像马斯克收购Twitter时的大部分事件一样，未能顺利进行。

OpenAI在ChatGPT中引入新的数据分析功能  
**\[摘要\]：**OpenAI宣布在其人工智能模型ChatGPT中引入了用于数据分析的新功能。根据OpenAI，这些更新将大幅提升对数据进行探索、处理和可视化的能力，包括添加文件、处理大型数据集以及直接在平台内创建图表。这些增强功能旨在使用户能够更快速地从数据中获得见解，并且不需要离开ChatGPT平台。这次更新体现了OpenAI对其产品持续改进和扩展的承诺，特别是在为用户提供更加便捷和直观的工作流程方面。

谷歌 I/O 2024：新一代的人工智能功能亮相  
**\[摘要\]：在Google I/O 大会上，这家科技巨头推出了Project Astra ，这是一项史无前例的举措，旨在开发能够实时感知、推理和对话的通用人工智能代理。﻿ 该版本发布前一天，OpenAI 发布了GP，**在一次研讨会，公司展示了其人工智能（AI）技术的最新进展。包括Gemini AI模型、增强的搜索能力以及对视频和图片识别技术的创新应用。此外，谷歌还宣布了聊天机器人的定制创建、数学问题解决帮助以及针对Android设备的欺诈电话检测功能的提升。此外，谷歌还展示了SynthID水印技术的更新，并且推出了一个新的AI助手来增强Chrome桌面浏览体验。总体而言，这个活动展现了谷歌持续在AI创新和用户体验上下功夫的承诺。

谷歌推出“网络”搜索过滤器，专为文本结果优化  
**\[摘要\]：**谷歌最近宣布了一项新的搜索功能，其名为“Web”过滤器，它旨在为用户提供基于文本的链接。该过滤器与图像和视频等其他过滤器一起显示，旨在满足那些偏好经典蓝色链接而不是知识面板或人工智能生成答案的用户需求。通过引入这一新功能，谷歌试图提供更加个性化和优化的搜索体验。

TikTok 测试使用 ChatGPT 的搜索功能  
**\[摘要\]：**TikTok 正在测试一项新的人工智能搜索功能，该功能使用 OpenAI 的 ChatGPT 返回搜索结果。这项功能旨在为用户提供更加相关和个性化的搜索体验，尤其是针对那些寻找餐厅或产品推荐等内容的用户。据报道，人工智能生成的结果将显示在某些搜索结果页面顶部，但并非所有查询都有的人工智能答案，因此并不保证所有搜索都会返回人工智能响应。此外，该平台已开始自动标记用人工智能生成或编辑的内容，这表明它对人工智能的认真态度以及对潜在滥用的关注。

**3，合规和监管  
  
**
-----------------

**欧盟警告微软可能因缺少 GenAI 风险信息而被罚款数十亿美元**  
**\[摘要\]：**欧盟警告微软，根据《数字服务法案》(DSA)，如果微软未能充分回应有关其生成式人工智能工具信息的请求，可能会被处以最高相当于其全球年收入 1% 的罚款。这项请求于 3 月份提出，旨在详细了解 Bing 中的人工智能功能所带来的系统性风险，包括“Bing 中的副驾驶”和“设计师的图像创建者”。欧盟特别关注这些工具对公民话语和选举进程的影响。Microsoft 必须在 5 月 27 日之前遵守规定，否则可能会面临执法行动，包括定期罚款高达每日收入的 5%

OpenAI与Reddit达成协议，利用Reddit获取实时内容  
**\[摘要\]：**OpenAI宣布与Reddit建立合作伙伴关系，将利用Reddit的实时结构化内容（包括帖子和回复）来增强其人工智能模型，特别是ChatGPT。通过此次合作，两家公司目标是在为Reddit用户和版主开发新的人工智能功能，并且OpenAI还将成为Reddit广告合作伙伴。此公告的反应尚待观察。值得注意的是，在2023年6月，Reddit对其API定价进行更改后，有超过7,000个子版块被关闭，这表明用户对于此类变化持有强烈反响。

开放人工智能（OpenAI）首席科学家 Ilya Sutskever 即将离职  
**\[摘要\]：** 在面对一系列挑战后，包括针对首席执行官萨姆·奥尔特曼（Sam Altman）的政变企图失败以及围绕苏茨克维尔（Sutskever）角色不确定性之后，OpenAI 联合创始人兼首席科学家 Ilya Sutskever 宣布即将离开公司。这个决定引发了广泛的关注和讨论。根据官方声明，研究总监 Jakub Pachocki 将接任首席科学家的位置，他在 GPT-4 和 OpenAI Five 的开发中扮演了关键角色。此外，Sutskever 提到他将投身于一个“对个人非常有意义”的新项目，但具体内容尚未公开。随着 Sutskever 离职的消息公布，人们对于 OpenAI 未来的发展道路以及该公司如何应对挑战持关注态度。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240520-ai2024520](https://www.haxitag.com/briefs/ai-brief-20240520-ai2024520)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。