# AI及信息技术应用2024年4月14日简报

## 4. 深度分析正文


AI及信息技术应用2024年4月14日简报
=====================


在过去的一周中，人工智能领域在技术创新、产品开发、硬件进步以及合规监管等方面都有显著的发展和变化。这些进展不仅推动了AI技术的应用和普及，也为未来的AI发展提供了新的方向和可能性。首先，JetMoE项目成功训练出了性能超越Llama-2级别的大模型，仅花费10万美元，这一成就展示了机器学习领域的创新潜力和成本效益。此外，Google推出了具有无限注意力的新型Transformer架构，这一架构为AI系统中更高级的推理、规划和持续学习能力打开了新的可能性。

在硬件方面，英特尔推出了新一代AI加速芯片Gaudi 3，其性能和效率均超越了英伟达的H100，这标志着英特尔在AI加速领域的技术进步和竞争力。同时，华为与北京大学联合推出了“DiJiang”架构，该架构大幅降低了大规模语言模型训练的成本，同时保持了原有高水平表现。

在产品市场创新方面，VidyoAI发布了2.0版本，更加注重视频内容检索和媒资管理功能，展现了智能化媒资管理领域的潜力和创新。Google Gemini Pro 1.5的发布，提供了免费的API访问层，这可能会促进更广泛的AI应用和服务的开发。

在合规和监管领域，国家广电总局发布了针对微短剧的新备案规定，这将对微短剧的商业模式和制作方式带来更严格的监管要求。同时，德国石勒苏益格-荷尔斯泰因州政府宣布计划将数万系统迁移至Linux操作系统，这是该州长期推动开源软件开发的一部分，旨在提高IT安全性和协作能力。

**1，AI产业及应用研究**
---------------

用10万美元训练的JetMoE大模型性能超越Llama-2级别

**摘要****：** 最新的AI技术成就展示了JetMoE项目的成功，该项目仅花费10万美元就训练出了性能超越Llama-2级别的大模型。JetMoE采用了模块化架构和稀疏激活机制，使得大模型的开发成本大幅降低，展示了机器学习领域的创新潜力和成本效益。该项目由MIT和普林斯顿等研究机构的团队共同开发，采用公开数据集和开源代码，显示了其学术界友好性和技术前沿性。JetMoE的成功彰显了对机器学习和人工智能领域的激情和创造力，为未来大规模模型的开发提供了重要的启示。

Google发布“不留上下文：具有无限注意力的高效无限上下文Transformer”

****摘要****：**** Google推出了一种名为“不留上下文”的新型Transformer架构，引入了“Infini-attention”无限注意力机制，将压缩内存、掩码局部注意力和长期线性注意力结合到单个Transformer块中。Infini-attention为使LLMs高效处理非常长的上下文提供了一种有前景的方法，为AI系统中更高级的推理、规划和持续学习能力打开了新的可能性。

英特尔推出新一代AI加速芯片Gaudi 3，性能和效率均超越英伟达的H100

****摘要****：**** 英特尔宣布推出新一代AI加速芯片Gaudi 3，预计今年三季度可以OEM量产。该芯片号称在性能和效率方面都优于英伟达的H100。据报道，与Nvidia H100相比，Gaudi 3在平均训练时间上比Llama2模型（参数为7B和13B）快50%，同时比H100更节能，推理速度更快，效率提高了40%。此外，Gaudi 3在内存容量和带宽方面也表现出优势，展示了英特尔在AI加速领域的技术进步和竞争力。

Gemma系列迎来开发者和研究人员定制的新模型扩展

****摘要****：**** Gemma家族迎来新成员！针对机器学习开发者和研究人员的需求，我们推出了两款全新的Gemma变体：CodeGemma和RecurrentGemma。CodeGemma专注于代码完成、生成和指令跟随，而RecurrentGemma则优化了效率，提供了更快的推理速度和更高的内存使用效率。这些模型基于Gemma的研究技术，并且在开放性、高性能、以及责任性设计等方面继承了Gemma的特点。我们鼓励您立即开始尝试这些新模型，并在Kaggle等平台上分享您的反馈，共同推动AI驱动的内容创作和理解的未来。

华为联合北大推出“DiJiang”架构：大模型训练成本压缩50倍，性能不变

****摘要****：**** 华为诺亚方舟实验室与北京大学联合推出了名为“DiJiang”的创新架构，旨在解决大规模语言模型训练中的高成本和能耗问题。通过基于频域核化的策略，DiJiang将预训练的标准Transformer转化为具有线性复杂度的模型，大幅降低了训练成本，同时提升了推理速度。实验结果表明，DiJiang架构不仅能在无需全量重训练的情况下成功转化Transformer模型，并保持原有高水平表现，而且在大规模预训练模型上取得了显著的训练成本降低，展现了巨大的节约算力资源和减小碳足迹的潜能。

Mistral发布Mixtral 8x22B基础模型，尚未适用于大多数生产用例

**摘要****：**Mistral发布了Mixtral 8x22B基础模型，但此版本并非经过指导/对话微调。这意味着它不适用于大多数应用程序中常见的提示和回答式样，而更适合评估和那些希望微调自己的指导版本的用户。我们期待Mistral和社区发布指导变体。同时，我们将开始进行基准测试，以了解质量和速度动态，并计划在发布指导模型后切换使用。如果您尝试使用它，请注意提供商正在托管Mixtral 8x22B基础模型在Completions端点上（而不是ChatCompletions端点），这意味着如果您想用于聊天用例，则需要自行提供聊天消息格式化。

OpenAI推出Voice Engine：15秒语音转录与模仿工具

****摘要****：**** OpenAI最近推出了名为Voice Engine的语音克隆工具，仅需15秒语音音频，便能转录并模仿原始说话者的声音。该技术于2022年底开发，效果非常出色。

LabelStudio：开源数据标注平台助力小数据集精细调优

****摘要****：**** LabelStudio是一款免费开源的数据标注平台，随着开源模型的不断进步，针对特定领域使用小数据集进行Finetune成为重要趋势。该平台支持编写特定集成实现自动标注或半自动标注，提供丰富的标注模板，涵盖计算机视觉和生成式AI LLM等多个领域，满足各种标注需求。

微软升级Azure AI语音服务，发布9种更真实的AI语音

****摘要****：**** 微软最近对Azure AI语音服务进行了升级，推出了9种更真实的AI语音模型。这些模型在中文支持方面表现完美，几乎无法分辨其与真实人类语音的差异。

Bhuman：开启企业营销的数字人视频新时代

****摘要****：**** Bhuman是一款与Heygen等产品不同的新型数字人视频平台，为企业营销提供了全新思路。它提供一系列适用于销售、市场营销、面试等场景的真人视频模板，并支持上传个人视频并实现声音克隆。用户只需替换客户名称和公司名称，即可生成高质量、低成本的数字人视频，其中90%为真人成分，10%为生成成分。这一创新启示了在数字人领域，应该注重场景的选择，而非单纯追求生成技术的进步。

SambaNova发布Samba-CoE v0.3：大规模机器学习模型路由的新里程碑

****摘要****：**** SambaNova推出了Samba-CoE v0.3，这是基于合成专家（CoE）的模型，在OpenLLM Leaderboard上超越了DBRX Instruct 132B和Grok-1314B，用于大规模机器学习模型的路由。新版本通过改进路由器和专家的使用，提高了模型的质量。当路由器对查询不够自信时，模型可以回退到基本LLM，展示了在SambaNova平台上如何组合多个小型模型来构建具有广泛适用性和高精度的大型LLM系统。这一进展突显了SambaNova平台在构建和部署CoE模型方面的优势。

Meta发布下一代人工智能芯片：MTIA

**摘要****：**Meta推出了其最新产品，下一代MTIA芯片，采用更小的5nm设计。该芯片性能是前身的三倍，具有强大的冲击力。虽然尚未将其用于人工智能训练，但Meta的举动预示着即将发生重大事件。随着谷歌和微软的竞争加剧，人工智能主导地位的争夺正变得愈发激烈。

**OpenAI 发布 GPT-4 Turbo 正式版，集成 GPT-4 Vision**

****摘要****：****OpenAI 已发布了 GPT-4 Turbo 的正式版，将 GPT-4 Vision 直接集成到模型中。此更新为图像输入引入了新的功能和 JSON 输出，并据称对模型进行了“重大改进”。GPT-4 Turbo 现在可以处理更广泛的任务，包括图像生成、编辑和描述。它还可以生成 JSON 输出，这使得与其他应用程序和服务集成更加容易。OpenAI 没有具体说明“重大改进”的含义，但用户报告称该模型的性能和准确性都有所提高。

Quora推出Poe机器人平台，为创作者提供收入模式

****摘要****：**** Quora推出了Poe人工智能聊天机器人平台，为美国创作者提供了每条消息的收入模式。这一举措使机器人创建者能够通过用户交互赚取收入，为创意和技术的融合带来了全新的商业机会。这种创新可能会影响人工智能交互的未来发展，并推动更多智能应用的创造和使用。

**Udio 革命性的人工智能音乐创作**

****摘要****：****前谷歌 DeepMind 研究人员推出了一款名为 Udio 的革命性人工智能音乐创作应用程序。Udio 允许用户根据简单的文本提示在 40 秒内生成完整的音轨。该应用程序提供广泛的声音语言、音乐类型和混音选项，以及强大的编辑和功能。Udio 已从知名科技和音乐行业人士那里获得了 1000 万美元的种子资金，并与艺术家合作探索利用人工智能创作音乐的新方法，它使音乐家和非音乐家都可以轻松创建高质量、定制的音乐。

康奈尔大学研究：增加代理数量可提升人工智能系统性能

****摘要****：**** 康奈尔大学的研究人员发现，增加协作解决问题的人工智能代理数量可以显着提高系统性能。他们创建了许多人工智能代理，并让它们独立解决问题，然后通过投票系统结合代理的答案来确定最佳整体解决方案。这项研究表明，增加代理数量可以提高使用各种语言模型（LLM），如Llama和GPT，在任务中的准确性，甚至较小的模型也能通过增加代理数量来超越更大的模型。

SWE-agent：将语言模型转化为软件工程代理的新项目

****摘要****：**** SWE-agent 是一个类似于 AI 程序员 Devin 的项目，旨在将强大的语言模型（如 GPT-4）转化为软件工程代理，用于在真实的 GitHub 存储库中修复错误和问题。该代理具备代码检查器（linter），能够验证编辑指令的语法正确性；提供专门构建的文件查看器，支持查看和编辑文件；以及支持全目录字符串搜索，列出匹配结果并展示上下文信息。SWE-agent 的设计旨在为软件工程任务提供更智能的辅助，使开发过程更高效和可靠。

Demodesk：利用AI的虚拟会议和销售辅导平台

**摘要****：**Demodesk 是一款虚拟会议和销售辅导平台，利用人工智能技术来记录、转录、翻译和分析会议内容，为团队提供深入见解并实现工作流程的自动化。该平台帮助用户更有效地管理会议和销售活动，提供了强大的会议记录和分析功能，使团队能够更好地理解会议内容并加强销售效率。

OpenAI训练GPT-4：转录超过100万小时YouTube视频

**摘要****：**《纽约时报》的报道揭示了OpenAI等科技巨头为训练人工智能模型如GPT-4而采取的数据收集方式，包括转录超过100万小时的YouTube视频。这些公司通过探索灰色法律地带，试图解决训练数据稀缺的问题，但引发了争议和隐私担忧。谷歌和Meta等公司也面临类似的数据访问限制，采取措施以获取所需的训练数据。

**2，产品市场创新**
------------

VidyoAI发布2.0版本，注重视频内容检索和智能媒资管理

**摘要****：**VidyoAI是一款视频智能处理平台，最近发布了2.0版本，调整了产品方向，更加注重视频内容检索和媒资管理功能。平台核心功能包括上传长视频自动分割与评分、支持二次剪辑，以及与主流视频平台打通，提供定时发布和数据分析功能。随着多模态大模型的视频理解能力不断提升，VidyoAI未来将在智能化媒资管理领域展现更多潜力和创新。

**Google Gemini Pro 1.5 发布，提供免费试用**

****摘要****：**** Google 已发布 Gemini Pro 1.5，其 100 万个token上下文 GPT-4 级模型现已面向 180 个国家/地区（据我所知不包括欧洲或英国）的任何人开放，并且不再有等待名单。最令人印象深刻的是，所有 API 都具有免费层，每天允许最多 50 个请求，但速率限制为每分钟 2 个。除此之外，你可以支付每百万个输入token 7 美元和每百万个输出 token21 美元，这略低于 GPT-4 Turbo，略高于 Claude 3 Sonnet。

Meta在印度和非洲测试AI聊天机器人

**摘要****：**Meta正在WhatsApp、Instagram和Messenger用户中测试其Meta AI聊天机器人，意在利用庞大用户群体扩展其AI服务。该举措表明Meta正致力于提升AI产品规模，以跟上其他科技巨头的步伐。

QueryPal：即时从Slack和Microsoft Teams文档中获取答案的工具推出

****摘要****：****QueryPal是一种新型工具，旨在帮助用户从Slack和Microsoft Teams等平台上的公司文档中即时获取答案。这一工具利用先进的搜索技术，能够快速定位和提取文档中的信息，为用户提供高效的信息检索和答案解决方案。QueryPal的推出将有效简化企业内部知识管理和信息查询的流程，提高工作效率和沟通效果。

**3，合规和监管**
-----------

微短剧上线新规：6月起需持证备案

**摘要****：**国家广电总局发布了针对微短剧的新备案规定，自2024年6月1日起生效。根据新规，所有上线播出、引流、推送的网络微短剧必须持有《网络剧片发行许可证》或完成相应上线报备登记程序。省级广电局已开始落实“分类分层审核”制度，确保微短剧的合规性和监管效果。微短剧作为一种快速发展的新兴内容形态，其商业模式和制作方式也面临着更严格的监管要求。

德国石勒苏益格-荷尔斯泰因州计划大规模迁移数万系统至Linux操作系统

****摘要****：**** 德国石勒苏益格-荷尔斯泰因州政府宣布计划将约3万台系统从微软Windows迁移至Linux操作系统，以实现数字主权并优化IT成本效率。此举是该州长期推动开源软件开发的一部分，旨在减少对专有软件的依赖，提高IT安全性和协作能力。该州政府还将放弃微软Office等专有软件，转向开源产品，包括Nextcloud、Open-Xchange和Mozilla Thunderbird等，以进一步加强数字主权和IT自主性。

OpenAI解雇研究人员涉泄露信息

**摘要****：**据《The Information》报道，OpenAI至少解雇了两名研究人员，理由是涉嫌泄露信息，但目前尚不清楚泄露了哪些信息。其中之一是Leopld Aschenbrenner，他在公司从事人工智能安全工作，并被认为是OpenAI首席科学家Ilya Sutskever的盟友。这一事件牵扯到去年11月份推翻Sam Altman的失败尝试的一部分。

科技巨头竞相获取在线数据以支持人工智能模型

****摘要****：**** 路透社的新报告披露了谷歌、Meta、OpenAI和苹果等科技巨头如何竞相获取大量在线数据来支持其人工智能模型的细节。自ChatGPT首次亮相以来，这些公司在2022年与Shutterstock达成协议，涉及数亿张图像、视频和音乐文件的训练数据，交易金额在2500万至5亿美元之间。这些数据的价格从每张图像几美分到每小时数百美元的视频不等。此外，这些公司还付费访问私人内容档案，包括Photobucket的13亿照片和视频以及其他旧的互联网平台。

Meta宣布新的人工智能内容政策

****摘要****：**** Meta宣布了新的人工智能内容政策，从5月开始将为更广泛的人工智能内容（包括视频、图像和音频）添加“人工智能制造”标签，以更清晰地区分欺骗性内容。此举是为了应对先前独立审查内容审核决定批评其现有内容政策“狭隘”、“不连贯”和“令人困惑”的反馈。为了避免侵犯言论自由，Meta将停止删除人工智能内容，除非违反其他政策（例如选民干扰或欺凌），而是依赖标签。这一变化旨在提供更多透明度，并被认为是处理内容的更好方式，但也可能导致Meta平台上人工智能生成的内容增加。


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20240414-ai2024414](https://www.haxitag.com/briefs/ai-brief-20240414-ai2024414)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。