# AI及信息技术应用2023年9月10日简报

## 核心定义
> 人工智能生成内容（AIGC）是一种利用人工智能技术自动生成文本、图像、音频和视频等内容的系统或平台。

## 核心洞察（TL;DR）
- 多语言版本的LLM应用日益普及，AI嵌入产品流程深入扩展。
- Meta AI发布多语言阅读理解评测基准，Meta AI的BELEBELE数据集涵盖122种语言。
- 开源Persimmon-8B代码生成模型参数少于100亿，支持多模态扩展。

## 关键事实与数据
- Meta AI的BELEBELE数据集包含122种语言变体的机器阅读理解（MRC）数据。
- Persimmon-8B代码生成模型参数少于100亿，上下文大小为16K。
- 阿联酋推出阿拉伯语大语言模型，旨在提高自动翻译、语音识别和聊天机器人等领域的性能。

## 正文
AI及信息技术应用2023年9月10日简报
=====================

越来越多地区推出本地语言版本的LLM，同时也见证了LLM在文本生成、复杂推理以及多源数据融合等应用领域的深入嵌入产品流程。所谓的AI native似乎不再是炙手可热的话题，而AIGC已经成为产品中的一个功能函数，AI嵌入的深度则正在逐渐扩展到各行各业。AI的能力不再稀缺，且边际成本即将接近临界水平。

1，AI产研

Meta AI 发布 BELEBELE：首个 122 种语言并行阅读理解评测基准

\[摘要\]Meta AI 的这篇论文介绍了“ BELEBELE ”，这是一个涵盖 122 种语言变体的多项选择机器阅读理解 (MRC) 数据集。该数据集旨在显著扩大自然语言理解基准的范围，并包含基于 Flores-200 数据集的问题。这些问题旨在挑战最先进的模型，旨在区分不同水平的语言理解。研究团队使用Belebele 评估多语言掩码语言模型 (MLM) 和大型语言模型 (LLM)，发现在平衡的多语言数据上预训练的小型 MLM 在理解多种语言方面优于以英语为中心的大型 LLM。  

=========================================================================================================================================================================================================================================================

LLMs、RAG 与 AI 缺失的存储层

\[摘要\]本文讨论了在 AI 系统中存储层的重要性，尤其是在语言模型机器（LLMs）和生成式 AI 的背景下。文章提出了一种解决方案，称为检索增强生成（RAG），其中 LLMs 用于表示而非直接生成响应，从而实现模块化控制和可解释性。文章还介绍了 LanceDB，一种用于向量搜索的开源数据库，简化了嵌入的检索和管理，提供了 AI 本地的存储层。评论中讨论了使用余弦相似度作为相关性度量的局限性和假设，以及在高维空间中工作的挑战。还讨论了文本相似性和相关性评估的替代方法和技术。

开源 Persimmon-8B代码生成模型

\[摘要\]研究人员声称这是最强大的开源、完全宽松的模型，参数少于 100 亿个。它是在 Apache 许可证下发布的。它的上下文大小为 16K。尽管仅使用 LLaMA2 0.37 倍的数据进行训练，但基础模型超出了其他约 8B 模型并与 LLaMA2 性能相匹配。该模型有 70k 个未使用的嵌入用于多模态扩展，并且具有稀疏激活。

阿联酋在海湾地区推出阿拉伯语大语言模型

\[摘要\]阿联酋最近推出了一款名为阿拉伯语大语言模型的人工智能技术。该模型能够理解和生成阿拉伯语，为该地区的语言处理领域带来了革新。这项技术在各种应用中具有潜在的重要作用，有助于提高自动翻译、语音识别和聊天机器人等领域的性能，为用户提供更好的语言交互体验。阿联酋的举措表明其在人工智能领域取得了重要的进展，并将为该地区的语言技术发展做出重要贡献。

Line 开源“japanese-large-lm”：具有 36 亿个参数的日语模型

\[摘要\]这些语言模型有两种变体36 亿 (3.6B) 参数模型和 17 亿 (1.7B) 参数模型。通过公布这些模型并分享他们对语言模型构建的全面见解，LINE 旨在让人们了解其方法的复杂性，并为该领域的进步做出贡献。

Epic Games 支持人工智能生成的内容

\[摘要\]Epic Games 宣布支持其数字店面中包含人工智能生成内容的游戏，这与 Valve 在 Steam 上禁止此类内容的决定形成鲜明对比。这种分歧凸显了两个游戏巨头之间的公开分歧。虽然 Valve 提到了潜在的版权问题，尤其是人工智能生成的艺术资产，但 Epic Games 首席执行官Tim Sweeney鼓励采用新技术。这种立场对于 Epic 来说并不新鲜，因为他们之前支持基于区块链的游戏，而 Valve 已经禁止了这些游戏。

在其 Ernie 聊天机器人获得公众认可后，百度推出了一系列人工智能应用程序

\[摘要\]百度，周二，就在其类似 ChatGPT 的 Ernie 机器人发布供公众使用几天后，该公司宣布了 10 多个基于人工智能的新应用程序。其中展示的产品之一是一款名为 WPS AI 的生成式人工智能集成文字处理应用程序，由上海上市公司金山办公创建。据一份新闻稿称，该公司使用百度 Ernie 机器人所基于的人工智能模型以及百度的人工智能模型“千帆”云平台构建了该工具。

百度凭借人工智能应用的冲击力拔得头筹

\[摘要\]百度在获得发布人工智能聊天机器人 Ernie 的批准后，推出了十种新颖的人工智能应用程序和 70 多种不同的语言模型，可供公众和政府部门使用。在周二的一次会议上，百度提到其人工智能驱动的云存储产品已经被超过 600 万个人和 10,000 家公司使用，帮助个人和团队筛选文档、翻译材料和制作内容。他们还推出了许多新的生成式人工智能产品，包括旨在帮助交通监管、金融调查和煤矿物流等领域的产品。

苹果每天在人工智能上投入数百万美元

\[摘要\]苹果希望 Siri 成为你的终极数字助理，让你无需动一根手指就能完成多步骤任务。苹果正在深入研究人工智能，涉足创建视频、图像以及所谓的“多模式人工智能”，即图像、视频和文本的网格化。苹果有一个由 16 名天才组成的超小团队，致力于聊天机器人技术。即使团队规模如此之小，他们每天也要花费数百万美元来训练人工智能。

对话稚晖君：具身智能创业窗口转瞬即逝，打擂瞄准偶像马斯克

\[摘要\]稚晖君离开华为创业要做通用机器人，换成最流行的说法，他在做大模型和机器人结合的具身智能。他的初创公司智元机器人，8月发布会上，被稚晖君自豪请上台的自家机器人步伐稳健，行走效果可以比肩去年马斯克擎天柱Optimus的初亮相。

LangChain: LLM 应用聚焦的两大方向，RAG 和 Agents

\[摘要\]截至目前langchain 已经支持：154 种数据源的 loader47 种不不同的向量存储方式37 种数据 embedding 方式65 个不同大模型的支持具体的数字无需关注，需要看到的是 LLM 大模型外挂数据技术涉及到的组件数量正在以惊人的速度爆发，组件越多，LLM 能力落地的触角也就越深入。

“AI版YC”创始人：我们要如何跨越AI Hype Cycle？

\[摘要\]LLM 和企业工作流的融合是不可逆Ben Thompson, GGML.ai 是一家由 GeordiGerganoy 创立立的公司，旨在支持 GGML 的持续发展，初始资金由 Nat Friedman 和 Daniel Gross 提供，致力于设备端推理的理念。

百度李彦宏、OpenAI创始人入选，《时代周刊》AI最有影响力100人！

\[摘要\]百度首席执行官、董事长兼联合创始人-李彦宏，OpenAI的两位联合创始人Sam Altman和Greg Brockman，谷歌 DeepMind 首席执行官兼联合创始人-Demis Hassabis，马斯克、李开复、吴恩达、黄仁勋等，被评为AI行业的领导者。此外，中国科学院教授-曾毅、斯坦福大学教授-李飞飞、人工智能教父-Geoffrey Hinton、OOpenAI联合创始人兼首席科学家-Ilya Sutskever、Meta首席科学家-Yann LeCun、谷歌 DeepMind联合创始人兼首席 AGI科学家-Shane Legg等，被评为AI行业的“思想者”。

Nat Friedman 和 Daniel Gross 是硅谷著名 AI 投资人，他们在 2017 年搭档成立了“AI 领域的YC” ——AI Grant

\[摘要\]Nat 和 Daniel 也将 AI 和之前的技术、科技投资周期进行了对比，指出当下的 AI 投资一定存在泡沫，但同时也坚信 AI 一定能带来真正的颠覆式创新。在成为投资人之前，Daniel 和 Nat 都是成功连续创业者。Nat 参与创办了开源跨平台 SDK Xamarin，并在 2016 年被微软收购。2018 年，Nat 带领微软收购了 GitHub，并出任 Github 的 CEO。Daniel 曾创建过搜索引擎公司 Cue，后被 Apple 收购。

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

\[摘要\]Falcon 180B能够与谷歌PaLM 2不差上下，性能直逼GPT-4。英伟达高级科学家Jim Fan对此表示质疑， Falcon-180B的训练数据中，代码只占5%。而代码是迄今为止对提高推理能力、掌握工具使用和增强AI智能体最有用的数据。事实上， 没有代码能力，就不能声称「优于GPT-3.5」或「接近GPT-4」。它本应是预训练配方中不可或缺的一部分，而不是事后的微调。

揭秘最领先的Llama2中文大模型！

\[摘要\]领航计划的每一位成员将获得以下“7TOP” 权益：加入可获取国内首个预训练中文版Llama2-Chinese-13B模型使用权，并且在未来，我们将持续基于更大规模的数据，不断增强模型内核的中文能力，也将优先为领航计划的每位成员提供最领先的模型版本。部分效果展示如下：通用知识语言理解创作能力逻辑推理代码编程工作技能着眼于社区的长远发展与快速迭代，一方面为每一个有热情有志向投入到大模型浪潮中的AI爱好者者提供专业的技术服务，另一方面，让每一个社区的参与者都能在极速发展的AI时代抢先领跑，获取各方面的资源对接，我们限时推出首期Llama中文社区领航计划。

RLHF不再需要人类！AI 实现标注自循环！

\[摘要\]此外，还存在许多有趣的未解问题，例如RLHF与RLAIF的结合是否可以优于单一方法，直接使用LLM分配奖励的效果如何，提高AI标签制作者的对齐度是否能够转化为改进的最终策略，以及使用与策略模型大小相同的LLM标注器是否可以进一步改进策略。我们进行了RLHF与来自AI反馈的强化学习的头对头比较 - RLAIF是一种技术，在这种技术中，偏好由现成的LLM标注，而不是由人类标注，我们发现它们导致类似的改进效果。

百川智能开源最新商用大模型！王小川：比LLaMA更香

\[摘要\]王小川表示，MMLU等英文评估基准的英文主流任务评分，70亿参数量的Baichuan2-7B在英文主流任务上与130亿参数的LLaMA2相当。一并开源的还有Baichuan2-13B、Baichuan 2-13B-Chat与其4bit量化版本，以及模型训练从220B到2640B全过程的Check Point。

**2，产品市场创新**

SceneXplain 讲述图像每一个像素背后的故事

\[摘要\]SceneXplain 特别擅长描述涉及多个对象、交互和上下文元素的复杂场景。使用 SceneXplain 来描述简单图像（例如单个人或单个对象）可能有点大材小用。

Nat Friedman 和 Daniel Gross 是硅谷著名 AI 投资人，他们在 2017 年搭档成立了“AI 领域的YC” ——AI Grant

\[摘要\]Nat 和 Daniel 也将 AI 和之前的技术、科技投资周期进行了对比，指出当下的 AI 投资一定存在泡沫，但同时也坚信 AI 一定能带来真正的颠覆式创新。在成为投资人之前，Daniel 和 Nat 都是成功连续创业者。Nat 参与创办了开源跨平台 SDK Xamarin，并在 2016 年被微软收购。2018 年，Nat 带领微软收购了 GitHub，并出任 Github 的 CEO。Daniel 曾创建过搜索引擎公司 Cue，后被 Apple 收购。

轻舸平台：动动“嘴”，搞定营销全流程

\[摘要\]轻舸平台做的不是让AI帮助广告主设置关键词和目标人群等参数，而是彻底把这些不能完整表达营销意图的中间环节拿掉了，替换成AI对广告主意图的直接理解。

Airtable 本周推出了一系列新功能。其中之一是 Airtable AI

\[摘要\]该公司自己对 gen-AI 如何帮助产品团队和其他用户的看法。公司建议的实际用例包括撰写活动简报、创建产品规格以及收集和分析客户反馈

HubSpot 推出新的营销和销售人工智能工具

\[摘要\]AI 内容助手可在整个 HubSpot 中工作，帮助销售和营销团队生成他们需要的任何内容。人工智能代理可以自动化并处理日常客户服务任务。人工智能见解可让您了解客户何时最有可能购买或流失等信息。ChatSpot，询问有关 Hubspot 中存储的内容的问题。

Slack 为其平台带来了新的人工智能功能

\[摘要\]Slack 正在推出一款内置人工智能工具，可以执行诸如总结话题、回顾频道亮点以及在消息中搜索答案等操作：总结主题和频道讨论。在相关聊天、话题和文件中搜索答案。Slack 列出了跟踪今年晚些时候即将推出的项目的列表。

Intuit 将人工智能助手引入产品

\[摘要\]Intuit 推出了其首个公共人工智能解决方案Intuit Assist ，该解决方案将跨平台进行集成，包括 TurboTax、QuickBooks、Credit Karma 和 Mailchimp。该数字助理旨在利用 Intuit 的数据提供个性化建议，同时处理简化的纳税申报、销售洞察和定制电子邮件活动等任务。

适用于小型企业的排名第一的人工智能网站构建器

\[摘要\]Durable 是一款人工智能网站构建器，它让创业比找工作更容易。利用 AI 在 30 秒内生成完全可定制的网站。然后，使用强大的人工智能工具来增加流量并获得报酬。无需编码、WordPress 或营销技能。

Essentials.tech：AI建立您自己的时事通讯

\[摘要\]通过AI技术建立个性化的时事通讯服务的方法和优势。AI时事通讯使用机器学习算法来分析用户的兴趣和行为，根据用户的偏好定制新闻内容，使用户能够获取到最相关和感兴趣的信息。通过AI时事通讯，用户可以提升新闻阅读体验，节省时间和精力，并获得更深入和全面的新闻报道。

Zoom 刚刚发布了它的 AI 伴侣

\[摘要\]它集成了 Llama 2、ChatGPT 和 Claude 的功能，提供会议回顾、内容创建、任务建议和头脑风暴帮助。Zoom 上个月因其隐私做法而陷入困境。因此，他们承诺保护用户隐私，以在 2020 年从高峰期夺回部分市场份额。

Roblox 推出 Roblox Assistant

\[摘要\]Roblox 推出了名为 Roblox Assistant 的新功能。这一功能旨在帮助用户更方便地管理他们的游戏世界和角色。通过这一助手，用户可以轻松地访问和编辑他们的游戏内容，包括修改游戏设置、添加新功能和管理用户权限。这一推出将为 Roblox 平台上的玩家们带来更便捷和个性化的游戏体验。

**3，监管合规**

北京市政府将限制 人工智能(AI) 在 医疗保健领域的使用

\[摘要\]北京市卫生健康委员会起草的新规定将“严禁”使用人工智能自动生成医疗处方。国家的首都。该委员会正在征求公众对拟议法规的反馈意见，直至九月中旬。该条例共规定了41条规则，涵盖各类网络医疗活动，还规定从事该领域的医务人员必须具备专业资格，并经认可的医疗机构批准，并具有三年以上的临床工作经历。

西班牙成立人工智能监管机构，力争成为行业领导者

\[摘要\]8 月 22 日，西班牙近期成立了人工智能监管机构，旨在加强对人工智能技术的监管和引导，力争在相关领域成为行业的领导者。该机构将致力于制定相关政策和法规，推动人工智能技术的合理发展，并确保其在社会中的正当使用，以保护公众利益和数据隐私。西班牙通过成立此机构表明了其对人工智能技术的重视，并希望在未来发挥重要的领导作用。西班牙成为欧盟首批建立自己的人工智能监管工作组的国家之一，当时西班牙部长会议批准了建立新机构的皇家法令。西班牙人工智能监管局（AESIA）应与国家数字战略一起保证该国的人工智能发展将是“包容性的、可持续的、以公民为中心的”。

国家互联网信息办公室对知网（CNKI）依法作出网络安全审查相关行政处罚

\[摘要\]9月1日，国家互联网信息办公室依据《网络安全法》《个人信息保护法》《行政处罚法》等法律法规，综合考虑知网违法处理个人信息行为的性质、后果、持续时间，特别是网络安全审查情况等因素，对知网依法作出网络安全审查相关行政处罚的决定，责令停止违法处理个人信息行为，并处人民币5000万元罚款。

---
## 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://haxitag.com/brief/ai-brief-20230910-ai2023910](https://haxitag.com/brief/ai-brief-20230910-ai2023910)
**来源索引（站内可追溯）**：[麦肯锡](https://haxitag.com/search?q=%E9%BA%A6%E8%82%AF%E9%94%A1)、[普华永道](https://haxitag.com/search?q=%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93)、[Gartner](https://haxitag.com/search?q=Gartner)、[IDC](https://haxitag.com/search?q=IDC)、[Forrester](https://haxitag.com/search?q=Forrester)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。