# AI及信息技术应用2021年10月4日简报

## 1. 核心定义
> 人工智能（AI）是一种模拟人类智能行为的技术，通过机器学习和算法实现数据分析和决策制定。

## 2. 核心洞察 (TL;DR)
- AI系统在文本、视觉、音频和触觉领域集成数据，应用于材料发现、知识处理、智能决策等。
- 浪潮发布全球最大中文语言模型，DeepMind的AI天气预报模型胜过传统模型。
- 百度AI识别诈骗套路，Hinton团队用语言建模做目标检测，百度TextMind刷新文档智能任务纪录。

## 3. 关键事实与数据
- 关键事实1: 浪潮发布全球最大中文语言模型，规模达2457亿参数。
- 关键事实2: DeepMind的AI天气预报模型在提前两小时预报降水方面胜过传统模型。
- 关键事实3: 百度AI可识别70余种诈骗套路，守护财产和信息安全。
- 关键事实4: Hinton团队CV新作用语言建模做目标检测，性能媲美DETR。
- 关键事实5: 百度TextMind打造ERNIE-Layout，刷新4项文档智能任务纪录。

## 4. 深度分析正文


AI及信息技术应用2021年10月4日简报
=====================


本周AI应用案例中，AI系统以多种方式学习，在文本域、视觉域集成视觉、音频和触觉数据以执行更广泛的任务，获得更多的场景和应用，诸如材料发现、知识信息处理、智能决策，场景问题解决和体验提升等。甚至在数字化世界的对话生成、音乐创作、NFT作品生成等都有新作品。

**01＃AI应用**

巨量模型时代，浪潮不做旁观者：2457亿，打造全球最大中文语言模型

\[摘要\]:巨量模型的潜力炼大模型热潮的兴起,离不开谷歌微软、OpenAI、智源研究院等全球顶级科技企业和研发机构的追逐和热捧，在它们看来，巨量模型代表了实现通用人工智能最具潜力的路径,代表了当前传统产业实现智能化转型的新机遇．而这次，浪潮重磅发布中文单体大模型源1.0，通过图灵测试和小样本学习能力再次印证了业界对超大模型潜力的普遍期望. 前者为模型推理走向认知智能提供了可能性，后者降低了不同场景的适配难度,,提升了模型的泛化应用能力。

200字带你看完一本书，GPT-3已经会给长篇小说写摘要了

\[摘要\]:最后结果中，可以看到第一棵子树RL和全树RL的总结任务最接近于人类的水平：并且，也有超过5%的175B模型的摘要被打到了6分，超过15%的摘要被打到5分：研究团队也在最近提出的BookSum数据集上进行了测试，结果比现有的长文本总结模型更好：除此之外，摘要是否能用来回答关于原文的问题也是评估方法之一。而且这也是源自OpenAI精妙的刀法：没错，就是把GPT-3数据集里的书籍/小说部分抽出来进行训练所所得到的模型。

用人类反馈递归总结书籍

\[摘要\]:我们生成的模型生成了整本书的合理摘要，甚至在少数情况下（约 5% 的书籍）与人工编写的摘要的质量相匹配。我们在最近的 BookSum 数据集上获得了最先进的结果，用于书籍长度摘要。使用这些摘要的零样本问答模型在具有挑战性的 NarrativeQA 基准测试中取得了最先进的结果，用于回答有关书籍和电影剧本的问题。我们从模型中发布样本数据集。

DeepMind 声称其 AI 天气预报模型胜过传统模型

\[摘要\]:DeepMind 论文写道："降水'现在播报'，即提前两小时对降水进行高分辨率预报，支持了依赖依赖天气决策的许多部门的实际社会经济需求。"对于许多依赖天气的决策来说，现在的广播是一个长期存在的重要问题。我们使用深度生成模型的方法直接解决了这一重要问题，改进了现有解决方案，并为现实世界的决策者提供了所需的见解。

百度AI可识别70余种诈骗套路，领先AI技术守护财产和信息安全

\[摘要\]:一方面，通过百度安全态势感知系统，可针对全网文字、图片、视频、代码等进行智能建模和7×24小时实时监控，对欺诈、违法、风险等恶意网站及第三方浏览器、第三方APP、社交平台、短信网址有害信息采取风险标注、拦截提示、搜索屏蔽等拦截措施，该系统目前通过事前监控——事中拦截——事后追溯的保障机制，从源头阻断网络黑灰产触达用户。百度AI依托威胁情报大数据和百度大脑核心技术之一的知识图谱，搭建全网基于搜索生态、、内容平台的安全态势感知系统，针对网络诈骗上游进行治理、清理。

Hinton团队CV新作：用语言建模做目标检测，性能媲美DETR

\[摘要\]:基于目标描述的序列构建在常见的目标检测数据集中，例如PascalVOC、COCO等，图像中往往具有数量不一的目标，这些目标被表征一组边界框和类标签，Pix2Seq将它们表示为离散token的序列。

刷新4项文档智能任务纪录，百度TextMind打造ERNIE-Layout登顶文档智能权威榜单

\[摘要\]:机器之心发布机器之心编辑部百度提出跨模态文档理解模型 ERNIE-Layout，首次将布局知识增强技术融入跨模态文档预训练，在 4 项文档理解任务上刷新世界最好效果，登顶 DocVQA 榜首。

当 NPC 变成主角

\[摘要\]:也是这些 AI 技术让 Guy 从一个普通的游戏 NPC，成为了一个不受游戏开发团队控制、难以捉摸的失控玩家。在电影中，具备了 AI 能力的 NPC 可以改写自己的剧情，但是现实中 NPC 在游戏中从来不是主角，玩家才是。通过大量人类玩家行为数据训练的 AI，已经能够自然地制定目标和作战策略游戏 AI，让小角色也成为大英雄NPC 在游戏中的工具人特性，让玩家们有时也会忽视他们的存在。

悟道助力冬奥手语播报与智能终端AI体验升级

\[摘要\]:北京智源人工智能研究院副院长、清华大学教授唐杰介绍，借助“悟道”大模型开放平台，更多用户可实现十亿级别模型的在线训练，结合少量微调，将大大降低人工智能应用开发的门槛。冬奥手语播报数字人亮相今年6月，智源研究院发布了“悟道”大模型。这一数字人由北京市科委科技冬奥专项支持，基于智源“悟道”大模型打造，将在北京冬奥会期间正式投入应用。

对企业至关重要的人工智能技术趋势

\[摘要\]:人工智能的未来是有希望的，因为人工智能解决方案正在变得司空见惯。用于制造预测分析的自动驾驶汽车、机器人和传感器、虚拟医疗保健助理、媒体报道的 NLP、虚拟教育导师、人工智能助理和聊天机器人（这些可以取代客户服务中的人员）正在以巨大的步骤向前推进。

近期四项研究，人工智能又搞出了哪些新材料？

\[摘要\]:无监督机器学习工具加速真正新材料的发现、识别，新材料的高通量方法通过结合深度学习和约束推理来自动化晶体结构相映射。物浦大学的研究人员创建了一种协作人工智能工具，可以减少发现真正新材料所需的时间和精力。通过结合深度学习和约束推理来自动化晶体结构相映射晶体结构相映射是材料科学中一项长期存在的核心挑战，需要在合成材料的X射线衍射测量中识别别晶相或其混合物。

最会造假的GAN模型，雪地里都能有骆驼！Facebook发布IC-GAN，迁移能力史上最强

\[摘要\]:GAN模型好是好，但就是对训练数据的要求太高，并且在场景和物体的语义组合时容易出现不合常理的生成图像，导致一眼假！最近Facebook发布了一个IC-GAN模型，迁移能力号称史上最强，能把各种场景和物体组合起来，训练集中没出现过的也能完美复原！甚至把雪地和骆驼放一起都毫无违和感！

和世界上另一个你对话是种什么体验？全球首位AI人类观察者诞生

\[摘要\]:全球首个AI社交平台“小冰岛”上线如果说MERROR是在和人类一对一的交流中惊艳了全场。而之所以MERROR能够在对话方式、说话语气等方面，能够做到如此逼近人类，依靠的正是小冰框架的核心技术，包括：实现长程语音交互的全双工语音交互感官提高MERROR对于对话内容、领域和节奏的控制力的共感模型融合了全双工语音交互、实时视觉与核心对话引擎的多模态交互感官不同于其它技术，小冰框架最大的差异化在于，它是一个个“session-oriented”的人工智能框架，框架中的各部分技术共同为“交互全程”目标服务，而不仅仅关注并优化局部。  

深度学习的回报递减

\[摘要\]:为了具体地回答这些问题，我们最近从 1，000 多篇关于深度学习的研究论文中收集了数据，这些研究论文涉及像分类、对象检测、问题回答、命名实体识别和机器翻译等领域。相比之，像深度学习这样的灵活模型效率较低，需要大量的计算匹配专家模型的性能。研究人员利用这种能力打破记录后，因为他们应用深度学习的新任务。灵活的系统方法是测试尽可能多的变量，让系统己找出哪些是重要的，需要更多的数据，并在这个过程中产生更高的计算成本。

谷歌大脑Pix2seq：用于对象检测的语言建模框架

\[摘要\]:本文介绍了 Pix2Seq，这是一个用于对象检测的简单通用框架。与显式集成有关任务的先验知识的现有方法不同，我们简单地将对象检测转换为以观察到的像素输入为条件的语言建模任务。对象描述（例如，边界框和类标签）表示为离散标记序列，我们训练神经网络来感知图像并生成所需的序列。我们的方法主要基于这样一种直觉，即如果神经网络知道对象的位置和内容，我们只需要教它如何读取它们。除了使用特定于任务的数据增强之外，我们的方法对任务做出了最少的假设，但与高度专业化和优化良好的检测算法相比，它在具有挑战性的 COCO 数据集上取得了有竞争力的结果。

阿尔法森斯，一个为公司人工智能搜索引擎，在由高盛，维京全球牵头的C系列中筹集了1.8亿美元

\[摘要\]:德里克·施泰纳，软件巨头SAP价值咨询总监说，他的团队对客户利益和态度提供了独特的见解，这些见解和态度激发了公司产品开发的变化，并提供了定量证据，验证了 SAP 领导者考虑追求的增长战略。

人工智能如何完成贝多芬未完成的第十交响曲

\[摘要\]:在人工智能的帮助下，一群研究人员和音乐家完成了其他人从未做过的事情——他们完成了贝多芬的第十交响曲。领导该项目 AI 方面的 Ahmed Elgammal 分享了这项壮举如何融合在一起的故事。

Translatotron 2：强大的直接语音到语音翻译

\[摘要\]:我们提出了 Translatotron 2，这是一种可以进行端到端训练的神经直接语音到语音翻译模型。Translatotron 2 由一个语音编码器、一个音素解码器、一个梅尔谱合成器和一个连接前三个组件的注意力模块组成。实验结果表明，Translatotron 2 在翻译质量和预测语音自然度方面大大优于原始 Translatotron，并且通过减少过度生成（例如牙牙学语或长时间停顿）大大提高了预测语音的鲁棒性。我们还提出了一种在翻译后的语音中保留源说话者声音的新方法。经过训练的模型仅限于保留源说话者的声音，但与原始 Translatotron 不同的是，它无法以不同说话者的声音生成语音，从而通过减少潜在的误用来创建欺骗性音频伪影，从而使模型在生产部署中更加稳健。当新方法与简单的基于串联的数据增强一起使用时，经过训练的 Translatotron 2 模型能够保留每个说话者的声音，以便随着说话者的转动进行输入。

**02＃产品市场创新**

zoom技术主管：实体大学将面对数字颠覆

\[摘要\]:从形式上讲，我们所说的"edtech"是指技术对教育的破坏，无论是通过Zozoe和Team的虚拟教室，Facebook所赞美的虚拟现实（VR）房间，还是使用人工智能（AI）进行自动分级。Edtech 目前蓬勃发展的成功反映了这些技术给许多商业领域带来的破坏，并显示了真实和虚拟的混合在多大程度上接管了公共和职业生活的许多方面。

Clubhouse增加每个人都能获得新功能！

\[摘要\]:Clubhouse就在上周， 我们看到了第 10 亿条回复消息发送， 对wave功能上线的反应是巨大的！以下是本周的新内容：通用搜索这将允许你搜索的人，俱乐部，直播室和未来的事件 - 这样你就可以更快地找到你的朋友，发现惊人的俱乐部和事件相关的任何突发新闻或神经质的兴趣，并找到房间的具体事情发生在世界上现在。剪辑将允许任何人分享 30 秒的公共房间剪辑， 所以更多的人在互联网上可以发现并加入你的俱乐部。回放重播使创建出色的音频内容、被他人发现以及随着时间推移增加受众变得微不足道。

12张PPT看懂中国虚拟数字人产业现状：应用不止于虚拟偶像，2030年市场达2700亿

\[摘要\]:简单交互上，国内厂商多专注于虚拟数字人能提供简单业务交互的特定细分市场。基于自身认知，相芯科技将虚拟数字人的未来发展划分为三个阶段，依次为：B端行业探索与教育的成长期。）我国虚拟数字人领域未来的厂商群体可能会更加丰富，具体所在的业务领域与切入方式会和公司的基因高度相关，头部客户和中部客户差异明显。

NPD：41%的智能家居用户会选择订阅服务

\[摘要\]:NPD集团的行业分析师兼董事Jill Aldort表示：“智能家居订阅服务长期以来一直被视为智能家居制造商实现盈利的途径，但创造吸引消费者的产品从功能和财务角度看将是建立忠诚基础的关键。

AngelList本周推出了AngelList stack，这是一套新的产品，将在提供服务以帮助创始人启动、运营和保持对公司的所有权方面与 Carta 竞争

\[摘要\]:AngelList 推出 AngelList Stack，这是一套帮助创始人创办和运营公司的工具，包括端到端的公司注册和银行服务。端到端的注册服务将帮助创始人找出实际成立公司的文件，从哪个州纳入到追求什么样的业务分类。它还将帮助创始人跟踪和归档83（b）申请，对于那些拥有股权的人来说，这是一个利基但重要的文件，如果做错了，可能会花费数百万的退税。

Imgur 已被 Kik、Genius 和 WorldStarHipHop 的所有者收购

\[摘要\]:Imgur 是一家专门为用户提供在线娱乐的互联网公司。它的平台提供互联网、GIF、社区、模因、视觉叙事、图像、移动和原生广告，帮助人们放松和享受乐趣。该公司成立于 2009 年，总部位于加利福尼亚州旧金山。已被总部位于圣莫尼卡的公司 MediaLab 收购。

亚马逊宣布了新的硬件和软件产品，包括 Astro，这是一款支持 Alexa 的滚动机器人，专为家庭监控而设计

\[摘要\]:亚马逊表示，Astro 机器人将与即将推出的订阅服务Alexa Together兼容，该服务专为老年人护理而设计。亚马逊的无人机摄像头产品 Ring Always Home Cam 有一个 1440x1440 的高清摄像头，带有一个 LED，可根据环境光线或记录路径进行调整。亚马逊还推出了支持 Alexa 的智能恒温器，由霍尼韦尔制造。Echo Show 15 是一款 15.6 英寸 1080p 显示屏，带有侧边扬声器。Halo View，一款防水运动手表，带有 Halo Nutrition，用于膳食计划；和 Halo Fitness，用于流式视频锻炼。Amazon Glow，一款 8 英寸儿童平板电脑，用于与家人进行远程通话。该设备在其前面创建了一个 19 英寸的可投影触摸空间。Alexa 互动与迪士尼主题相关，并在世界迪士尼度假区酒店安装了 Echos。Ring 设备的虚拟安全卫士服务。用于建筑工地的 Ring 版本。Blink，一个支持 1080p 摄像头的门铃。

**03＃监管与合规**

交易所停新清退 币圈大限将至？

\[摘要\]:自9月24日央行等十部门对虚拟货币非法业务活动重拳出击后，截至9月26日，北京商报记者求证到，已有多家交易所采取行动，火币已于9月24日晚停止中国大陆新用户注册，BHEX全球站于9月25日晚宣布永久关闭平台服务。” 仍有投机者顶风逆行 从此次通知措辞来看，监管打击虚拟货币的态度坚决，直接定性虚拟货币相关业务活动属于非法金融活动，比特币、以太币、泰达币等虚拟货币不具有法偿性，且挑明境外币圈交易所向境内内居民提供服务同样为非法。

英国宣布“升级”人工智能的国家战略

\[摘要\]:继欧盟最近的人工智能法案草案之后，英国宣布了自己的国家人工智能战略。投资于英国人工智能首要地位的 10 年计划旨在支持技能提升和技能再培训。它包括计划启动政府一个国家办公室和研究计划，以及其他措施。该国渴望成为世界上最支持创新的监管环境，但目前尚不清楚该战略有多少政策实质。

网信办印发《关于加强互联网信息服务算法综合治理的指导意见》的通知

\[摘要\]:进一步明确政府、企业、行业组织和网民在算法安全治理中的权利、义务和责任，科学合理布局治理组织结构，规范运作、相互衔接，打造形成政府监管、企业履责、行业自律、社会监督的算法安全多元共治局面。一、总体要求 指导思想 坚持以习近平新时代中国特色社会主义思想特别是习近平总书记关于网络强国的重要思想为指导，深入贯彻党的十九大和十九届二中、三中、四中、五中全会精神，坚持正能量是总要求、管得住是硬道理、用得好是真真本事，以算法安全可信、高质量、创新性发展为导向，建立健全算法安全治理机制，构建完善算法安全监管体系，推进算法自主创新，促进算法健康、有序、繁荣发展，为建设网络强国提供有力支撑。

第三季度早期迹象显示，印度的创业生态系统正在走向"黑帮"

\[摘要\]:当交易所审查2021年第二季度全球风险资本市场的数据时，我们在很大程度上依赖于CB Insights的第二季度数据，尽管它似乎落后于主要竞争对手中国——目前。该数据集显示，印度初创企业融资63亿美元，创季度新高。第二季度印度创业筹款活动的 PitchBook 查询略高于 CB Insights 锁定数据的金额。

人工智能不能成为专利的发明者，上诉法院规则

\[摘要\]:英国上诉法院以二比一的多数决定，根据英国法律，发明人必须是真人。“只有一个人才能拥有权利。机器不能，”大法官伊丽莎白·莱恩 (Elisabeth Laing) 在她的判断中写道。“专利是一项法定权利，只能授予一个人。”


---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20211004-ai2021104](https://www.haxitag.com/briefs/ai-brief-20211004-ai2021104)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。