# AI及信息技术应用2023年12月31日简报

## 4. 深度分析正文


AI及信息技术应用2023年12月31日简报
======================

上周，人工智能（AI）的应用和产品创新在多个领域取得显著进展，从高级机器学习模型到实际应用产品，不断推动技术边界。苹果与康奈尔大学合作开发的“Ferret”是一种新型开源多模态机器学习模型，可以在图像中引用和分析任何内容，显示出苹果在AI领域的开放态度。谷歌的VideoPoet语言模型能够创建视频和音频，展现了语言模型在多模态领域的潜力。阿里巴巴研究人员发布的Mach工具则利用AI技术将文本提示转换为逼真的3D头像，提供了一个新颖的创作工具。在安全领域，纽约地铁系统引入的AI驱动机械警察K5增强了安全监控能力。

此外，斯坦福大学的PIGEON模型在识别照片位置方面超越了人类专家，体现了AI在细微视觉线索捕捉上的优势。华为诺亚方舟实验室提出的盘古π模型则解决了Transformer架构中的特征坍塌问题，推动了大型语言模型的发展。TinyGPT-V展示了小型多模态语言模型在实际应用中的广泛可行性。Unified-IO 2是一种。创新的多模态自回归模型，能够理解和生成图像、文本、音频和动作。阿里巴巴的TF-T2V无文本视频生成技术、雅意的YAYI 2政企大模型和Meta的新视频模型Fairy也展示了AI在各领域的应用潜力。

在监管合规方面，AI图像训练数据集中出现儿童性虐待图像的问题凸显了AI训练中的道德和合规挑战。X（原Twitter）未能阻止加州内容审核政策披露法案，突显了社交媒体公司在透明度和监管合规方面面临的压力。谷歌就Chrome隐身模式用户跟踪诉讼的和解也反映出隐私保护在AI时代的重要性。苹果与新闻出版商就授权故事档案来训练其生成人工智能系统的谈判，显示了AI在内容创作和新闻行业中的应用趋势。

**1，AI应用产研**

Apple 的“Ferret”是一种新的开源机器学习模型

\[摘要**\]**苹果和康奈尔大学的研究人员于 10 月份悄然发布了开源多模式法学硕士。Ferret 是一个可以在图像中以任何粒度引用和分析任何位置的任何内容的系统。该模型可以检查图像上绘制的区域，确定其中对用户在查询中有用的元素，识别元素，在检测到的元素周围绘制边界框，并回答有关元素的问题。Ferret 的发布表明，苹果对其 AI 工作开始更加开放。

Google 的 VideoPoet：生成视频、音频的多模式

\[摘要**\]**谷歌研究人员开发了 VideoPoet，这是一种新的语言模型，能够根据文本、图像、视频和音频等各种输入创建视频。VideoPoet 可以将文本转换为视频、修改现有视频，甚至从视频生成音频。VideoPoet 可以做什么：文字转视频,带文字提示的图像转视频,视频转音频,使用文本提示更改现有视频

阿里巴巴研究人员发布逼真头像制作工具

\[摘要**\]**阿里巴巴研究人员刚刚推出了Make-A-Character (Mach)，这是一种人工智能系统，可利用 LLM 和视觉模型在几分钟内将文本提示转换为逼真的 3D 头像,Mach 利用稳定扩散和 ControlNet 等模型从文本生成详细的参考肖像。然后，肖像指导几何和纹理生成，以制作可定制的头部和面部。头发是逐股合成的，以增强真实感，而全身则是从与提示匹配的 3D 资源库中组装而成。这些头像还与常见的动画管道兼容。

K5：人工智能机械战警在纽约地铁巡逻

\[摘要**\]**纽约市的地铁系统增添了新成员：K5，这是一款人工智能驱动的机械警察，旨在增强安全性。K5 高 64.5 英寸，配备 4K 摄像头、热成像和避障等先进功能，是纽约警察局试点计划的一部分。K5 以每小时 9 美元的价格从 Knightscope 租用，旨在威慑犯罪并为执法部门提供实时数据。

人工智能在识别照片位置方面击败了人类

\[摘要**\]**斯坦福大学的学生创建了一种名为PIGEON的人工智能，它可以通过捕捉图像中微妙的视觉线索，比人类专家更快、更准确地确定照片的位置。IGEON 使用 500,000 张 Google 街景图像进行训练，以玩在线位置猜测游戏 GeoGuessr。该人工智能此前曾与有影响力的 GeoGuessr Trevor Rainbolt 交手，并在多轮交锋中击败了他。人工智能在 92% 的时间里猜对了国家，在 90% 的时间里猜对了 25 英里内的国家，并将个人照片定位在距拍摄地点仅几个街区或几英里的范围内。系统利用了人类可能会错过的树叶、天气模式、土壤等。

盘古 π：解决特征坍塌问题的创新大模型架构，推动Transformer架构发展

\[摘要**\]**研究发现特征坍塌问题影响着Transformer架构的表达能力，特别是在Transformer更深层中，特征的秩显著降低，导致生成质量和多样性降低。研究者通过理论分析和实证研究提出，在FFN和MSA模块中引入更多非线性，可以有效缓解特征坍塌问题。盘古 π引入了全新的大模型架构，通过在FFN中引入基于级数的激活函数和在MSA模块中的增强型短路处理，加强模型的非线性。盘古 π的两个版本，盘古 π-7B和盘古 π-1B，在大规模语料库上经训练后，在多项NLP任务上表现优异。作者还将盘古 π-7B应用于金融和法律领域，开发了云山大模型，展示了其在商业应用中的价值。这项工作不仅解决了Transformer架构中的关键问题，也为未来大模型的发展提供了新方向。

TinyGPT-V：一种高效的小型多模态语言模型，促进MLLMs在实际应用中的广泛可行性

\[摘要**\]**显著进步。然而，这些模型的封闭源代码和高计算需求限制了它们的广泛应用和可修改性。面对这一挑战，开源MLLMs如LLaVA和MiniGPT-4展示了其潜力，尽管它们的计算效率仍然是一个挑战。为应对这些问题，我们提出了TinyGPT-V，一种新型模型，将卓越性能与常见计算资源结合起来。TinyGPT-V的训练只需24G GPU，而推理仅需8G GPU或CPU，基于Phi-2架构，结合了高效的语言主干和BLIP-2或CLIP的预训练视觉模块。拥有28亿参数的TinyGPT-V经过了独特的量化过程，适合在只有8G内存的设备上进行本地部署和推理任务。这项工作为设计经济高效且性能优越的MLLMs开辟了新道路，拓宽了它们在实际应用场景中的应用范围。此外，我们的研究还提出了一个新范式，即通过小型主干实现多模态大型语言模型，为MLLMs的未来发展提供了新的方向。

Unified-IO 2：开创性的多模态自回归模型，实现图像、文本、音频和动作的综合理解与生成

\[摘要**\]**Unified-IO 2是首个集成多模态功能的自回归模型，能够理解和生成图像、文本、音频以及动作，具备空间关系理解能力，实现真正的全能集成。该模型通过将不同模态的输入和输出（包括图像、文本、音频、动作和框架）转化为统一的语义空间分词，并采用单一编码器-解码器变换器架构进行处理。考虑到多模态训练的复杂性，我们引入了多种架构改进以增强模型稳定性。Unified-IO 2在大型多模态预训练数据集上从头开始训练，并通过多模态混合去噪目标进行优化。该模型在120个不同数据集的集合上进行了微调，以学习遵循多模态指令等广泛技能。在GRIT基准测试中，Unified-IO 2达到了最先进水平，并在超过30个基准测试中展现了强大的性能，包括图像生成与理解、文本理解、视频和音频理解，以及机器人操作等领域。该模型已全面开放给研究界，有望推动多模态理解与生成技术的发展。

阿里巴巴宣布 TF-T2V 无文本视频的文本到视频生成的扩展配方

\[摘要**\]**近期，一个新颖的文本到视频生成框架TF-T2V被提出，旨在直接从无文本视频学习，解决传统方法中因数据规模限制导致的性能瓶颈。该框架通过将文本解码与时间建模过程分离，并结合内容与动作分支，实现了权重共享和优化。实验结果显示，通过扩大训练集规模，性能显著提升（FID 从 9.67 降至 8.19，FVD 从 484 降至 441）。进一步地，重新加入部分文本标签后，性能得到持续提升（FID 从 8.19 降至 7.64，FVD 从 441 降至 366），证明了TF-T2V框架的有效性和普适性。这一进展不仅展示了在有限数据条件下的创新可能性，也为文本到视频生成领域提供了新的研究方向。

雅意开源了YAYI 2政企大模型

\[摘要**\]**雅意开源了YAYI 2，30B大小的模型，评分跟李开复的YI-34B接近。官网直接标明是政企大模型,是在大陆挣钱，拿牌照、做政府和国企客户是比较好的路子。

Meta（Gen AI）发布新视频模型Fairy

\[摘要**\]**Fairy，一种极简但稳健的图像编辑扩散模型改编，可增强视频编辑应用程序的功能。我们的方法以基于锚点的跨帧注意力的概念为中心，这是一种隐式地跨帧传播扩散特征的机制，确保了卓越的时间相干性和高保真合成。Fairy 不仅解决了先前模型的局限性，包括内存和处理速度。它还通过独特的数据增强策略改进了时间一致性。此策略使模型在源图像和目标图像中对仿射变换保持不变。Fairy 非常高效，仅需 14 秒即可生成 120 帧 512x384 视频（在 30 FPS 下持续 4 秒），速度至少是先前作品的 44 倍。

YAYI 2 是中科闻歌研发的新一代开源大语言模型

\[摘要**\]**包括 Base 和 Chat 版本，参数规模为 30B。YAYI2-30B 是基于 Transformer 的大语言模型，采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。针对通用和特定领域的应用场景，采用了百万级指令进行微调，同时借助人类反馈强化学习方法，以更好地使模型与人类价值观对齐。本次开源的模型为 YAYI2-30B Base 模型。

Rob机器人：Reddit用户手工制作的ChatGPT驱动机器人

\[摘要**\]**一个Reddit用户为分散工作和娱乐的注意力，决定制作一个名为Rob的机器人。Rob虽然不能像波士顿动力的ATLAS那样执行复杂动作，但它由微型计算机树莓派驱动，配备了可充电电池、伺服电机、触摸传感器和小型OLED屏幕。通过与ChatGPT的互动，Rob具备智能响应能力，能回答问题并“看到”周围世界。该项目最初作为学习机器人技术的手段，现已成为展示人工智能积极用途的工具，其创造者“MrRandom93”希望Rob能成为人工智能对人类有益的一个有趣例子。

HAAR：基于文本描述的逼真3D人类发型生成技术

\[摘要**\]**HAAR是一项创新技术，它通过文本描述来生成逼真的3D人类发型。不同于传统的AI生成模型依赖2D视觉信息重建3D内容，HAAR采用3D发丝作为基础表示，更精确模拟发型结构。这种方法使得即使是复杂和高度遮挡的发型也能被精确生成。HAAR利用文本引导生成发型，通过2D视觉问答系统自动注释合成的模型，训练潜在扩散模型理解并转化文本描述为3D发型设计。适用于动画、游戏开发、虚拟现实等领域，HAAR提供了一种新颖的方式来创造和呈现发型效果。

**2,产品创新**

MICROSOFT COPILOT 现已在移动设备上作为应用程序提供

\[摘要**\]**微软发布了一款适用于 Android 手机的新应用程序，名为 Copilot。您可以在 Google Play 商店中找到它。该应用程序可让您使用 Microsoft 的 AI Copilot，而无需 Bing 应用程序。已经出来一周左右了该应用程序很像 ChatGPT。它可以聊天、制作图像以及帮助编写电子邮件或文档。它还免费提供 OpenAI 的最新 GPT-4 AI，这在 ChatGPT 中通常需要付费。

百度的类似ChatGPT的Ernie Bot用户超过一亿

\[摘要**\]**百度的Ernie Bot，一款类似于ChatGPT的产品，已经吸引了超过一亿用户，这一消息由中国互联网公司首席技术官王海峰于北京深度学习峰会上宣布。这个里程碑标志着百度在八月份向公众开放Ernie Bot后取得的显著成果。尽管其三月份的部分揭示初显不足，但Ernie Bot为百度在竞争激烈的市场中提供了先发优势，其中包括众多中国科技公司寻求开发自己的基于生成性人工智能的聊天机器人。这一进展紧随美国研究机构OpenAI发布ChatGPT后而来，后者在六个月内迅速成为全球增长最快的软件应用。与此同时，投资者对OpenAI的估值已超过800亿美元。

LG AI机器人是两条腿轮子上的新个性化智能家居助手

\[摘要**\]**LG电子正式宣布即将推出其创新的智能家居AI机器人，恰如其分地命名为“AI Agent”。AI Agent将在CES 2024上亮相，它融合了尖端的机器人技术、人工智能和多模式功能，旨在彻底改变我们与生活空间的互动方式。LG AI Robot采用独特的两足轮设计，使其能够在家庭环境范围内自主移动。这种独特的设计有助于无缝导航和与周围环境的互动，使其成为现代智能家居的理想补充。

“IDEA-TO-APP”人工智能APP已上线

\[摘要**\]**名为“idea-to-app”的新人工智能平台推出了。这款创新的应用程序让用户可以绘制自己的想法，然后使用人工智能代理自动将这些想法开发成产品。这个从想法到应用程序的人工智能代理平台的推出是一项重大发展，表明 2024 年人工智能技术的增长趋势。该平台代表了向更加自动化和直观的产品开发的转变，其中人工智能代理占据了中心地位在将想法变为现实方面发挥着重要作用。它展示了人工智能在创意过程和产品开发中不断扩展的能力，强调了人工智能在将概念转化为有形产品的过程中发挥关键作用的未来。

Wysper：把播客变成内容引擎

\[摘要**\]**帮助团队通过将音频转换为书面内容来自动化内容创作。该服务利用人工智能（AI）自动化80%的内容创作过程，可以每周节省团队超过20小时的时间。Wysper Write还提供一个专门的文案撰写人员，学习品牌的风格和声音，并从每一集中创建LinkedIn和博客内容。该服务包括与专门的文案撰写人员进行个性化入职培训、每月最多创建20篇内容，并帮助扩大品牌在所有平台上的影响力。

**3，监管合规**

AI 图像训练数据集被发现包含儿童性虐待图像

\[摘要**\]**斯坦福大学互联网观测站发现，Stability AI 使用的流行的人工智能图像生成训练数据集包含虐待儿童图像的链接。该数据集被称为 LAION-5B，包含至少 1,679 张来自社交媒体和成人网站的非法图像，这些图像是通过使用 PhotoDNA 等 CSAM 检测平台识别的，并由加拿大儿童保护中心验证。虽然目前的数据集本身并不存储图像，并且儿童性虐待材料（CSAM）的存在不会自动影响用它训练的人工智能模型的输出，但仍然存在模型可能从图像中学习的风险。

X（原Twitter）未能阻止加州内容审核政策披露法案，法官驳回初步禁令请求

\[摘要**\]**周四，萨克拉门托联邦法官拒绝了X提出的关于AB 587法律的初步禁令请求。该法案要求大型社交媒体公司每半年报告其内容审核实践和处理令人反感帖子的数据。X在9月起诉加州，声称该法律违反了美国宪法第一修正案和加州宪法的言论自由权。美国地区法官William Shubb驳回了X的请求，认为该法律的报告要求在第一修正案法律背景下是合理的。X自埃隆·马斯克接管以来因内容审核政策受到批评，多家广告商已暂停在平台上的广告。此外，X还因涉嫌传播有关哈马斯袭击以色列的虚假信息，面临欧盟委员会的调查，可能违反了欧盟新的数字服务法案（DSA）。

谷歌就Chrome‘隐身’模式用户跟踪诉讼初步和解，赔偿额或达50亿美元

\[摘要**\]**谷歌已初步和解一起集体诉讼，该诉讼指控其在Chrome浏览器的“隐身”模式下跟踪用户，要求赔偿至少50亿美元。诉讼称，谷歌即使在用户使用隐身或私人模式时，也通过cookie和其他工具追踪在线活动。谷歌辩称，隐身模式允许用户浏览不留痕迹，但网站在会话期间仍可收集数据。诉讼自2016年起涉及“数百万”用户，每人索赔至少5,000美元，违反联邦窃听和加州隐私法。案件原定2024年在加州审理，现暂停等待和解细节确认。

苹果正在与主要新闻出版商就授权他们的故事档案来训练其生成人工智能系统进行谈判

\[摘要**\]**Apple正在与Condé Nast、NBC News和IAC等知名新闻出版商进行接洽，讨论一项新的提议。该提议将允许苹果公司获得这些出版商新闻文章档案的许可权。在这项可能的合作中，出版商可能需要对苹果使用其新闻内容可能引发的任何法律问题承担责任。据《纽约时报》报道，这些多年期的交易可能价值高达5000万美元或更多。这标志着Apple在新闻内容领域的进一步扩展，同时也反映出新闻出版行业在版权和内容许可方面的新动态。

---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-brief-20231231-ai20231231](https://www.haxitag.com/briefs/ai-brief-20231231-ai20231231)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。