# 2020年9月6日AI及信息技术应用简报

## 1. 核心定义
> AI应用：利用人工智能技术解决实际问题，涉及计算机视觉、自然语言处理、机器学习等领域。

## 2. 核心洞察 (TL;DR)
- AI预训练模型在低数据应用中表现良好，但在高数据应用中可能损害准确性。
- 中国限制出口技术目录调整，TikTok算法被点名，为字节跳动提供支持。
- 解决AI商业化困境需要驯服长尾数据，并构建更好的AI系统。

## 3. 关键事实与数据
- ImageNet预训练模型在ImageNet数据集中训练需要350个epochs。
- 字节跳动出售TikTok业务需得到中国相关部门许可批准。
- 长尾数据在AI公司中很重要，需要识别分布外数据、寻找相似案例等能力。

## 4. 深度分析正文

#2020年9月6日AI及信息技术应用简报
=====================

01  # AI应用


谷歌大脑团队：重新思考计算机视觉的预训练和自我训练

ImageNet Init需要在 ImageNet 数据集中训练 350 个 epochs。4.3 当自我训练在高数据系统中有帮助时，自我监督的预训练也会造成伤害 先前的实验表明，ImageNet 预训练会损害准确性，尤其是在高数据、增强能力最强的情况下。对于低数据应用，如 PASCAL 分割，也需要良好的预训练模型

来源:AI前线

TikTok 有国家撑腰了！中国限制出口技术目录调整， TikTok 算法被点名

字节跳动出售 TikTok 业务应该得到中国相关部门许可批准本次《目录》调整共涉及 53 项技术条目：一是删除了 4 项禁止出口的技术条目。简单来说，商务部和科技部调整发布的新的《中国禁止出口限制出口技术目录》对字节跳动来说是一个强有力的支撑后盾。8 月 28 日，商务部、科技部调整发布《中国禁止出口限制出口技术目录》

来源:百度新闻

硅谷顶级VC再发声：解决AI商业化困境？先来驯服这条长尾

长尾与机器学习 面对长尾分布数据，想要建立一家高效的AI公司会遇到许多困难。对于大多数机器学习团队来说，以可重复方式收集长尾数据，这个能力很重要，通常包括识别分布外数据、寻找相似案例、标记新数据并经常使用主动学习进行智能化再训练。二 构建更好的AI系统 寻求解决方案 许多人工智能系统被设计用来预测复杂的底层系统交互，这也是输入数据长尾分布的原因

来源:机器之能 

百度发布“太行”架构的背后

很显然，百度智能云很清晰地认识到，即使行业应用进入到AI Native时代，AI为产业提供服务也不能局限于技术输出，还需要行业上下游合作伙伴的深度参与。

来源:百度新闻 

医疗健康领域的短文本理解

这里值得一提的是：如果我们所在的业务场景是比较窄的情况下，比如只需要搜索药品或者搜索疾病时，我们借鉴18年发表在IEEE上一篇关于医疗概念归一化的文章，它的主要思路是对原文本中一些字做增减或者替换，然后构建一个confusion set ，把词跟字的连接构成一个graph，然后获得graph上的embedding之后一起放进端到端的auto encoder，即DAE，把DAE训练到收敛之后会使用一个个向量集的检索生成候选集。

来源:NLP有品

大数医达林玥煜：“电子病历+NLP”的实战经验全复盘

对于患者的应用，可以把患者基本信息、病历症状拿出来训练AI模型，这样医生就可以通过手机问诊模型选择患者基本信息加症状，不需要任何额外检查就能够获得数据。

来源:来自于今日头条

常识知识确能被捕获，西湖大学博士探究BERT如何做常识问答

研究者首先进行了一组实验来探究常识链接权重，从而可以反映出常识知识是否会被句子的BERT表示捕获。下表3为topTransformer层中12个注意力头条件下，MAC和MAS的重叠率常识链接与模型预测之间的相关性为了进一步探究常识知识对模型预测的贡献，下图4展示了每个Transformer层上MAC和模型预测之间的重叠率：下表4则展示了MAC准确率和预测准确率之间的相关性：不同层的贡献最后，研究者进进一步探究了常识知识使用上的两个具体问题。

来源:机器之心

百度CTO王海峰服贸会展示AI新基建成果 为服务贸易发展注入新动能

百度智能云利用领先的 AI 技术帮助企业建立竞争优势，并支持中国制造业实现智能化升级。百度作为全球领先的人工智能平台型企业，将持续以多年积累的人工智能技术成果和实践经验助力新基建提速，助力中国数字经济加速向智能经济迈进。百度智能云融合了云计算、百度大脑、大数据等百度核心技术，提供了通用的基础云平台、AI 中台、知识中台等多层次的平台，以及为各行各业赋能的智能应用和解决方案，助力产业智能化升级

来源:百度新闻

02  # 搜索推荐和知识图谱

OpenKG区块链：构建可信开放的联邦知识图谱平台

图3. 联邦知识图谱技术平台架构二、知识图谱与区块链2.1 关于区块链与分布式账本分布式账本 是一个于多站点、多地区或多家机构所组成的网络上进行电子数据复制、共享及同步的共识，不存在中心管理员或集中的数据存储。

来源:将门创投

 实时OLAP引擎之Apache Druid：架构、原理和应用实践

实时OLAP引擎在熵简数据智能解决方案中，其中离用户最近的一环，是利用数据中台对外提供的数据服务做数据分析。在熵简数据智能解决方案中，我们利用 Druid 作为数据分析的最后一环：数据智能分析系统的核心引擎，为用户提供高度灵活的、亚秒级响应的探索性分析工具。定制 OLAP Adaptor世界上没有能解决所有问题的银弹，在数据智能分析数据分析领域也是如此，没有能解决所有问题的 OLAP Engine，拿 Druid 举例，Druid 的 distinct count 算法是近似算法，它虽然也支持精确去重计算，但是一个查询，只能支持一列 distinct count，这显然对于产品来说，是不能接受的，一个产品的发展，最好是能减少这些外部依赖对其本身对接受，对于用户来说，也是不能接受的，一些需要精确的去重计算如果要近似的来代替，是要出问题的。

对话BM：未来EOS将跨链运行BTC

在采访中，BM再次提及BTC并多次强调：“未来，BTC将在EOS网络上运行。”EOS Go将本次采访精彩内容整理如下：BTC将在EOS网络上运行关于此观点，BM的想法以及规划是：“将BTC迁移到EOS网络上是可行的。本次采访内容涵盖多个话题：BM先是分享了个人经历，并透露Block.one公司未来将在跨链方面做出努力，使EOS主网更具拓展性，帮助用户实现去中心化金融自由

来源:链闻

一篇文章读懂SaaS多租户和单租户的分别

作为新一代SaaS企业管理软件，8MSaaS考虑到企业客户对于灵活定制、数据安全、系统管控等方面的需求，选择为客户提供SaaS单租户解决方案，从客户需求出发，不施加任何限制，致力打造企业全面数字化、各模块自动打通的云端企业一体化管理系统，解决企业管理难题。

来源:8Manage企业管理软件

Prophet：Facebook 创造的先知

图展示了 Prophet 拟合过去值和预测未来值的效果

来源:阿泽的学习笔记

03 # 行业评论

张一鸣获取支付牌照，字节跳动打造金融帝国  

9月3日，多家媒体消息，字节跳动确认其获取武汉合众易宝科技有限公司支付牌照。2019年8月，字节跳动收购北京市金美林投资咨询有限责任公司，天眼查显示，公司股东为江苏今日头条信息科技有限公司，持股100%。其他三张金融牌照相比阿里、腾讯、百度等互联网巨头，字节跳动布局金融较晚，仅持有网络小贷、保险经纪和证券投顾3块金融牌照

来源:今日头条

周鸿祎：创业者必看的18句大实话

我认为独角兽最重要是要回归本质，真正创造一种新的产品、新的标准、新的模式，03微创新11.从行业巨头看不到、看不懂、看不起的小处着眼切入市场，通过快速地、持续地改进产品的用户体验，从而达到颠覆市场格局的目标，这种持续不断的创新就是“微创新”。

来源:创业家  

政府引导基金的真心话：GP基金募不起来，大家见面都尴尬

但是这个领域的选择也是一件蛮考验人的事情，比如说半导体的产业链上，长周期，好团队和大资本依赖的特点非常突出，所以可以参与的环节其实是有限的，需要考虑我们LP的结构和接受度，在聚焦领域的选择上，就要把项目的产业链环节中优势的建立，触达资本市场的优先顺序与GP的资本规模和期限结构，及在价值创造过程中的赋能禀赋统一起来，综合考虑。中国作为新兴市场当一个大机会来临的时候总有集聚效应，体现在最近就是会有大量科科创板拟上市企业的投资机会，当然我们投资标准肯定要坚持站在价值的地板上跑动。

来源:投中网

阿北还是那个阿北，而豆瓣已不复从前

“阿北被很多豆瓣老用户看作精神领袖，他是很有情怀的人。书影音用户跟豆瓣小组的用户差异更大，前者是算法产品，后者是社区产品，“它们在导航栏上无论怎么安置都觉得有问题”。”纸艾特笔观察到，“其实豆瓣产品设计没有太大变化，主要还是因为小组越来越火，两方用户隔不开的

来源:全现在

Sensor Tower最近公布了8月份的商店情报数据  

Sensor Tower:2020年8月，全球收入最高的非游戏应用程序是TikTok，在苹果商店和谷歌商店的总收入超过8810万美元，是其去年同期收入的6.3倍。2020年8月全球收入第二高的非游戏应用程序是YouTube，总收入超过8390万美元，同比增长54.8％。YouTube的收入中约有55％来自美国，其次13％来自日本.紧随其后的是收入最高的社交软件Tinder，其次是腾讯视频和漫画平台Piccoma。此外，数据显示，Snapchat在8月份的下载量为2850万，同比增长29%，这是自2019年5月以来下载量最大的一个月.

来源:来自于Donews

---
## 5. 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://www.haxitag.com/briefs/ai-intelligence-application](https://www.haxitag.com/briefs/ai-intelligence-application)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。
