请查收,您有一份阿里先锋开源项目清单!

前段时间,开源社《2021中国开源年度报告》发布,阿里蝉联中国企业开源活跃度No.1;在中国活跃开源项目 Top 30 榜单中,阿里开源的 Ant Design、Nacos、element、Canal、Seata 五大项目上榜;阿里深度参与贡献的 Apache Flink、Apache Dubbo、Apache RocketMQ 这三个项目也登上榜单,总共涉及 10 个 repository,占整体榜单的1/3

2021年,阿里开源新增了1494万行代码,是过去十年总量的30%;

代码仓库新增了715个,总量超过了3000个,占过去十年的23%;

commits数超过了20万次,占过去十年的40%;

新增了16864个活跃开发者,其中代码贡献者新增了2316个,占过去十年总量的35%。

在阿里巴巴集团CTO程立看来:未来整个数字世界的根基是开源和云。未来,开源会形成一个真正开放、合作、可信的“根”。阿里巴巴会以开源的方式,加大跟全社会的合作,通过开源文化形成产业合力,这是必须要以战略方式去推动的事情。于是,从去年开始,阿里巴巴加大了「开源委员会」 和「开源办公室」的投入,让阿里的开源行动变得更加有系统、有组织、可持续。在这篇文章里,我们一起回顾下7大方向、多个开源先锋项目的进展。

01 操作系统

伯瑜、崮德介绍:

操作系统是软件产业的基石,它不仅需要对云计算的创新硬件提供广泛支持,未来还要面向云边端一体化场景下的创新业务和生态提供稳定、高效的运行环境。所以生态和开源对于操作系统成败与否至关重要。具体而言,既包括南向芯片相关的硬件生态,也包括北向应用相关的开发者生态。这里的核心策略主要包括以下几个方面:

一是坚持开放和中立,与所有芯片、硬件以及底层基础设施相关的企业共建底层核心技术,做深基础;

二是坚持开源和共赢,与应用开发以及各类软件厂商共建应用框架以及软件适配标准,做强生态;

三是坚持共建和普惠,加大社区运营并为各类企业以及开发者持续沉淀核心技术文档和端到端解决方案,做好服务。

  1. 龙蜥操作系统

龙蜥操作系统(Anolis OS)是龙蜥社区(OpenAnolis)发布的开源操作系统,是一个经历了“双11”百万虚机、千万部署等实际考验的成熟操作系统,已发布Anolis OS 7.9、 8.4 和龙蜥LoongArch等多个版本,龙蜥社区提供十年技术支持。为应对 CentOS 停服,官网也已上线「CentOS 停服专区」为用户提供迁移方案及长期稳定支持,致力于成为 CentOS 的最佳替代。



2020年9月,阿里云联合统信、龙芯、中科方德、三大运营商等16家单位共同发起龙蜥社区。2021年10月,龙蜥操作系统重磅亮相云栖大会,同时,理事长单位阿里云宣布成立达摩院操作系统实验室,为龙蜥社区和操作系统行业培养5万人才。2021年11月4日,龙蜥社区将龙蜥操作系统捐赠给开放原子开源基金会,当前已全票通过项目孵化评审中的技术达标评审,即将进行法务合规性审核。



目前,龙蜥操作系统已在阿里云全面上线,总装机量达百万量级。龙蜥社区已有17家理事单位、200多家生态企业,囊括了主流的行业龙头企业,也实现了产业链类型全覆盖。其中,统信软件、中国移动等已基于龙蜥操作系统发布商业版本,为用户提供高效、专业的技术支持和服务。龙蜥操作系统也是国内首个从操作系统层面提供全软件栈国密算法的OS解决方案,并且对内核SM4算法做了深度优化,性能提升近 800%,真正让中国国密算法从合规走向生产应用。



过去一年,龙蜥操作系统和龙蜥社区也得到诸多行业认可,获得“中国开源云联盟年度优秀开源项目”奖、 “开源社区及开源项目OSCAR 开源尖峰案例奖”等奖项,并荣登2021“科创中国”开源创新榜。

龙蜥社区官网:

https://openanolis.cn/

  1. AliOS Things

为了持续降低物联网开发门槛,2021年AliOS Things在应用框架层推出了HaaS Python云端一体开发框架,让开发者通过Python脚本语言就能轻松完成物联网设备开发,简单、便捷的上云用云。HaaS Python基于现有开源项目MicroPython,新增物联网云端一体人工智能支持,搭配显示交互框架HaaS UI,同时提供简单易用的HaaS Studio IDE和丰富的软硬件积木、场景案例、文档资料等,从而为物联网开发者提供“急速开发,免编译,免烧录”的极致开发体验。AliOS Things完成对开放原子开源基金会捐赠,成为基金会成立时首批七个孵化项目之一;12月携手ARM通过了PSA全球安全认证;并荣获2021科创中国年度优秀开源产品称号。

AliOS things:

https://gitee.com/alios-things

02 大数据

莫问介绍:

开源大数据作为阿里巴巴开源体系的重要组成部分,核心策略聚焦在三个方面:

一是推动技术的创新突破。

我们通过包括自主开源和广泛参与等多种方式积极推进解决开源大数据技术遇到的各种挑战,立足实际面向未来进行前沿技术的开发迭代;

二是推动大数据技术普惠。

我们希望通过我们的开源项目和社区参与,降低大数据技术的门槛,让更多的行业和用户能够使用开源大数据技术并从中受益;

三是积极推动开源生态的繁荣。

我们致力于通过开放合作的社区,吸引更多对开源有兴趣的志同道合者加入开源项目和周边生态的建设。

Apache Flink

阿里云开源大数据团队在过去的一年通过在 Apache Flink 项目社区的持续贡献,不断推动实时计算领域的发展。在 Flink 核心引擎方面,我们完成了包括更好支持动态扩缩容、支持 Hive SQL 方言、细粒度资源配置等一系列用户长期关注的功能,同时也通过改进状态持久化能力、支持混合数据源等工作将流批一体的体验提升到了一个新的高度。机器学习方面,阿里开源大数据团队和阿里开源的机器学习算法库 Alink 的开发同学一起建立了 Apache Flink 的独立子项目 flink-ml 并完成了 flink-ml 2.0 版本的第一个发布。我们为 flink-ml 设计了新的 API,后续也计划把 Alink 中的算法持续向 flink-ml 中进行贡献和迁移。

flink:

https://github.com/apache/flink

flink-ml:

https://github.com/apache/flink-ml

Alink:

https://github.com/alibaba/Alink

✪ 生态项目

除了在 Apache Flink 项目中的投入,我们也创建了若干有影响力的生态项目。数据集成方面,flink-cdc-connectors 项目为从关系型数据库同步数据提供了有力的解决方案,收获超过 1700 个 GitHub star,受到了广泛关注和认可。flink-rss 项目通过为Apache Flink提供高性能的外部 shuffle,有力支撑了Apache Flink的流批一体建设。AI Flow 项目通过提供流批一体的工作流,和 flink-ml 配合显著降低了实时机器学习的实施复杂度。

flink-cdc-connectors:

https://github.com/ververica/flink-cdc-connectors

flink-rss:

https://github.com/flink-extended/flink-remote-shuffle

AI Flow:

https://github.com/flink-extended/ai-flow

✪ 社区进展

2021 年 Apache Flink 在金融、智能制造、互联网、物流、出行等各个行业和领域的应用不断拓展。Apache 基金会2021财年报告中,Apache Flink 连续第三年蝉联邮件列表活跃度第一;GitHub 上的访问量第二;代码仓库中的代码提交次数第二。Github contributor数量近千,Star 17900+。由阿里云开源大数据团队发起的Apache Flink 中文社区,在2021年组织了Flink Forward Asia 2021、Meetup、极客挑战赛、线上直播等数十场社区活动,超过10万人次的开发者参与,是国内大数据领域最活跃的开源社区。

03 数据库

飞刀介绍:

数据库系统一直以来都是计算机科学领域最重要的基础系统之一,其关键的任务,对数据的归集,分类,组织,处理,存储,分析,应用,涵盖了整个数据从产生到消费的整个生命周期,几乎所有的应用都需要与数据库交互,因此构建一个完整的生态对数据库产品至关重要。阿里云数据库在过去的一年开源了云原生数据库PolarDB for PG和分布式数据库PolarDB-X,在目前已经有广泛认知的主流开源数据库产品(MySQL/PG)上,重新设计技术架构,拓展了分布式扩展,云原生弹性,跨区高可用,混合负载处理等一系列核心技术,并从一开始就构架在云平台上,提供轻量化的云管控设施。阿里云数据库期望与大家一起,顺应市场和技术发展最重要的云化趋势,构建云原生与分布式的数据库生态,为数据库书写新时代的篇章。

PolarDB

2021年5月,阿里云正式对外宣布开源云原生数据库能力,将阿里云在数据库技术上积累的丰富经验,通过标准技术组件和系统的方式开放出来,与百万开发者共建数据库生态。基于PG的云原生数据库PolarDB for PostgreSQL采用基于Shared-Storage的存储计算分离架构,是目前开源社区唯一一款存储计算分离的数据库,具有极致弹性、毫秒级延迟、HTAP能力。兼容MySQL的一体化分布式数据库PolarDB-X是阿里云自主研发的云原生分布式数据库,核心技术由在集团广泛应用和锤炼的TDDL、AliSQL和X-Engine演进而来,曾获中国电子学会科学技术奖一等奖,TDDL曾开创国内互联网领域使用分库分表技术先河。

PolarDB for PostgreSQL:

https://github.com/ApsaraDB/PolarDB-for-PostgreSQL

PolarDB-X

计算层:

https://github.com/ApsaraDB/galaxysql

存储层:

https://github.com/ApsaraDB/galaxyengine

虽然开源模式一直以来广受用户欢迎,但业界能将分布式能力开源出来,特别是形成产品级的、可以利用现有数据库基础设施的开源产品凤毛麟角。阿里云云原生分布式数据库PolarDB的开源,以满满的诚意为社区注入了一针强心剂,获得广泛关注,短短时间Github Star即达3200+,垂类社群活跃开发者5000+。为帮助广大开发者更好地理解和使用开源云原生数据库技术,阿里云开源数据库团队通过《云原生数据库:原理与实践》教材、开源训练营、知乎专栏技术博客、每周问答精选、《开源学堂》教学直播演示、高校宣讲等方式,与开发者建立起互促成长的社区氛围。在PostgreSQL中文社区成立10周年之际,荣获“PostgreSQL中国最具价值团队奖”、“PostgreSQL猛犸象奖”,得到来自社区的肯定。

04 云原生

叔同介绍:

云原生团队将更加积极拥抱云原生技术生态, 在容器领域以应用管理交付、云原生AI、边缘/分布式云、混部、云原生AIOps等领域开源项目为依托,探索更多业务场景和技术新边界;在中间件领域继续发挥优势,从分布式应用架构到分布式应用治理持续打造技术影响力和具备竞争力的开源项目。

  1. 容器

✪ KubeVela

KubeVela 是由阿里云云原生团队于 2020 年 11 月主导开源的云原生应用交付与管理平台。目前,社区中已活跃着超过 100 名贡献者,被超过 30 家国内外领先企业在生产环境中使用,GitHub Stars 3000+。2021 年,KubeVela 的最新版本已到达 v1.2 。在陆续加入 GitOps、Jenkins CI/CD、Helm 包的完整部署等之后,KubeVela v1.2 带来了完整业界首个基于订阅模型的应用交付开源系统,及全新的 UI 控制台,使用户可以直接操作 KubeVela UI 控制台完成应用交付的完整体验。2021 年 5 月,基于“开放应用架构模型(OAM)”和 KubeVela 为实现基础的《云计算开放应用架构》标准文件由阿里云计算有限公司、中国信息通信研究院等 10 余家单位联合发布;7 月,KubeVela 成为 CNCF Sandbox 项目;9月,海外技术媒体 ITNEXT 发布《2021 Kubernetes 必备工具》, KubeVela 成为唯一入选的由中国开发者主导开源项目。

KubeVela:

https://github.com/oam-dev/kubevela

✪ OpenYurt

OpenYurt 是由阿里云云原生团队于 2020 年 5 月开源的边缘容器项目,现为 CNCF 沙箱项目。OpenYurt 在社区首创 K8s "零侵入"的云边协同理念,积极与阿里巴巴内、外多个团队协同共创。OpenYurt 项目发起人徙远当选开放原子基金会 TOC 成员。目前,OpenYurt 与 EMQ、VMware、WasmEdge、FabeEdge 等企业/社区也在积极开展在边缘云原生消息、物模型管理、runtime轻量化、网络标准等方向的共建,并与 EdgeX Foundry 落地首个云原生设备管理模型。2021 年 1 月,OpenYurt 入选边缘计算社区“边缘计算领域十大热门开源项目”;11 月, OpenYurt 社区发起人 & 核心维护者黄玉奇(徙远)经过投票,正式当选为开放原子开源基金会 TOC 成员。

OpenYurt:

https://github.com/openyurtio

✪ OpenKruise

OpenKruise 项目是阿里云开源的云原生应用自动化管理套件,焦于云原生应用的部署、升级、运维、稳定性防护等领域。所有的功能都通过 CRD 等标准方式扩展。它来自于阿里巴巴多年来容器化、云原生的技术沉淀,是阿里巴巴集团上云全面使用的部署基座。目前 Github star 2.8k,contributor 70+,fork 450+,被苏宁、小米、OPPO、美团金融、网易、Shopee等诸多国内外top互联网/科技企业引入使用。经历了 10 几个版本的迭代后,2021 年 12 月,OpenKruise 正式发布 v1.0.0 版本,新版本可提供多种增强的 Workload 类型、大幅加强原地升级能力等多种特性,使 OpenKruise 不再局限于对工作负载领域的扩展增强,而是将云原生应用部署管理能力扩展到更多领域,让云原生无处不在。

OpenKruise:

https://github.com/openkruise

✪ Fluid

Fluid 是由阿里云云原生和计算平台团队、南京大学、Alluxio 社区共同发起的云原生数据编排和加速系统,2020 年 9 正式开源。Fluid 在云原生应用与数据的协同编排、调度优化、数据缓存、混合云数据管理等多方向提出一系列技术创新,为业界填补了在云原生数据领域的一块重要版图。开源至今已吸引 140+ 名贡献者。在包括微博、中国电信、Boss直聘、毫末智行、云知声、B站、作业帮、腾讯等国内外40多家企业中使用。2021 年 4 月,Fluid 正式进入 CNCF Sandbox, 9 月获得由中国信息通信研究院、中国通信标准化协会联合颁发的“OSCAR 尖峰开源项目和开源社区”奖。

Fluid:

https://github.com/fluid-cloudnative

✪ OCM

OCM(OpenClusterManagement) 项目是由阿里云云原生团队、红帽、蚂蚁金服等企业共同发起,于 2021 年 7 月联合开源,其本质是开源开放的 Kubernetes 多集群管理平台项目。OpenClusterManagement 主要采用自治管理架构,同时功能组件高度模块化可剪裁,使终端用户可以根据实际的场景灵活安装拆卸自己所需要的部分模块。目前 OCM 吸引到来自微软 ASK 团队、腾讯等企业工程师加入贡献。2021 年 11 月,距离正式开源仅 3 个多月,OCM 经过 CNCF 委员会会议投票通过,正式批准为 CNCF 的沙箱项目。

OCM:

https://github.com/open-cluster-management-io/OCM

✪ Inclavare Containers

Inclavare Containers是由阿里云操作系统安全团队和阿里云云原生容器服务团队主导,联合阿里内部多个研发团队(蚂蚁安全计算团队、云安全团队、语言runtime团队等)共同研发的面向机密计算场景的容器运行时技术栈。作为业界首个机密计算开源容器运行时,Inclavare Containers 采用了新颖的方法在基于硬件的可信执行环境中启动受保护的容器,以防止不受用户信任的实体访问用户的敏感数据。目前,其已成为龙蜥社区云原生机密计算 SIG 的项目之一。2021 年 9月 15 日,Inclavare Containers 通过云原生计算基金会(CNCF)TOC 投票正式成为 CNCF 官方沙箱项目。

Inclavare Containers:

https://github.com/inclavare-containers/inclavare-containers

  1. 中间件

✪ Apache RocketMQ

在 2021年,RocketMQ在业务消息领域首选的基础上,开始升级成为云原生消息、事件、流融合处理平台,在 5.0.0-preview 版本中,逻辑队列,batch 索引,全新pop 消费模型等一系列全新特性陆续发布;rocketmq-streams的出现,使得 RocketMQ 具备了轻量级实时计算的能力,同时 RSQLDB 为开发者提供了基于 SQL 的开发方式。在过去的一年中,来自字节,快手,小米的同学外部贡献代码超过 50%,大批开发者通过 20多个 SIG开始进入到 RocketMQ 社区。此外还获得OSChina最佳开发者社区奖项,获得开源云联盟最佳开源优秀项目奖项,RocketMQ 获得信通院金融级高可用评测领先级认证。

RocketMQ:

https://github.com/apache/rocketmq

✪ Apache Dubbo

Apache Dubbo 继续维持国内首选开源服务框架的领先优势。本年度重磅发布了下一代的云原生微服务框架 Dubbo3 (涵盖 Java、Golang语言),并首次实现了在阿里巴巴、小米、工商银行等多家标杆用户的落地推广。Dubbo3 在国内率先提出了 Sidecar + Proxyless Mesh 的解决方案,并很快得到了百度、美团等业内实践跟进,目前Dubbo3 已具备 proxyless 服务发现能力,在财年底也将完成 Mesh 方案的正式发布,标志着 Dubbo3 正式完成云原生升级。从 star 数来看,Dubbo 生态 star 总数超过 4.5w,是 Apache 关注度最高项目;生态贡献者总数超过 600+,增长超 30%,主办/参与包括云原生变成挑战赛、编程之夏等多项顶级活动,开源周会组织超过 100 次,参与人数 10000+,生态年度发布超 20 个版本,累积官方登记用户达 200+。

https://github.com/apache/dubbo

https://github.com/dubbogo

✪ Nacos

发布 Nacos2.0,性能提升10倍,无缝支持服务网格生态,支持Dapr生态;发布《Nacos 架构与原理》 电子书,下载量5000+,阅读量10w+,进入藏经阁TOP1Nacos Star数突破2w,开发者突破200+,官网访问量超过139W,虎牙、好未来、小米等大厂广泛使用在开源中国发布的 2021 年度 OSC 中国开源项目评选中,Nacos 被评为云原生领域人气指数 Top5 的项目。

Nacos:

https://github.com/alibaba/nacos

✪ Seata

Seata 是应用架构层分布式事务领域应用最多的解决方案。2021 年 Seata 主要拓展了 golang、python、php 多语言生态;此外 java 项目依托 summer code 活动完成了 2.0 的研发工作,主要包括集群模式、sqlparser、通信协议、数据库支持、RPC框架支持等方面的扩展;Seata java 项目 Star 超过 21.5k ,contributor 200+,官网PV 超 200W,新增奇虎360、shopee、小鹏汽车、海尔、光大银行、平安人寿等头部用户。

Seata:

https://github.com/seata/seata

Spring Cloud Alibaba

发版:2021年Spring Cloud Alibaba发布了 2.2.6.RELEASE、2.2.7.RELEASE 等在内的10个版本,最新版本支持了Spring Cloud 2020.0.1、Spring Boot 2.4.2、Nacos 2.0,为社区用户在使用Spring Cloud Alibaba过程中带来了诸多新特性和新体验 。社区:上半年,社区联合阿里云知行实验室推出了 Spring Cloud Alibaba 入门系列课程与 Java 工程脚手架工具,为广大开发同学快速了解和构建 Spring Cloud Alibaba 项目提供了极大的便利。下半年,社区开始定期举办双周会,为社区成员之间交流沟通提供了重要途径,对社区发展具有重要价值。社区影响力:截止到当前,Spring Cloud Alibaba 共发布了26个版本,在GitHub上的累计contributor数目达到了120人, stars 数目超过了 21.1k,fork 数达到了6.5k,用户数达到了20.1k之多,各项关键数据遥遥领先国内外各大云厂商推出的同类开源微服务产品。用户:除了支撑阿里巴巴经济体日常复杂的微服务应用场景,Spring Cloud Alibaba也被平安科技、浩鲸科技、雅戈尔、联合永道以及汽车之家等数千家外部企业用户在生产场景中广泛使用。

Spring Cloud Alibaba:

https://github.com/alibaba/spring-cloud-alibaba

✪ AppActive

AppActive 是由阿里云云原生团队于2021年12月开源的面向业务应用构建云原生高可用多活容灾架构的开源中间件。AppActive 属于继高可用架构团队的 Sentinel、Chaosblade 开源后,第三个重磅高可用产品,三者形成高可用的三架马车,帮助企业构建稳定可靠的企业级生产系统,提高企业面对容灾、容错、容量等问题的稳态系统建设能力。AppActive 具备分钟级RTO、帮助企业充分利用资源、切换成功率高、流量精准控制4大特性,初步定义“多活”的标准和实现,帮助开发者形成统一的“多活”认知。

Appactive:

https://github.com/alibaba/Appactive

✪ OpenSergo

OpenSergo 于今年4月刚开源,由阿里云、bilibili、字节跳动,以及 Spring Cloud Alibaba、Nacos、Apache Dubbo 社区共同维护,旨在构建一个语言无关、异构的、贴近业务的统一微服务治理规范及参考实现。让业务开发者,不会因为不同的语言、不同的框架而产生割裂,让架构师,能够用统一的规范来描述自己内部的微服务架构,让中间件开发者,能够和现有微服务框架对齐,增强微服务框架之间的互操作能力,促进微服务框架在企业落地。Open 是开放的意思,Sergo 则是取了服务治理两个英文单词 Service Governance 的前部分字母 Ser 和 Go,合起来即是一个开放的服务治理项目。

OpenSergo:https://github.com/opensergo/opensergo-specification

✪ ChaosBlade

2021年,通过 CNCF TOC 投票,正式进入 CNCF Sandbox。ChaosBlade 品牌升级,成为首个支持系统云原生化全周期的混沌工程平台项目,包含 chaosblade-box 和 chaosblade 两个主项目。实验工具 chaosblade 支持 3 大系统平台,4 种编程语言应用,共涉及 200 多的实验场景,3000 多个实验参数,可以精细化的控制实验范围。混沌工程平台 chaosblade-box 支持实验工具托管,除已托管 chaosblade 外,还支持 Litmuschaos 实验工具。从商业化混沌工程平台拆出的社区版已开发完成,待后续对外开源。Star 突破4K,贡献者近90人,发布5个大版本。建立5家标杆企业,包含中国移动、工商银行、去哪网儿、沃尔玛、浩鲸云,除此之外已登记使用企业50家。

ChaosBlade:

https://github.com/chaosblade-io

✪ Sentinel

2021年,Sentinel Go 完善了metrics与自适应过载保护等基础能力,同时进一步与 Dapr、蚂蚁 MOSN、斗鱼 Jupiter 等社区进行合作,不断完善云原生生态;同时社区贡献了 Rust 多语言版本。Sentinel star 18.2k, fork 6.5k, 生态 star 合计 20k+, 生态贡献者 180+,作为国内最受欢迎的云原生流控降级开源组件,为外部企业用户包括华为、京东、拼多多、滴滴、bilibili、小米、vivo、爱奇艺等诸多公司提供高可用防护基础能力。

Sentinel:

https://github.com/alibaba/Sentinel

05 人工智能

林伟介绍:

阿里巴巴人工智能开源在整体策略上遵循充分理解现有开源系统、通过自身更具挑战的场景做增量的技术研究和开发,从而推动技术持续向前发展。这让我们能够更快地和国际研究接轨,而不会重复造轮子。通过相同的AI算法生态,能够使得算法同学快速进行算法迭代,通过系统能力推动AI模型向更强、更大、更智能发展。

  1. BladeDISC

2021年年底开源,目前业内的同类项目主要是实验室性质的项目居多,BladeDISC的核心优势主要在易用性、对用户的透明性以及优化的泛化性等方面。是业界最早完备支持动态shape编译的AI编译器,能够以TensorFlow/Pytorch插件的形式为AI用户e2e提供通用透明的性能优化,也是业内基于MLIR最早能够投入商用的E2E编译框架,此外能够帮助新硬件厂商提供AI框架的新硬件接入支持。

BladeDISC:

https://github.com/alibaba/BladeDISC

  1. Graph-Learn

2021年,Graph-Learn在阿里集团内支持了安全部,淘宝技术部等10多个BU用户的使用,日均调用1500+;外部客户方面支持了微博、得物、小红书、米连科技等。发布了两个大版本,目前开源star数已突破1k。Graph-Learn项目组和浙江大学,香港科技大学等若干高校建立了学术合作,相关工作也获得了电子学会科技进步一等奖,相关paper在FPL等会议进行了发表。

Graph-Learn:

https://github.com/alibaba/graph-learn

  1. Proxima

2021年底开源 Proxima BE(Proxima Bilin Engine)Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核。目前,其核心能力广泛应用于阿里巴巴和蚂蚁集团内众多业务,如淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等。Proxima BE,全称 Proxima Bilin Engine,是 Proxima 团队开发的服务化引擎,实现了对大数据的高性能相似性搜索。支持 RESTful HTTP 接口访问,同时也支持多种语言的 SDK 以 GRPC 协议访问。

Proxima:

https://github.com/alibaba/proximabilin

  1. AliceMind

AliceMind是阿里巴巴达摩院机器智能技术实验室打造的具有领先性和系统化的深度语言模型体系。AliceMind在自研通用语言模型StructBERT基础上,拓展到多语言、生成式、多模态、结构化、知识驱动等方面,从技术研发、平台建设、业务应用、生态影响等方面出发,进行了超大规模深度语言模型的体系化建设,取得了一定的成果。

截至目前,AliceMind体系内的主要工作已登顶GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO等六大NLP权威榜单,其中AliceMind体系下的模型StructVBERT在登顶多模态权威榜单VQA Challenge 2021的同时,创造了首次人类水平的新纪录,该成果在MIT Technology Review 2021中国发布的人工智能创新研究报告中被列为核心技术突破。AliceMind体系下的多语言VECO、多模态StructVBERT、结构化预训练StructuralLM三个模型均被国际学术顶会ACL 2021录取。2021年6月,AliceMind入选2021年世界人工智能大会SAIL奖TOP30榜单。

AliceMind官网:

www.alice-mind.com

AliceMind:

https://github.com/alibaba/AliceMind

  1. Hybridbackend

2022年初开源,Hybridbackend是阿里云机器学习平台PAI自研的面向稀疏模型训练的高性能同步训练框架系统,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。目前Hybridbackend已经在阿里巴巴集团内支撑了阿里妈妈等多个BU业务。

Hybridbackend:

https://github.com/alibaba/HybridBackend

  1. DeepRec

2021年底开源DeepRec,DeepRec 作为阿里巴巴集团统一的稀疏模型业务场景的训练/预测引擎,支持了淘宝搜索、猜你喜欢、定向广告、直通车广告等核心业务,支撑着千亿特征、万亿样本超大规模的稀疏训练。积累了核心的稀疏场景的功能及性能优化。针对稀疏模型在分布式、图优化、算子、Runtime等方面进行了深度的性能优化,同时提供了稀疏场景下特有的动态弹性特征EmbeddingVariable,动态弹性维度,多Hash Embedding,自适应EmbeddingVariable、增量模型导出及加载等一系列功能。

DeepRec:

https://github.com/alibaba/DeepRec

  1. EasyCV

2022年初开源,EasyCV是阿里巴巴开源的基于Pytorch,以自监督学习和Transformer技术为核心的 all-in-one 视觉算法建模工具。搭建了丰富完善的自监督算法体系,提供了效果SOTA的视觉Transformer预训练模型,覆盖图像自监督训练、图像分类、度量学习、物体检测、关键点检测等领域,并且面向开发者提供开箱即用的训练、推理能力,同时在训练/推理效率上也做了深度优化。EasyCV在阿里巴巴集团内支撑了搜索、淘系、优酷、飞猪等多个BU业务,同时也在阿里云上服务了若干企业客户,通过平台化组件的形式,满足客户自定定制化模型、解决业务问题的需求。

EasyCV:

https://github.com/alibaba/EasyCV

  1. EasyNLP

2022年初开源,EasyNLP是PAI算法团队基于PyTorch开发的易用且丰富的NLP算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式NLP开发体验。EasyNLP提供了简洁的接口供用户开发NLP模型,包括NLP应用AppZoo和预训练ModelZoo,同时提供技术帮助用户高效的落地超大预训练模型到业务。EasyNLP已经在阿里巴巴内部支持10多个BU的业务,同时在阿里云上提供了NLP解决方案和ModelHub模型帮助用户解决业务问题,也提供用户自定义模型服务方便用户打造自研模型。

EasyNLP:

https://github.com/alibaba/EasyNLP

  1. MNN

MNN是由大淘宝技术出品的全平台轻量级高性能深度学习引擎。它从2018年开始,历经4届双十一考验,广泛支持了阿里巴巴在CV、ASR、NLP等领域的70+个AI应用场景,包含淘宝搜索推荐、拍立淘、淘宝直播、AR导购等核心场景,日调用量达十亿量级。MNN一直是推理引擎行业标杆,其架构论文发表于2020 SysML。MNN也普遍获得业界友商的认可,包含陌陌、美团、得物等至少数十家企业在使用。

MNN:

https://github.com/alibaba/MNN

06 前端

展炎介绍:

过去一年阿里前端技术在8个技术方向(跨端、中后台、Node、数据可视化、体验管理、智能化、多媒体、互动&图像)不断探索,充分利用了前端技术的多样性和工程效率优势,在各子领域内都有着不错的成果。

在坚持多样化的同时,我们也在用户体验的核心领域上进行深度挖掘;面向未来随着终端设备类型的多样化和差异化逐渐增加,为了能确保不同环境不场景下用户的体验,在端到端技术体系上将面向云端能力协同工作的方式来演进架构,其中包括了多端的框架、Serverless框架以及NodeVM的扩展。同时为了以灵活协同的方式运用终端硬件资源和云资源,进行了网络协议增强;而为了支持这样架构模式,研发的工程和研发模式上也需要相应的升级,建设可覆盖终端和云的工程工具,以及更高效的研发模式。

  1. Rax

成为业内跨端实践卓越的跨端研发框架。工程构建方面,支持一键切换 webpack5、通过 swc 将构建速度提升近 7 倍,同时提供开箱即用的日志方案、Mtop mock 方案等,在产物包体积和产物性能上也取得了较大的突破。Rax 小程序在过去的一年已支持全平台小程序,性能方面,相比较自身有一定提升,同时也在探索新的突破性的研发方式。Rax 生态方面,组件、API、埋点等配套设施均达到快速接入使用的水平,新的方向上也在探索构建鸿蒙应用。

Rax:

https://github.com/alibaba/rax

  1. midway

成为第一个加入 CNCF Landscape 的中国 Serverless 框架,完成前后端零 API 一体化调用模式,“零” API 调用支持前端从后端导入函数直接发起请求,无需手动调用,从而抹掉了前后端之前存在的胶水层,极大的减少了冗余代码量与复杂度,并为前后端调用带来了类型安全、纯函数开发等全新体验。率先支持国内多个 Serverless 平台,第一个为阿里云 Serverless devs 做官方支持,提供云端研发体验,可以一套代码的迁移到不同的平台,成为阿里云官方支持的 Serverless 框架。

midway:

https://github.com/midwayjs

  1. OpenSumi

2021年,OpenSumi完成了从内源到开源的社区建设,成为国内首个自研的开源 IDE 框架,实现了通过简单的集成手段便能建设起一款高性能,高拓展性性的 IDE 产品。纯前端的能力,赋能了多个代码平台通过无后端或轻后端的形式搭建 IDE 产品的能力。研发至今,框架内部承接了如 AntCode、Ant Codespace、O2、Aone IDE studio 等优秀产品,累计月活达 1w+,外部承接了如支付宝小程序开发工具,淘宝开发者工具,阿里云开发者控制台等产品,累计月活用户达到 3w+,并且在开源阶段也完成了对核心产品从内源版本到开源版本的切换。

OpenSumi:

https://github.com/opensumi

  1. XQUIC

2021年,阿里巴巴大淘宝技术团队主导自研的 IETF QUIC 标准化协议库 XQUIC 正式开源,其中多路径传输能力与达摩院 XG 实验室联合研发。XQUIC 协议的整体架构遵循 IETF QUIC 协议分层的设计理念,阿里团队针对传输层和应用层做了解耦实现。当前的 XQUIC 开源版本与之前发布的版本相比,新增了对 IETF RFC 版本的 QUIC v1 支持,对 QPACK 等部分功能模块进行了重构,增加了多路径支持等功能。到目前为止,XQUIC 已经在手淘正式版本为上亿用户提供了网络请求加速的体验优化。

XQUIC:

https://github.com/alibaba/xquic

07 开发者工具

  1. Arthas

Arthas提供更完善的热部署命令 retransform,支持通过 vmtool 命令搜索JVM内存对象,支持统一的命令行/HTTP鉴权方案。中原银行基于Arthas开发的诊断分析平台获得信通院 OSCAR尖峰开源技术创新奖。

Arthas:

https://github.com/alibaba/arthas

  1. Serverless Devs

Serverless Devs 是由云原生团队在 2020 年 11月开源的一个 Serverless 开发者平台,Serverless Devs 也是业内首个支持主流 Serverless 服务/框架的云原生全生命周期管理的平台,致力于为开发者打造 Serverless 应用开发一站式服务, 帮助解决领域内 Serverless 工具链之困,Serverless Devs 目前已经有应用/组件 479个涵盖人工智能、音视频处理、图文处理及数据技术,支持 Web 框架 30+个,让开发者一键体验多云产品,极速部署 Serverless 项目。

  1. SREWorks

2022 年初开源,SREWorks 作为阿里云大数据SRE团队对SRE理念的工程实践,专注于以应用为中心的一站式“云原生”、“数智化”运维 SaaS 管理套件,提供企业应用&资源管理及运维开发两大核心能力,帮助企业实现云原生应用&资源的交付运维。随着云原生时代大趋势的到来,阿里云大数据 SRE 团队将 SREWorks 运维平台开源,希望为运维工程师们提供开箱即用的云原生运维平台。

SREWorks:

https://github.com/alibaba/sreworks

  1. Easyexcel

Easyexcel从17年开源至今升级了3.x重写了底层代码,API更加简洁、易懂,同时解决了poi的性能问题。支持了模板填充功能极大降低写excel成本。Easyexcel不仅解决了集团内解析excel问题,开源后累计获得22.2K,star数已经远超Apache poi的1.4k star,被国内外很多公司使用。

Easyexcel:

https://github.com/alibaba/easyexcel

开源生态合作进展

  1. Redis

阿里云Tair团队作为Redis社区的杰出贡献者,是社区核心团队core team的5名成员之一,同时还有拥有contributor(突出贡献者)1名,Redis reviewer(客户端审阅者)1名,在过去一年中向Redis社区贡献了Multi-part AOF、Geosearch、Lua replication refactoring等重量级feature,参与制定了Redis 6.2/7.0的Roadmap和发布计划。同时阿里云也在积极的进行Redis开源生态建设,开源了一系列产品来丰富整个Redis生态,例如Redis-shake,已经在Github上收获2000多stars,成为Redis数据迁移的标准工具;另外还开源了TairHash、TairString、TairZset等模块,来满足用户需求丰富Redis的使用场景。接下来阿里云会和Redis社区进一步深度合作,探索Redis的未来发展。

  1. Kubernetes

2021年,云原生团队推动Kubernetes社区新一代调度架构scheduling framework的演进和落地,贡献了40+ patch;同时引导原生调度能力支持批量任务的发展,向社区贡献 协同调度, 容量调度,外置队列等核心能力,落地OpenAI,苹果,百度等公司,得到CNCF TOC委员的转发和点赞,一致认为认为这个工作满足了批量任务和科学计算领域的核心需求。

  1. TensorFlow

阿里云PAI团队作为TensorFlow Recommender SIG社区的主要Owner,负责TensorFlow Recommender SIG社区维护、功能设计及开发,在过去一年里,对SIG中核心的功能EmbeddingVariable进行维护和优化,并参与制定 SIG的Roadmap和发布计划。参与Google举行的ML Community Day,并代表Recommender SIG介绍了SIG过去一年的工作。除此之外,PAI团队对于TensorFlow的mlir-hlo模块也有较多合作。

  1. Apache IOTDB

2020 年底开始,阿里云计算平台基于 Apache IoTDB 项目,开始自研时序数据库 Lemming。目前阿里云已经成为 IOTDB 社区商业生态的重要组成部分,我们向社区回馈各种功能增强、问题修复近百项,并培养出一位 Apache IOTDB committer。

  1. Dapr

Dapr是微软发起的云原生分布式应用运行时开源项目。从2019年10月项目宣布的一开始,阿里云云原生团队就深度参与其中,成为微软在这个项目上最重要的合作伙伴以及最重要的用户之一。Dapr在2021年11月正式进入CNCF成为Serverless领域的孵化项目,阿里云原生团队在Dapr指导和技术委员会(Steering and Technical Committee)拥有两个席位(共7席),负责项目的方向指定以及社区的运营等工作。

  1. NNI

NNI开源工具包致力于提供超参调优、剪枝、量化等深度学习模型架构调优功能,是AutoML和模型压缩领域最流行的开源工具之一。2021年阿里云PAI团队与NNI开源社区开展了全面深入的合作,贡献了模型压缩和HPO方面的多个重要功能实现和系统完善,涉及NNI近期从v2.3~v2.5发布版本中的重要新特性,例如NNI支持阿里云PAI DSW&DLC平台,LSQQuantizer、ObserverQuantizer量化,FBNet网络结构搜索等。PAI团队在NNI开源项目中的贡献,既推进了NNI架构和功能的演进,又完善增强了阿里云PAI平台对开源生态的支持。接下来阿里云PAI团队会继续深入参与NNI开源社区的建设,在推动阿里云机器学习产品服务与开源生态互动,以及AutoML和模型压缩领域技术创新等方向,做出更多成果。

  1. TVM

过去一年,阿里云机器学习PAI对TVM社区进行了以下合作支持:1. Ansor Cost Model改进2. Ansor 稀疏矩阵乘支持3. fast_softmax支持4. batch_matmul动态shape支持。

  1. MLIR

2021年,BladeDISC dynamic shape compiler在开发过程中推动底层的MLIR-HLO及MLIR社区的基础设施在完备支持动态shape方面做了较多工作,目前已经向两个社区累计贡献30余个CR,包括主导了HLO及LHLO两层Dialect扩展为动态shape语义支持,动态shape场景下的shape推导计算,shape约束,buffer管理等工作。分两次在MLIR开源社区会议上介绍BladeDISC的相关工作。

Apache Flink, Apache Dubbo and Apache RocketMQ are trademarks of the Apache Software Foundation.

Apache Flink, Apache Dubbo 及 Apache RocketMQ 均为Apache Software Foundation 注册商标,阿里作为项目重要贡献者参与。

高校合作

2021年,阿里巴巴的13个开源项目参与了中科院主办的开源软件供应链点亮计划,来自全球33所高校的60多位同学参与了持续2个多月的暑期开源贡献,共有49位同学成功毕业,成为了阿里开源贡献者中的新生代力量。

今年,阿里巴巴开源大家族30+核心开源项目再次加入开源之夏2022,参与导师不乏 Apache 软件基金会顶级项目 PMC member & Committer,云原生计算基金会 CNCF 沙箱项目负责人等,项目涉及操作系统、人工智能、大数据、数据库、云原生、前端等多个热门方向。如果你对开源项目感兴趣,欢迎点击阅读原文了解详情 👇