当前位置:蜗牛素材网>综合资讯>科技>正文

数据分析软件sas使用教程 耗费十年重建计算引擎

人气:430 ℃/2024-04-18 09:55:15

说到数据分析软件的历史,几乎可以由SAS公司的历史代言。SAS公司,最早起源于美国北卡罗来纳州立大学1966年的一项研究,即开发数据分析软件用于农业数据研究,那还是只有IBM大机的时代。根据IDC在2020年7月发布的全球大数据与分析软件市场报告:SAS公司占据全球高级分析与预测软件市场份额高达27.9%,远超第二名IBM的13.1%,并一直是IDC自1997年开始追踪该市场以来的第一名;而在全球人工智能软件平台市场,SAS公司的市场份额也达到了4.4%,仅次于IBM的8.8%和微软的5.6%,而谷歌和AWS各占3.1%。

自2019年开始,SAS公司耗资10亿美元推出新一代云服务SAS Viya,2020年推出SAS Viya V4.0版本,该版本全面云原生化,即面向微服务、容器和Kubernetes技术等云原生技术,重构了SAS Viya软件。同时,SAS 9即本地部署版本也全面云原生化,这就是SAS for Container版本。无论SAS Viya或SAS 9工作负载,都可以容器化方式运行在公有云、私有云和混合云环境中。同时,SAS Viya还与微软智能云的深度集成,2021年5月SAS Global Forum 2021上再宣布与AWS、Google Cloud、Red Hat Openshift等深度集成。

SAS公司联合创始人兼CEO Jim Goodnight在2011年被Forbes文章称为数据分析之王,他在SAS Global Forum 2021上介绍说,SAS公司于2009年开始了将计算引擎向高性能分布式分析转型,SAS Viya就是该计算引擎的第三代并且其计算速度超过了市场上任何其它同类产品。截止到2020年SAS Viya的第四个版本也就是全面云原生化版本,SAS公司已经耗费十年的时间完成了核心分析计算引擎的转型,接下来就是全面基于Kubernetes的云原生分布式计算架构,把SAS分析能力推向所有地方,包括阿里云、腾讯云、华为云等也在SAS公司的考虑之中。可以说,SAS公司正在将自己再造成为云原生数据分析之王。

分析计算引擎的进化

作为数据和高级分析软件的鼻祖,SAS公司的神奇故事开始于北卡罗纳州立大学在1966年到1971年间为农业数据研究而开发的一套方差与回归分析软件。当时Jim Goodnight作为北卡罗纳州立大学的博士参与到了该项目,项目组在分析农业数据时意识到如果把数据的读取与输出到磁盘上整合到一个程序中,那么就能在任何分析过程中反复使用这个程序,这就是早期的SAS软件,当时还是基于大型主机。

(SAS公司联合创始人兼CEO Jim Goodnight)

在80年代早期,当小型机和PC出现的时候,当时SAS软件产品还只能在大型主机上运行。SAS公司认识到必须解决软件产品在不同计算平台的可移植性问题,而这就需要用全新的编程语言来重写软件。这个软件重写的工作,整整把下一个软件版本推迟了一年。但坚持软件可移植性是正确的选择,否则SAS软件就永远不可能离开大型主机,那么也许就没有后来“数据分析之王”的传奇了。

Jim Goodnight在SAS Global Forum 2021的主题演讲中回忆,2009年对于SAS公司来说是一个全新的开始,当时一个新加坡银行家向SAS公司抱怨说一个风险分析的计算工作需要耗时18个小时才能完成,而这已经远远超越了银行决策的时间。SAS公司意识到,从当时的单机单线程计算向多核高性能分布式计算架构转型,已经势在必行。这就是SAS公司的高性能分布式分析计算引擎的开始,这个被称为Analytical Server的计算引擎软件并没有采用当时现成的Hadoop开源分布式计算软件,而是SAS公司自行开发了高性能分布式并行计算架构并加入了内存计算技术。Jim Goodnight表示,之所以在当时加入内存计算,是因为非线性计算和机器学习计算等高级分析计算等需要多次读取数据,而内存计算就是加快这一过程。

2009年开始推出的第一代高性能分布式分析计算引擎就已经将新加坡银行家的18小时风险分析计算压缩到15分钟完成,四年后SAS公司推出了第二代高性能分布式分析计算引擎即LASR。LASR是一个安全的多用户计算平台,将数据加载到内存后可进行并行读取。LASR在分布式计算环境中将数据和工作负载分布到多个机器上进行大规模并行处理,结合软件与硬件的方式可以高速处理分析计算。LASR可以处理结构化数据,也可以处理文本分析等非结构化数据。

SAS公司的第三代高性能分布式分析计算引擎就是SAS Viya。Jim Goodnight强调,SAS Viya从一开始就是关于性能、速度和大数据处理,而且一旦分析数据和创建了模型之后就可以立即投入生产环境,而市场上其它产品还需要额外的编码和重写代码才能投入生产环境。SAS Viya一开始是面向云计算特别是公有云这一新兴的海量数据和超大规模分布式计算架构,而SAS Viya 4.0和SAS for Container面向容器、Kubernetes和微服务等云原生架构再次重写了SAS软件和SAS分析计算引擎。

2021年1月,SAS公司宣布收购Boemska公司。Boemska公司曾是SAS公司的合作伙伴,其最大的技术特点就是采用面向特定设计的容器运行时(runtime container),以增强SAS分析软件的跨多云环境的弹性和可移植性,可以更好的将SAS软件扩展到第三方云环境和云应用中,产生了更小的分析和模型计算运行时(runtime)。简单理解,Boemska的技术让SAS容器运行时更加小型化,从而可以移植和运行到更多的云平台上。将Boemska技术嵌入到SAS Viya中,可以将云原生的SAS软件和第三方模型移动到移动计算和企业计算环境中,特别是支持低代码/无代码技术执行欺诈预测、制造缺陷检测等特定的分析任务。

五大愿景应对“最后一公里”挑战

作为全球高级分析与预测软件市场第一、全球人工智能软件平台第三大公司,SAS在接下来需要解决的问题就是将建模和分析计算能力扩散到整个计算生态中,从而将分析计算落地“最后一公里”。实际上,今天的企业和组织要面对日益丰富和复杂的数据,分析生态也变得越来越大、越来越复杂,而分析结果的交付要赶上企业和组织的发展与变化速度。

(SAS公司执行副总裁兼首席技术官Bryan Harris)

SAS公司如何应对这个挑战?SAS公司执行副总裁兼首席技术官Bryan Harris介绍了SAS公司的五大愿景。首先,分析体验要无处不在,在“幕后”不断改进决策。SAS可将分析能力整合到企业的方方面面,无论在企业所选择的“云”中还是嵌入到传感器里,从而帮助企业提升营收、降低成本和改进效率。对于数据科学家来说,SAS平台为他们提供选择和控制分析过程和技术选择的能力,还支持R、Python等语言和开源软件生态。对于企业IT来说,SAS软件现在已经全面容器化和云原生化,支持持续集成持续交付,可以与其它云生态整合。

其次,当企业和组织加速数字化转型进程时,分析软件和能力要能够被每一个人所使用和消费。企业和组织将高级分析和自动决策集成到各种流程中,最佳实践应为将分析操作视为一个整个企业和组织范围内跨角色的集体协作过程。例如,业务分析师对数据进行可视化及根据数据提出问题,数据科学家则构建分析模型以回应问题并提供新的洞察,而管理者观察这些洞察然后做出决策,所有这些角色都在同一个分析环境中无缝协作。

第三,分析要为整个企业和组织优化决策。在动荡的市场环境中,企业和组织的领导者不断寻找新兴的竞争优势,SAS帮助企业和组织优化决策以建立和维持竞争优势,并寻求提高员工生产力。SAS对数据转换、分析任务管道构建、模型选择和优化等提供了自动化,跨整个分析的生命周期监测分析和模型的性能,以确保模型按预期运行。

第四,分析要促进透明和信任。SAS向客户交付端到端的数据、模型和决策管理,确保一致性和准确性,从而让企业管理者建立信心并信任机器学习和AI等算法在企业中的价值。对于数据科学家来说,SAS为每个创建的分析模型提供了说明,从而确保模型的公平和可解释。

第五,SAS正在推动大规模的可组合AI。加速的数字化转型要求更为复杂的决策,这往往需要综合多个分析技术的结果,包括描述式统计、自然语言处理、深度学习、计算机视觉等等。那些能够快速组合这些AI能力的企业和组织,能够在数字化转型中建立新的竞争优势。对于数据科学家来说,他们能在重复性任务中集成差异化的分析能力。企业和组织正在部署成千上万的分析模型,而新的竞争优势要求企业和组织能够迅速捕捉新的机会,以开发分析模型、将分析模型集成到决策流中,并部署到任何业务流程或业务应用中。

正是在这五大愿景之上,SAS公司在2019年强化了向云原生架构的迁移。2019年10月初SAS公司宣布了与Red Hat的合作,SAS分析软件将支持Red Hat Openshift。作为业界著名的Kubernetes发行版,Red Hat Openshift在混合云中有着重要的价值。而把SAS Viya这样的SAS分析软件经过容器化后运行在Openshift之上,就可以给企业混合云环境中的高级分析、AI与机器学习等提供一个统一的治理平台。SAS还将陆续兼容其它的Kubernetes发行版。Harris强调SAS Viya的发展方向就是云原生化,支持微软云、AWS、GCP和Openshift等,而其它的Kubernetes版本包括阿里云、腾讯云、华为云等要视客户需求而定,因为针对不同的Kubernetes版本都需要重写或优化SAS软件才能紧密适配。

继续推进物联网与AI

在云原生的世界里,物联网与AI是两大主题,在很多时候二者更加紧密集成在一起,形成从边缘到云的数据分析链条。在物联网方面,SAS Viya面向物联网进行了优化并与微软Azure物联网方案等结合,把分析能力推进到传感器和边缘。而SAS公司在2019年的时候,宣布将在未来三年向AI领域投资10亿美元,用于推动AI的研发创新、人才培养和专家服务。今天,SAS公司已经成为多家市场分析机构AI领域研究报告的领导者。

首先,SAS将物联网流数据处理与AI相结合而提供了具有特色的智能物联网(AIoT)方案,SAS Analytics for IoT和SAS Event Stream Processing就是主要产品。IDC在2019年就SAS IoT技术的评价是,SAS不断将分析能力推进到边缘,整合了完整的AI、机器学习和商业智能的能力,打通了IT与OT系统。SAS Event Stream Processing引擎可处理高速、低时延的流数据,还可在流数据处理过程中集成机器学习的能力并产生实时告警,这样企业就可以大幅降低传感器数据存储的数量和成本。

SAS AIoT最新的方案就是疫情期间的冷链物流方案,包括高价值的医药、疫苗、基因治疗产品等。SAS与主要的合作伙伴微软Azure和Stress Engineering等一起,将SAS分析能力用于冷链物流挑战。特别是基于公有云服务的SAS数据与分析能力,不仅能保护对温度敏感的药物有效性,同时还能处理安全与合规的要求。SAS AIoT的另一应用场景就是精准农业,SAS与合作伙伴一起促进全球食物链的安全与农业增产。一家欧洲最大的葡萄园及葡萄酒生产商就采用了SAS分析软件,用于监控葡萄蛾数量,以保护葡萄的健康和产量。SAS还与美国北卡罗来纳州城市Cary合作,分析来自城市河流、街道和道路桥梁的传感器数据,预测和预警城市的洪涝灾害。

而随着收购的Boemska技术与SAS Viya的整合,进一步增强了SAS的AIoT能力,SAS机器学习和高级分析可以支持诸如可穿戴设备发出的健康状况预警、无人机监控分布式资产以及维修需求、工厂智能摄像头监控制造缺陷以及降低损耗等场景。

其次,在AI方面,SAS一直是可组合AI、MLOps和智能决策等AI领域的推动者和领导者。SAS 可视化数据挖掘和机器学习被广泛嵌入到SAS Viya的各种机器学习、数据科学和智能决策产品与服务中,并提供了强大的自动化能力。这些能力都促进了SAS持续推进可组合AI,也就是在一个平台上提供所有所需AI与高级分析能力,帮助完成端到端的业务流程。例如一个零售商品的退货流程,就可以采用对话式AI、预测模型和技术等识别顾客的喜好并在退货过程中提供促销等激励以促进顾客购买更多的商品。

在SAS Global Forum 2021上,SAS持续推出更多的AI产品和服务,例如基于SAS Viya平台SAS Conversation Designer而设计出的VIVIAN对话机器人,该机器人面向虚拟身份盗窃等复杂知识场景而构建,该产品是SAS公司与美国身份盗窃资源中心(ITRC)合作的最新成果,主要用于处理疫情期间激增的虚拟身份欺诈事件的在线处理。VIVIAN的推出刷新了人们对AI的想象,该机器人甚至可以引导处理钓鱼邮件等复杂问题。

总结而言:从40多年前基于大型主机的SAS高级统计分析软件到今天全面云原生化的SAS高级分析与AI能力,SAS正把分析与AI能力扩展向更广泛的IT与云计算生态中,让更多的企业和组织可以轻松使用高级分析与AI能力,进而在动态变化的市场环境构建新的竞争优势。SAS作为全球数据分析软件的鼻祖,一直在穿越各种计算架构的变迁仍保持强大的竞争力。随着云原生计算的全面到来,SAS公司也将再次成为云原生数据分析领域的领导者。(文/宁川)

搜索更多有关“数据分析软件sas使用教程 耗费十年重建计算引擎”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
本网站部分内容、图文来自于网络,如有侵犯您的合法权益,请及时与我们联系,我们将第一时间安排核实及删除!
CopyRight © 2008-2024 蜗牛素材网 All Rights Reserved. 手机版