Apache Drill改进大数据SQL查询引擎

发布时间:2021-10-10 21:22 来源:TechTarget中国 阅读:0 作者:TechTarget中国 栏目: 数据库 欢迎投稿:712375056

开源Apache Drill项目的1.19版本现已正式发布。

该更新于6月首次推出,带来改进的性能和新的数据连接器功能。

Apache Drill是SQL 查询引擎,可用于 NoSQL以及云存储和数据湖。Apache Drill 1.19 版本包括新连接器,可用于Elasticsearch、Splunk 和 Apache Cassandra。Drill 现在还可以更轻松地与 Apache Airflow 集成,后者是日益流行的工作流管理平台。

Gartne分析师Merv Adrian指出,Drill仍然是受欢迎且活跃的Apache项目,并且是HP的Ezmeral Data Fabric的一部分。同时,开源社区的努力给企业数据管理带领积极影响。

Adrian 称:“随着商业化者提供更加用户友好型的面向企业的产品,该技术被推广到技术水平较低的用户,广大用户丰富的创造力继续推动技术向前发展。我们看到越来越多的公司开始使用Apache Drill,这说明了在竞争激烈的公司中持续的DIY心态,这些公司继续将开源数据管理软件视为潜在支柱。”

Apache Drill如何适应数据环境

从本质上讲,Drill是分布式交互式SQL查询引擎,使用户能够将其指向数据,然后使用标准SQL进行查询。

Apache Drill副总裁兼企业数据平台供应商的CE兼联合创始Charles Givre表示:“Drill 的学习曲线非常低,它很容易使用,从笔记本电脑上的单个节点到大型集群。Drill 是为交互式查询而构建,但它不是为大型 ETL [提取、转换和加载]作业而构建,并且缺乏Apache Spark的一些弹性。”

Givre 指出,我们可以很容易将Drill连接到云数据湖(例如 Amazon Simple Storage Service),而且Drill还可以连接到Microsoft Azure和Google Cloud。他补充说,目前我们正在努力使Drill能够连接到其他云数据,例如 Dropbox、OneDrive和Oracle Cloud。

Apache Drill 1.19中的新功能

最新更新中的新功能包括用于Elasticsearch、Splunk 和 Cassandra的连接器。Givre说这些插件比以前版本中的连接器更先进。他特别指出,与其他存储插件相比,下推到源系统的查询已经更加优化。

Givre 称:“最终,这将在查询这些源系统时带来更好的性能。”

Givre 强调的另一个主要贡献是XML格式插件,它现在随Drill一起提供。Givre解释说,用户现在可以直接查询XML文件,包括深度嵌套的文件,而无需使用标准SQL定义模式。

他补充说,REST插件也添加了XML功能,这意味着用户可以查询返回XML的API。

Givre 表示:“REST阅读器得到了极大的改进,这意味着使用Drill查询REST API背后的数据相对容易。”

他说他预计未来的Apache Drill 版本将为不同的数据源添加更多连接器。未来可能的连接器包括用于Delta Lake项目的连接器,该项目由Databricks创建,现在是Linux基金会运行的开源项目。

Givre 指出:“我估计,随着越来越多的人使用Drill,我们将继续看到更多与主流分析工具的集成。”

免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。