【漫谈数据仓库】如何优雅地设计数据分层

2022-04-02 12:00 浏览：282

在过去的七年里，我一直在使用分布式系统、平台和数据库。早在2015年，许多架构师就开始使用分布式数据库扩展单个机器或服务器的边界。他们选择这样的数据库是因为它的水平可伸缩性，尽管它的性能依然只能与传统的单服务器数据库相媲美。

现在，随着云原生应用程序和无服务器架构的兴起，分布式数据库需要做的不仅仅是提供横向可伸缩性。架构师需要在主要云区中断期间能够保持可用的数据库，支持混合云部署，并为接近客户和最终用户的数据提供服务。这就是地域分布数据库发挥作用的地方。

作为一名Java开发人员，我有两个问题：

1. 我应该投入多少精力为云原生地域分布数据库创建应用程序？

2. 这只是对我现有应用程序的快速重构还是彻底重新设计/重写？

工作量因用例而异。但即便如此，在构建一个简单的应用程序时，你也可以从“入门”体验中学到很多东西。在这篇文章中，我将分享使用YugabyteDB作为地域分布数据库创建Java应用程序时的主要见解。你可以在GitHub上找到完整的源代码。现在让我们开始吧！

数据库部署

YugabyteDB提供完全托管的云版本，支持AWS和GCE，类似于其他云原生数据库。作为开发人员，这对我来说意义重大。我只想运行一个实例，以使我可以专注于应用程序逻辑。

最后，我花了几分钟在AWS上启动一个免费实例，并将连接信息复制到我的应用程序。正如预期的那样，体验是顺利而快捷的。在编写一行代码之前，我必须下载、安装和配置数据库的日子已经一去不复返了。

数据库连接

作为一名后端开发人员，我很感激有一个原生使用SQL的数据库。这缩短了学习曲线，让我可以重用现有的逻辑。尽管我使用Spring Data或Micronaut，我仍然编写和执行直接的SQL查询。

只要YugabyteDB使用Postgres方言，我想我的简单Java应用程序就可以通过一个很好的老JDBC接口连接到正在运行的数据库实例。使用Yugabyteb，你可以选择标准PostgreSQL JDBC驱动程序或带有一些性能优势的原生Yugabyte JDBC驱动程序。我选择了后者。

几分钟后，我把笔记本电脑的IP地址添加到Yugabyte Cloud的IP允许列表中。我还编译和启动了示例应用程序，并成功地连接到云实例。JDBC连接逻辑与MySQL、Postgres和其他关系数据库要求我遵循的逻辑没有什么不同。这是一个非常好的迹象。

YBClusterAwareDataSource ds = new YBClusterAwareDataSource();

ds.setUrl("jdbc:yugabytedb://" + settings.getProperty("host") + ":"
    + settings.getProperty("port") + "/yugabyte");
ds.setUser(settings.getProperty("dbUser"));
ds.setPassword(settings.getProperty("dbPassword"));

// Additional SSL-specific settings. See the source code for details.

Connection conn = ds.getConnection();

更好的是，虽然我的测试使用了一个免费的单节点实例，但是，就算我的数据库中有60个节点跨越几个大洲，连接逻辑仍然保持不变。对于应用程序开发人员来说，YugabyteDB是一个单一的逻辑实例，所有与数据分区、节点间通信和分布式查询执行相关的复杂性都是在幕后透明地进行。

基本CRUD操作

建立连接逻辑后，我介绍几个方法，通过JDBC连接，创建示例表然后查询和更新其记录。这意味着我的简单Java应用程序必须尽可能初级。因此，我选择了一个非常基本的用例：两个帐户之间的资金转移。

示例表是用标准的CREATE TABLE命令创建：

Statement stmt = conn.createStatement();

stmt.execute("CREATE TABLE IF NOT EXISTS " + TABLE_NAME +
    "(" +
    "id int PRIMARY KEY," +
    "name varchar," +
    "age int," +
    "country varchar," +
    "balance int" +
    ")");

并且只填充了两条记录（足以评估入门体验）：

stmt.execute("INSERT INTO " + TABLE_NAME + " VALUES" +
    "(1, 'Jessica', 28, 'USA', 10000)," +
    "(2, 'John', 28, 'Canada', 9000)");

最后，在Postgres或MySQL中查询和更新类似表的SQL查询，在我的地域分布数据库中的工作方式是相同的。以下是两种方法的完整实现：第一种方法查询分布式记录，第二种方法使用分布式事务一致地更新记录：

private static void selectAccounts(Connection conn) throws SQLException {
    Statement stmt = conn.createStatement();
  
    ResultSet rs = stmt.executeQuery("SELECT * FROM " + TABLE_NAME);

    while (rs.next()) {
        System.out.println(String.format("name = %s, age = %s, country = %s, balance = %s",
            rs.getString(2), rs.getString(3), rs.getString(4), rs.getString(5)));
    }
}

private static void transferMoneyBetweenAccounts(Connection conn, int amount) throws SQLException {
    Statement stmt = conn.createStatement();

    try {
        stmt.execute(
            "BEGIN TRANSACTION;" +
            "UPDATE " + TABLE_NAME + " SET balance = balance - " + amount + "" + " WHERE name = 'Jessica';" +
            "UPDATE " + TABLE_NAME + " SET balance = balance + " + amount + "" + " WHERE name = 'John';" +
            "COMMIT;"
        );
    } catch (SQLException e) {
        if (e.getErrorCode() == 40001) {
            // The operation aborted due to a concurrent transaction trying to modify the same set of rows.
            // Consider adding retry logic for production-grade applications.
            e.printStackTrace();
        } else {
            throw e;
        }
    }

    System.out.println();
    System.out.println(">>>> Transferred " + amount + " between accounts.");
}

结束语

我很高兴地确认，现代地域分布数据库的创建者保护我（应用程序开发人员）免受与分布式系统相关的大多数复杂性的影响。我在一分钟内启动了一个分布式数据库实例，作为单个逻辑实例连接，并通过熟悉的SQL和JDBC接口查询数据库。我承认，我的简单Java应用程序远不是一个包含底层、特定于数据库的优化的实际解决方案。然而，入门就像单服务器数据库一样简单，这很重要。

你可以在GitHub上找到我的完整应用程序。我鼓励你尝试自己运行它。