一文看懂mycat配置--数据库的读写分离、分表分库

偷懒的程序员 2020-10-23 10:57:00 ⋅ 1085 阅读

波波说运维
https://www.toutiao.com/i6742436467806568973

概述

系统开发中,数据库是非常重要的一个点。除了程序的本身的优化,如:SQL语句优化、代码优化,数据库的处理本身优化也是非常重要的。主从、热备、分表分库等都是系统发展迟早会遇到的技术问题问题。Mycat是一个广受好评的数据库中间件,已经在很多产品上进行使用了。今天主要带大家了解下mycat的相关配置,mycat配置后才可以去做数据库的读写分离、分表分库。

一文看懂mycat配置--数据库的读写分离、分表分库

mycat目录


MyCAT 配置解析

Mycat的配置文件都在conf目录里面,这里介绍几个常用的文件

一文看懂mycat配置--数据库的读写分离、分表分库

 

Mycat的架构其实很好理解,Mycat是代理,Mycat后面就是物理数据库。和Web服务器的Nginx类似。对于使用者来说,访问的都是Mycat,不会接触到后端的数据库。


一 、wrapper.conf

配置jdk:

wrapper.java.command=/usr/local/jdk1.8.0_131/bin/java

二、server.xml

1、user标签

<user name="root">
<property name="password"></property>
<property name="schemas">TESTDB</property>
</user>

user用户配置节点

  • --name登录的用户名,也就是连接Mycat的用户名
  • --password登录的密码,也就是连接Mycat的密码
  • --schemas数据库名,这里会和schema.xml中的配置关联,多个用逗号分开,例如需要这个用户需要管理两个数据库db1,db2,则配置db1,dbs

2、privileges标签

对用户的 schema以及表进行精细化的DML权限控制

<privileges check="false">
</privileges>

--check表示是否开启DML权限检查。默认是关闭。server.dtd文件中 <!ELEMENT privileges (schema)*> 说明可以有多个schema的配置。

--dml顺序说明:insert,update,select,delete

<schema name="db1" dml="0110" >
<table name="tb01" dml="0000"></table>
<table name="tb02" dml="1111"></table>
</schema>

db1的权限是update,select。

tb01的权限是啥都不能干。

tb02的权限是insert,update,select,delete。

其他表默认是udpate,select。

3. system标签

这个标签内嵌套的所有 property 标签都与系统配置有关。

<property name="charset">utf8</property>
字符集
<property name="processors">1</property>
处理线程数量,默认是cpu数量。
<property name="processorBufferChunk">4096</property>
每次读取留的数量,默认4096。
<property name="processorBufferPool">409600</property>
创建共享buffer需要占用的总空间大小。processorBufferChunk*processors*100。
<property name="processorBufferPoolType">0</property>
默认为0。0表示DirectByteBufferPool,1表示ByteBufferArena。
<property name="processorBufferLocalPercent">100</property>
二级共享buffer是processorBufferPool的百分比,这里设置的是百分比。
<property name="sequnceHandlerType">100</property>
全局ID生成方式。(0:为本地文件方式,1:为数据库方式;2:为时间戳序列方式;3:为ZK生成ID;4:为ZK递增ID生成。
<property name="useCompression">1</property>
是否开启mysql压缩协议。1为开启,0为关闭,默认关闭。
<property name="packetHeaderSize">4</property>
指定 Mysql 协议中的报文头长度。默认 4。
<property name="maxPacketSize">16M</property>
指定 Mysql 协议可以携带的数据最大长度。默认 16M。
<property name="idleTimeout">1800000</property>
指定连接的空闲超时时间。某连接在发起空闲检查下,发现距离上次使用超过了空闲时间,那么这个连接会被回收,就是被直接的关闭掉。默认 30 分钟,单位毫秒。
<property name="txIsolation">3</property>
前端连接的初始化事务隔离级别,只在初始化的时候使用,后续会根据客户端传递过来的属性对后端数据库连接进行同步。默认为 REPEATED_READ,设置值为数字默认 3。
READ_UNCOMMITTED = 1;
READ_COMMITTED = 2;
REPEATED_READ = 3;
SERIALIZABLE = 4;
<property name="sqlExecuteTimeout">300</property>
SQL 执行超时的时间,Mycat 会检查连接上最后一次执行 SQL 的时间,若超过这个时间则会直接关闭这连接。默认时间为 300 秒,单位秒。
<property name="processorCheckPeriod">1000</property>
清理 NIOProcessor 上前后端空闲、超时和关闭连接的间隔时间。默认是 1 秒,单
位毫秒。
<property name="dataNodeIdleCheckPeriod">300000</property>
对后端连接进行空闲、超时检查的时间间隔,默认是 300 秒,单位毫秒。
<property name="dataNodeHeartbeatPeriod">10000</property>
对后端所有读、写库发起心跳的间隔时间,默认是 10 秒,单位毫秒。
<property name="bindIp">0.0.0.0</property>
mycat 服务监听的 IP 地址,默认值为 0.0.0.0。
<property name="serverPort">8066</property>
定义 mycat 的使用端口,默认值为 8066。
<property name="managerPort">9066</property>
定义 mycat 的管理端口,默认值为 9066。
<property name="fakeMySQLVersion">5.6</property>
mycat 模拟的 mysql 版本号,默认值为 5.6 版本,如非特需,不要修改这个值,目前支持设置 5.5,5.6,5.7 版本,其他版本可能会有问题。
<property name="useSqlStat">0</property>
是否开启实时统计。1为开启;0为关闭 。
<property name="useGlobleTableCheck">0</property>
是否开启全局表一致性检测。1为开启;0为关闭 。
<property name="handleDistributedTransactions">0</property>
分布式事务开关。0为不过滤分布式事务;1为过滤分布式事务;2 为不过滤分布式事务,但是记录分布式事务日志。
<property name="maxStringLiteralLength">65535</property>
默认是65535。 64K 用于sql解析时最大文本长度

以上举例的属性仅仅是一部分,可以配置的变量很多,具体可以查看SystemConfig这个类的属性内容。

System标签下的属性,一般是上线后,需要根据实际运行的情况,分析后调优的时候进行修改。

4. Firewall标签

顾名思义,这个就是关于防火墙的设置,也就是在网络层对请求的地址进行限制,主要是从安全角度来保证Mycat不被匿名IP进行访问

<firewall> 
<whitehost>
<host host="127.0.0.1" user="mycat"/>
<host host="127.0.0.2" user="mycat"/>
</whitehost>
<blacklist check="false">
</blacklist>
</firewall>

设置很简单,很容易理解,只要设置了白名单,表示开启了防火墙,只有白名单的连接才可以进行连接。


三、schema.xml

一文看懂mycat配置--数据库的读写分离、分表分库

 

--schema数据库设置,此数据库为逻辑数据库,name与server.xml中schema对应

--dataNode分片信息,也就是分库相关配置

--dataHost物理数据库,真正存储数据的数据库

1、schema 标签

<schema name="TESTDB" checkSQLschema="false" sqlMaxLimit="10">
</schema>

schema标签用来定义mycat实例中的逻辑库,mycat可以有多个逻辑库,每个逻辑库都有自己的相关配置。可以使用schema标签来划分这些不同的逻辑库

如果不配置schema标签,所有表的配置会属于同一个默认的逻辑库。逻辑库的概念和MySql的database的概念一样,我们在查询两个不同逻辑库中的表的时候,需要切换到该逻辑库下进行查询。

--name逻辑数据库名,与server.xml中的schema对应

--checkSQLschema数据库前缀相关设置,当该值为true时,例如我们执行语句select * from TESTDB.company 。mycat会把语句修改为 select * from company 去掉TESTDB。

--sqlMaxLimit当该值设置为某个数值时,每条执行的sql语句,如果没有加上limit语句,Mycat会自动加上对应的值。不写的话,默认返回所有的值。

需要注意的是,如果运行的schema为非拆分库的,那么该属性不会生效。需要自己sql语句加limit。

2、table 标签

<table name="travelrecord" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" />
<table name="company" primaryKey="ID" type="global" dataNode="dn1,dn2,dn3" />

--name表名,物理数据库中表名

--dataNode表存储到哪些节点,多个节点用逗号分隔。节点为下文dataNode设置的name

--primaryKey主键字段名,自动生成主键时需要设置

--autoIncrement是否自增

--rule分片规则名,具体规则下文rule详细介绍

--type 该属性定义了逻辑表的类型,目前逻辑表只有全局表和普通表。全局表: global 普通表:无

注:全局表查询任意节点,普通表查询所有节点效率低

--autoIncrement mysql对非自增长主键,使用last_insert_id() 是不会返回结果的,只会返回0.所以,只有定义了自增长主键的表,才可以用last_insert_id()返回主键值。

mycat提供了自增长主键功能,但是对应的mysql节点上数据表,没有auto_increment,那么在mycat层调用last_insert_id()也是不会返回结果的。

--needAddLimit 指定表是否需要自动的在每个语句后面加上limit限制,由于使用了分库分表,数据量有时候会特别庞大,这时候执行查询语句,

忘记加上limt就会等好久,所以mycat自动为我们加上了limit 100,这个属性默认为true,可以自己设置为false禁用。如果使用这个功能,最好配合使用数据库模式的全局序列。

--subTables分表,分表目前不支持Join。

1) childTable标签

<table name="customer" primaryKey="ID" dataNode="dn1,dn2" rule="sharding-by-intfile">
<childTable name="c_a" primaryKey="ID" joinKey="customer_id" parentKey="id" />
</table>

--childTable 标签用于定义 E-R 分片的子表。通过标签上的属性与父表进行关联。

--name子表的名称

--joinKey子表中字段的名称

--parentKey父表中字段名称

--primaryKey同Table

--needAddLimit同Table

3、dataNode标签

<dataNode name="dn1" dataHost="localhost1" database="db1" />

datanode标签定义了mycat中的数据节点,也就是我们所说的数据分片。一个datanode标签就是一个独立的数据分片。

例子中的表述的意思为,使用名字为localhost1数据库实例上的db1物理数据库,这就组成一个数据分片,最后我们用dn1来标示这个分片。

--name定义数据节点的名字,这个名字需要唯一。我们在table标签上用这个名字来建立表与分片对应的关系

--dataHost用于定义该分片属于哪个数据库实例,属性与datahost标签上定义的name对应

--database用于定义该分片属于数据库实例上 的具体库。

4、dataHost标签

这个标签直接定义了具体数据库实例,读写分离配置和心跳语句。

<dataHost name="localhost1" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native" switchType="1" slaveThreshold="100">
<heartbeat>select user()</heartbeat>
<writeHost host="hostM1" url="192.168.1.100:3306" user="root" password="123456">
<readHost host="hostS1" url="192.168.1.101:3306" user="root" password="123456" />
</writeHost>
</dataHost>

--name唯一标示dataHost标签,供上层使用

--maxCon指定每个读写实例连接池的最大连接。

--minCon指定每个读写实例连接池的最小连接,初始化连接池的大小

--balance负载均称类型

  • balance="0":不开启读写分离机制,所有读操作都发送到当前可用的writeHost上
  • balance="1":全部的readHost与stand by writeHost参与select语句的负载均衡,简单的说,当双主双从模式(M1-S1,M2-S2 并且M1 M2互为主备),正常情况下,M2,S1,S2都参与select语句的负载均衡。
  • balance="2":所有读操作都随机的在writeHost、readHost上分发
  • balance="3":所有读请求随机的分发到writeHst对应的readHost执行,writeHost不负担读写压力。(1.4之后版本有)

--writeType负载均衡类型。

  • writeType="0", 所有写操作发送到配置的第一个 writeHost,第一个挂了切到还生存的第二个writeHost,重新启动后已切换后的为准,切换记录在配置文件中:dnindex.properties .
  • writeType="1",所有写操作都随机的发送到配置的 writeHost。1.5以后版本废弃不推荐。

--switchType-1不自动切换

  • 1 默认值 自动切换
  • 2 基于MySql主从同步的状态决定是否切换心跳语句为 show slave status
  • 3 基于mysql galary cluster 的切换机制(适合集群)1.4.1 心跳语句为 show status like 'wsrep%'

--dbType指定后端链接的数据库类型目前支持二进制的mysql协议,还有其他使用jdbc链接的数据库,例如:mongodb,oracle,spark等

--dbDriver指定连接后段数据库使用的driver,目前可选的值有native和JDBC。使用native的话,因为这个值执行的是二进制的mysql协议,所以可以使用mysql和maridb,其他类型的则需要使用JDBC驱动来支持。

如果使用JDBC的话需要符合JDBC4标准的驱动jar 放到mycat\lib目录下,并检查驱动jar包中包括如下目录结构文件 META-INF\services\java.sql.Driver。 在这个文件写上具体的driver类名,例如com.mysql.jdbc.Driver

writeHost readHost指定后端数据库的相关配置给mycat,用于实例化后端连接池。

--tempReadHostAvailable

如果配置了这个属性 writeHost 下面的 readHost 仍旧可用,默认 0 可配置(0、1)。
1)heartbeat标签
这个标签内指明用于和后端数据库进行心跳检查的语句。
例如:MYSQL 可以使用 select user(),Oracle 可以使用 select 1 from dual 等。
2) writeHost /readHost 标签
这两个标签都指定后端数据库的相关配置,用于实例化后端连接池。唯一不同的是,writeHost 指定写实例、readHost 指定读实例。
在一个 dataHost 内可以定义多个 writeHost 和 readHost。但是,如果 writeHost 指定的后端数据库宕机,那么这个 writeHost 绑定的所有 readHost 都将不可用。
另一方面,由于这个 writeHost 宕机,系统会自动的检测到,并切换到备用的 writeHost 上去。这两个标签的属性相同.

--host用于标识不同实例,一般 writeHost 我们使用*M1,readHost 我们用*S1。

--url后端实例连接地址。Native:地址:端口 JDBC:jdbc的url

--password后端存储实例需要的密码

--user后端存储实例需要的用户名字

--weight权重 配置在 readhost 中作为读节点的权重

--usingDecrypt是否对密码加密,默认0。具体加密方法看官方文档。


四、Rule.xml

ule.xml 里面就定义了我们对表进行拆分所涉及到的规则定义。我们可以灵活的对表使用不同的分片算法,或者对表使用相同的算法但具体的参数不同。 包含的标签 tableRule 和 function。

1. tableRule 标签

这个标签定义表规则。

定义的表规则,在 schema.xml:

<tableRule name="rule1">
<rule>
<columns>id</columns>
<algorithm>func1</algorithm>
</rule>
</tableRule>

--name 属性指定唯一的名字,用于标识不同的表规则。 内嵌的 rule 标签则指定对物理表中的哪一列进行拆分和使用什么路由算法。

--columns 内指定要拆分的列名字。

--algorithm 使用 function 标签中的 name 属性。连接表规则和具体路由算法。当然,多个表规则可以连接到 同一个路由算法上。table 标签内使用。让逻辑表使用这个规则进行分片。

2. function 标签

<function name="hash-int" class="org.opencloudb.route.function.PartitionByFileMap">
<property name="mapFile">partition-hash-int.txt</property>
</function>

--name 指定算法的名字。

--class 制定路由算法具体的类名字。

--property 为具体算法需要用到的一些属性。


觉得有用的朋友多帮忙转发哦!后面会分享更多devops和DBA方面的内容,感兴趣的朋友可以关注下~

一文看懂mycat配置--数据库的读写分离、分表分库

全部评论: 0

    我有话说:

    什么情况下才需要分库

    我请教一下,我模拟测试,搞了几张大都是3千万左右数据,带主键查询秒级响应,jmeter插入能够达到每秒6、700条左右,我业务量每秒就是300条左右插入,这个场景下是否不需要考虑分库问题?

    为什么说作为程序员分库必要性一定要掌握?

      互联网大厂程序员必须掌握海量数据和高并发问题处理技能,期望进入大厂程序员一定要仔细这篇! MySQL 分库是做什么? 相信很多程序员对 MySQL 都比较熟悉了,目前国内

    「转发」数据库分离这个坑,你应该踩过吧?

    公司第一次发布项目遇到一个问题,一个数据库...

    「轻阅读」大众点评是如何分库

    原大众点评订单单早就已经突破两百G,由于查询维度较多,即使加了两个从库,优化索引,仍然存在很多查询不理想

    10分钟,Java NIO 底层原理

    目录 在前面 1.1. Java IO原理 1.1.1. 内核缓冲与进程缓冲区 1.1.2. java IO底层流程 1.2. 四种主要IO模型 1.3

    分库这样玩,可以永不迁移数据、避免热点

    中大型项目中,一旦遇到数据量比较大,小伙伴应该都知道就应该对数据进行拆了。有垂直和水平两种。

    搞对数据库连接池,这次从100优化到3ms!阿里架构师都说好

    我在研究HikariCP(一个数据库连接池)时无意间在HikariCPGithub wiki上看到了篇文章(即前面给出链接),这篇文章有力地消除了我一直以来疑虑,完之后感觉神清气爽。故在此

    分享次深夜优化亿级数据奇妙经历

    了起来,是我们一个开发同学,顿时紧张了起来...

    分享次单体架构改造成微服务架构实践

    从5个方面设计这次微服务方案,以及经验总结!

    分库工具:Apache ShardingSphere 5.0.0-alpha 发布

    Apache ShardingSphere 5.0.0 发布了 alpha 版本,自上个版本 4.1.1 发布以来,Apache ShardingSphere 一直在修复社区反馈问题、加强功能和

    数据量下 MyBatis PageHelper 页查询性能问题解决办法

    前因 项目一直使用是PageHelper实现页功能,项目前期数据量较少一直没有什么问题。随着业务扩增,数据库扩增PageHelper出现了明显性能问题。 几十万甚至上百万数据查询性能缓慢

    您应该避免五个简单数据库设计错误

    Anith 在他非常成功文章 Facts and Fallacies about First Normal Form 之后,对五个常见数据库设计错误进行了引人入胜讨论,尽管使用它们不幸后果

    MySQL 插入 100万 条数据整理笔记

    多线程插入(单) 问:为何对同一个插入多线程会比单线程快?同时间对一个操作不应该是独占吗? 答:在数据里做插入操作时候,整体时间分配是这样: 1、多链接耗时 (30

    算法实战---OC快速排序()

    近来在巩固数据结构和算法知识, 动动手操作操作. 能讲出来是真了, 分享是件快乐事第一.

    线性 - 栈与队列

    1.栈 1.栈(stack)是限定仅在尾进行插入和删除操作线性,(先进后出) 2.我们把允许插入和删除一端成为栈顶(top) 另端称为栈底(bottom),不含任何数据元素栈称为空栈

    Dgraph 1.2.8 发布,事务性分布式图形数据库

    Dgraph 1.2.8 发布了。Dgraph 是一个可扩展分布,低延迟数据库,目标是提供 Google 生产水平规模和吞吐量,在超过 TB 结构数据里,为用户提供足够低延迟实时

    线性 - 循环链

    1.引子 单链解决了从A 查找到E过程,假设现在要求从E 查找到A,用时最短, 因为单链是单向,只能从前往后,无法解决这个问题。因此引出了循环链。   思路图

    推荐款前端数据源管理工具 algeb

    ALGEB 简介 这是一个比较抽象库,开始可能比较难理解。我初衷,是创建可响应数据请求管理。在传统数据请求中,我们只是把携带ajax代码堆函数放在一起,这样就可以调用接口。但是这种

    DataGear 1.13.1 发布,数据可视化分析平台

    DataGear 是数据可视化分析平台,使用Java语言开发,采用浏览器/服务器架构,支持SQL、CSV、Excel、HTTP接口、JSON等多种数据源,主要功能包括数据管理、SQL