MySQL 字符集和比较规则

博主：一个萌新
发布时间：2022 年 04 月 04 日
260 次浏览
暂无评论
6140字数
分类： MySQL

常用的字符集

ASCII字符集：共收入128个字符，所以用一个字节来进行编码。 2^7 = 128 < 256
ISO 8859-1：收录256个字符别名Latin1
GB2312：汉字为主，汉字6763个，其他文字符号682个同时兼容ASCII，该字符在ASCII字符集中采用一字节编码，否则采用两字节编码。

这是变长编码的方式 “爱u” '爱'采用2字节编码十六进制为0xB0AE；'u'用1字节编码十六进制为0x75，合并起来为0xB0AE75

如何判断是单个字符？某个字节的最高位为0，那么代表单个字符。

GBK字符集：拓展GB2312字符集
UTF-8：收集很全，兼容ASCII 变长编码，1-4个字节存储

UTF-8只是Unicode的一种方案还有UTF-16、UTF-32

MySQL支持的字符集和比较规则

utf8mb3：阉割过的UTF-8字符集使用1-3字节表示字符
utf8mb4：正宗的UTF-8字符集，1-4字节

MySQL中uft8是指uft8mb3，如果需要4字节编码的比如emoji表情，需要使用utf8mb4

MySQL8 优化了utf8mb4字符集的性能，设置为默认的字符集

# 查看当前MySQL中支持的字符集
SHOW (CHARACTER SET|CHARSET) [LIKE 匹配的模式];
SHOW CHARSET;
# 查看MySQL中支持的比较规则
SHOW COLLATION [LIKE 匹配的模式];
SHOW COLLATION LIKE 'utf8\_%';

mysql8的字符集如下

Charset	Description	Default collation	Maxlen
armscii8	ARMSCII-8 Armenian	armscii8_general_ci	1
ascii	US ASCII	ascii_general_ci	1
big5	Big5 Traditional Chinese	big5_chinese_ci	2
binary	Binary pseudo charset	binary	1
cp1250	Windows Central European	cp1250_general_ci	1
cp1251	Windows Cyrillic	cp1251_general_ci	1
cp1256	Windows Arabic	cp1256_general_ci	1
cp1257	Windows Baltic	cp1257_general_ci	1
cp850	DOS West European	cp850_general_ci	1
cp852	DOS Central European	cp852_general_ci	1
cp866	DOS Russian	cp866_general_ci	1
cp932	SJIS for Windows Japanese	cp932_japanese_ci	2
dec8	DEC West European	dec8_swedish_ci	1
eucjpms	UJIS for Windows Japanese	eucjpms_japanese_ci	3
euckr	EUC-KR Korean	euckr_korean_ci	2
gb18030	China National Standard GB18030	gb18030_chinese_ci	4
gb2312	GB2312 Simplified Chinese	gb2312_chinese_ci	2
gbk	GBK Simplified Chinese	gbk_chinese_ci	2
geostd8	GEOSTD8 Georgian	geostd8_general_ci	1
greek	ISO 8859-7 Greek	greek_general_ci	1
hebrew	ISO 8859-8 Hebrew	hebrew_general_ci	1
hp8	HP West European	hp8_english_ci	1
keybcs2	DOS Kamenicky Czech-Slovak	keybcs2_general_ci	1
koi8r	KOI8-R Relcom Russian	koi8r_general_ci	1
koi8u	KOI8-U Ukrainian	koi8u_general_ci	1
latin1	cp1252 West European	latin1_swedish_ci	1
latin2	ISO 8859-2 Central European	latin2_general_ci	1
latin5	ISO 8859-9 Turkish	latin5_turkish_ci	1
latin7	ISO 8859-13 Baltic	latin7_general_ci	1
macce	Mac Central European	macce_general_ci	1
macroman	Mac West European	macroman_general_ci	1
sjis	Shift-JIS Japanese	sjis_japanese_ci	2
swe7	7bit Swedish	swe7_swedish_ci	1
tis620	TIS620 Thai	tis620_thai_ci	1
ucs2	UCS-2 Unicode	ucs2_general_ci	2
ujis	EUC-JP Japanese	ujis_japanese_ci	3
utf16	UTF-16 Unicode	utf16_general_ci	4
utf16le	UTF-16LE Unicode	utf16le_general_ci	4
utf32	UTF-32 Unicode	utf32_general_ci	4
utf8	UTF-8 Unicode	utf8_general_ci	3
utf8mb4	UTF-8 Unicode	utf8mb4_0900_ai_ci	4

比较规则的后缀意义

_ai	不区分重音（accent insensitive）
_as	区分重音（accent sensitive）
_ci	不区分大小写（case insensitive）
_cs	区分大小写（case sensitive）
_bin	以二进制方式比较（binary）

比如utf8_general_ci这个比较规则是以ci结尾的，说明不区分大小写
每种字符集都有一种默认的比较规则，SHOW COLLATION的返回结果中的Default列的值为YES的就是该字符集的默认比较规则，比方说utf8字符集默认的比较规则就是utf8_general_ci。

字符集和比较规则的应用

mysql有四个级别的字符集与比较规则，分别为服务器级别、数据库级别、表级别、列级别。

服务器级别

系统变量	描述
character_set_server	服务器级别的字符集
collation_server	服务器级别的比较规则

数据库级别

创建和修改数据库时可以指定字符集和⽐较规则：
CREATE  DATABASE    数据库名
      [[DEFAULT]  CHARACTER   SET 字符集名称]
      [[DEFAULT]  COLLATE ⽐较规则名称];
ALTER   DATABASE    数据库名
      [[DEFAULT]  CHARACTER   SET 字符集名称]
      [[DEFAULT]  COLLATE ⽐较规则名称];
例如:
CREATE DATABASE poo
CHARARTER SET utf8mb4
COLLATE utf8mb4_general_ci;

系统变量	描述
character_set_database	数据库级别的字符集
collation_database	数据库级别的比较规则

表级别

创建和修改表的时候指定表的字符集和⽐较规则：
CREATE  TABLE   表名  (列的信息)
        [[DEFAULT]  CHARACTER   SET 字符集名称]
        [COLLATE    ⽐较规则名称]];
ALTER   TABLE   表名
        [[DEFAULT]  CHARACTER   SET 字符集名称]
        [COLLATE    ⽐较规则名称];
例如:
CREATE TABLE danone_events (
 open_id varchar(20)
)CHARARTER SET utf8mb4 COLLATE utf8mb4_general_ci;

列级别

创建和修改列定义的时候可以指定该列的字符集和⽐较规则：
CREATE  TABLE   表名(列名 字符串类型 
                [CHARACTER  SET 字符集名称]        
                [COLLATE    ⽐较规则名称],
        其他列...
        );
ALTER   TABLE   表名  MODIFY  列名 字符串类型    [CHARACTER  SET 字符集名称]  [COLLATE    ⽐较规则名称];

仅修改字符集或进修改比较规则
由于字符集与比较规则相互关联，因此修改任意一个，另外一个都会相应跟着变化。具体规则如下：
- 只修改字符集，则比较规则将变为修改后的字符集默认的比较规则；
- 只修改比较规则，则字符集将变为修改后的比较规则默认的字符集；
个级别字符集和比较规则小结
如果创建或者修改列时没有用显示指定字符集和比较规则，则该列默认使用表的字符集和比较规则。

最后修改：2022 年 04 月 09 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

MySQL 字符集和比较规则

一个萌新 • 2022 年 04 月 04 日

<h1>常用的字符集</h1><ul><li>ASCII字符集：共收入128个字符，所以用一个字节来进行编码。 2^7 = 128 &lt; 256</li><li>ISO 8859-1：收录256个字符 别名Latin1</li><li>GB2312：汉字为主，汉字6763个，其他文字符号682个同时兼容ASCII，该字符在ASCII字符集中采用一字节编码，否则采用两字节编码。</li></ul><p>这是变长编码的方式 “爱u” '爱'采用2字节编码 十六进制为0xB0AE；'u'用1字节编码 十六进制为0x75，合并起来为0xB0AE75</p><blockquote>如何判断是单个字符？ 某个字节的最高位为0，那么代表单个字符。</blockquote><ul><li>GBK字符集：拓展GB2312字符集</li><li>UTF-8：收集很全，兼容ASCII 变长编码，1-4个字节存储</li></ul><blockquote>UTF-8只是Unicode的一种方案 还有UTF-16、UTF-32</blockquote><h2>MySQL支持的字符集和比较规则</h2><ul><li>utf8mb3： 阉割过的UTF-8字符集 使用1-3字节表示字符</li><li>utf8mb4： 正宗的UTF-8字符集，1-4字节</li></ul><p>MySQL中uft8是指uft8mb3，如果需要4字节编码的比如emoji表情，需要使用utf8mb4</p><blockquote>MySQL8 优化了utf8mb4字符集的性能，设置为默认的字符集</blockquote><pre><code class="lang-mysql"># 查看当前MySQL中支持的字符集
SHOW (CHARACTER SET|CHARSET) [LIKE 匹配的模式];
SHOW CHARSET;
# 查看MySQL中支持的比较规则
SHOW COLLATION [LIKE 匹配的模式];
SHOW COLLATION LIKE 'utf8\_%';</code></pre><p>mysql8的字符集如下</p><table><thead><tr><th align="center"><strong>Charset</strong></th><th align="center"><strong>Description</strong></th><th align="center"><strong>Default collation</strong></th><th align="center"><strong>Maxlen</strong></th></tr></thead><tbody><tr><td align="center">armscii8</td><td align="center">ARMSCII-8 Armenian</td><td align="center">armscii8_general_ci</td><td align="center">1</td></tr><tr><td align="center">ascii</td><td align="center">US ASCII</td><td align="center">ascii_general_ci</td><td align="center">1</td></tr><tr><td align="center">big5</td><td align="center">Big5 Traditional Chinese</td><td align="center">big5_chinese_ci</td><td align="center">2</td></tr><tr><td align="center">binary</td><td align="center">Binary pseudo charset</td><td align="center">binary</td><td align="center">1</td></tr><tr><td align="center">cp1250</td><td align="center">Windows Central European</td><td align="center">cp1250_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp1251</td><td align="center">Windows Cyrillic</td><td align="center">cp1251_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp1256</td><td align="center">Windows Arabic</td><td align="center">cp1256_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp1257</td><td align="center">Windows Baltic</td><td align="center">cp1257_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp850</td><td align="center">DOS West European</td><td align="center">cp850_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp852</td><td align="center">DOS Central European</td><td align="center">cp852_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp866</td><td align="center">DOS Russian</td><td align="center">cp866_general_ci</td><td align="center">1</td></tr><tr><td align="center">cp932</td><td align="center">SJIS for Windows Japanese</td><td align="center">cp932_japanese_ci</td><td align="center">2</td></tr><tr><td align="center">dec8</td><td align="center">DEC West European</td><td align="center">dec8_swedish_ci</td><td align="center">1</td></tr><tr><td align="center">eucjpms</td><td align="center">UJIS for Windows Japanese</td><td align="center">eucjpms_japanese_ci</td><td align="center">3</td></tr><tr><td align="center">euckr</td><td align="center">EUC-KR Korean</td><td align="center">euckr_korean_ci</td><td align="center">2</td></tr><tr><td align="center">gb18030</td><td align="center">China National Standard GB18030</td><td align="center">gb18030_chinese_ci</td><td align="center">4</td></tr><tr><td align="center">gb2312</td><td align="center">GB2312 Simplified Chinese</td><td align="center">gb2312_chinese_ci</td><td align="center">2</td></tr><tr><td align="center">gbk</td><td align="center">GBK Simplified Chinese</td><td align="center">gbk_chinese_ci</td><td align="center">2</td></tr><tr><td align="center">geostd8</td><td align="center">GEOSTD8 Georgian</td><td align="center">geostd8_general_ci</td><td align="center">1</td></tr><tr><td align="center">greek</td><td align="center">ISO 8859-7 Greek</td><td align="center">greek_general_ci</td><td align="center">1</td></tr><tr><td align="center">hebrew</td><td align="center">ISO 8859-8 Hebrew</td><td align="center">hebrew_general_ci</td><td align="center">1</td></tr><tr><td align="center">hp8</td><td align="center">HP West European</td><td align="center">hp8_english_ci</td><td align="center">1</td></tr><tr><td align="center">keybcs2</td><td align="center">DOS Kamenicky Czech-Slovak</td><td align="center">keybcs2_general_ci</td><td align="center">1</td></tr><tr><td align="center">koi8r</td><td align="center">KOI8-R Relcom Russian</td><td align="center">koi8r_general_ci</td><td align="center">1</td></tr><tr><td align="center">koi8u</td><td align="center">KOI8-U Ukrainian</td><td align="center">koi8u_general_ci</td><td align="center">1</td></tr><tr><td align="center">latin1</td><td align="center">cp1252 West European</td><td align="center">latin1_swedish_ci</td><td align="center">1</td></tr><tr><td align="center">latin2</td><td align="center">ISO 8859-2 Central European</td><td align="center">latin2_general_ci</td><td align="center">1</td></tr><tr><td align="center">latin5</td><td align="center">ISO 8859-9 Turkish</td><td align="center">latin5_turkish_ci</td><td align="center">1</td></tr><tr><td align="center">latin7</td><td align="center">ISO 8859-13 Baltic</td><td align="center">latin7_general_ci</td><td align="center">1</td></tr><tr><td align="center">macce</td><td align="center">Mac Central European</td><td align="center">macce_general_ci</td><td align="center">1</td></tr><tr><td align="center">macroman</td><td align="center">Mac West European</td><td align="center">macroman_general_ci</td><td align="center">1</td></tr><tr><td align="center">sjis</td><td align="center">Shift-JIS Japanese</td><td align="center">sjis_japanese_ci</td><td align="center">2</td></tr><tr><td align="center">swe7</td><td align="center">7bit Swedish</td><td align="center">swe7_swedish_ci</td><td align="center">1</td></tr><tr><td align="center">tis620</td><td align="center">TIS620 Thai</td><td align="center">tis620_thai_ci</td><td align="center">1</td></tr><tr><td align="center">ucs2</td><td align="center">UCS-2 Unicode</td><td align="center">ucs2_general_ci</td><td align="center">2</td></tr><tr><td align="center">ujis</td><td align="center">EUC-JP Japanese</td><td align="center">ujis_japanese_ci</td><td align="center">3</td></tr><tr><td align="center">utf16</td><td align="center">UTF-16 Unicode</td><td align="center">utf16_general_ci</td><td align="center">4</td></tr><tr><td align="center">utf16le</td><td align="center">UTF-16LE Unicode</td><td align="center">utf16le_general_ci</td><td align="center">4</td></tr><tr><td align="center">utf32</td><td align="center">UTF-32 Unicode</td><td align="center">utf32_general_ci</td><td align="center">4</td></tr><tr><td align="center">utf8</td><td align="center">UTF-8 Unicode</td><td align="center">utf8_general_ci</td><td align="center">3</td></tr><tr><td align="center">utf8mb4</td><td align="center">UTF-8 Unicode</td><td align="center">utf8mb4_0900_ai_ci</td><td align="center">4</td></tr></tbody></table><p>比较规则的后缀意义</p><table><tbody><tr><td align="center">_ai</td><td align="center">不区分重音（accent insensitive）</td></tr><tr><td align="center">_as</td><td align="center">区分重音（accent sensitive）</td></tr><tr><td align="center">_ci</td><td align="center">不区分大小写（case insensitive）</td></tr><tr><td align="center">_cs</td><td align="center">区分大小写（case sensitive）</td></tr><tr><td align="center">_bin</td><td align="center">以二进制方式比较（binary）</td></tr></tbody></table><p>比如utf8_general_ci这个比较规则是以ci结尾的，说明不区分大小写<br>每种字符集都有一种默认的比较规则，SHOW COLLATION的返回结果中的Default列的值为YES的就是该字符集的默认比较规则，比方说utf8字符集默认的比较规则就是utf8_general_ci。</p><h2>字符集和比较规则的应用</h2><p>mysql有四个级别的字符集与比较规则，分别为服务器级别、数据库级别、表级别、列级别。</p><ul><li>服务器级别</li></ul><table><tbody><tr><td align="center">系统变量</td><td align="center">描述</td></tr><tr><td align="center">character_set_server</td><td align="center">服务器级别的字符集</td></tr><tr><td align="center">collation_server</td><td align="center">服务器级别的比较规则</td></tr></tbody></table><ul><li><p>数据库级别</p><pre><code class="lang-mysql">创建和修改数据库时可以指定字符集和⽐较规则：
CREATE  DATABASE    数据库名
      [[DEFAULT]  CHARACTER   SET 字符集名称]
      [[DEFAULT]  COLLATE ⽐较规则名称];
ALTER   DATABASE    数据库名
      [[DEFAULT]  CHARACTER   SET 字符集名称]
      [[DEFAULT]  COLLATE ⽐较规则名称];
例如:
CREATE DATABASE poo
CHARARTER SET utf8mb4
COLLATE utf8mb4_general_ci;</code></pre><table><thead><tr><th align="center">系统变量</th><th align="center">描述</th></tr></thead><tbody><tr><td align="center">character_set_database</td><td align="center">数据库级别的字符集</td></tr><tr><td align="center">collation_database</td><td align="center">数据库级别的比较规则</td></tr></tbody></table></li><li>表级别</li></ul><pre><code>创建和修改表的时候指定表的字符集和⽐较规则：
CREATE  TABLE   表名  (列的信息)
        [[DEFAULT]  CHARACTER   SET 字符集名称]
        [COLLATE    ⽐较规则名称]];
ALTER   TABLE   表名
        [[DEFAULT]  CHARACTER   SET 字符集名称]
        [COLLATE    ⽐较规则名称];
例如:
CREATE TABLE danone_events (
 open_id varchar(20)
)CHARARTER SET utf8mb4 COLLATE utf8mb4_general_ci;</code></pre><ul><li>列级别</li></ul><pre><code>创建和修改列定义的时候可以指定该列的字符集和⽐较规则：
CREATE  TABLE   表名(列名 字符串类型 
                [CHARACTER  SET 字符集名称]        
                [COLLATE    ⽐较规则名称],
        其他列...
        );
ALTER   TABLE   表名  MODIFY  列名 字符串类型    [CHARACTER  SET 字符集名称]  [COLLATE    ⽐较规则名称];</code></pre><ul><li><p>仅修改字符集或进修改比较规则<br>由于字符集与比较规则相互关联，因此修改任意一个，另外一个都会相应跟着变化。具体规则如下：</p><ul><li>只修改字符集，则比较规则将变为修改后的字符集默认的比较规则；</li><li>只修改比较规则，则字符集将变为修改后的比较规则默认的字符集；</li></ul></li><li>个级别字符集和比较规则小结</li><li>如果创建或者修改列时没有用显示指定字符集和比较规则，则该列默认使用表的字符集和比较规则。</li></ul>

MySQL 字符集和比较规则

常用的字符集

MySQL支持的字符集和比较规则

字符集和比较规则的应用

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Docker

写给大一萌新的c++/java环境配置

深入浅出Nodejs学习笔记——第一章 Node介绍

奇怪的链接

深入浅出Nodejs学习笔记——第二章模块机制

写给大一萌新的c++/java环境配置

MySQL是怎样运行的——学习计划

MySQL——连接的原理

深入浅出Nodejs学习笔记——第三章异步IO

RDAP

MySQL 字符集和比较规则

常用的字符集

MySQL支持的字符集和比较规则

字符集和比较规则的应用

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

MySQL 字符集和比较规则

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款