養鴨宗師: JAVA與MySQL的UTFB8MB4問題

2018-04-29

JAVA與MySQL的UTFB8MB4問題

1.升級MySQL 至少 > 5.5.3，並修改/etc/my.cnf，加入以下設定後，重開機
(JDBC預設會抓資料庫的character-set-server來做character判斷)
[client]
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

2.修改資料table裡，將需要支援擴充字集的「欄位」改成utfbmb4_unicode_ci

3.升級 tomcat/lib裡的mysql-connector-java，至少 > 5.1.13，建議5.1.47(含)以上

4.tomcat修改context.xml，連線字串中加入
(characterEncoding=UTF8已預設相容UTF8MB4，此設定拿掉會直接讀資料庫的character-set-server，其實也沒影響)
(autoReconnect=true是為了能自動重新讀取資料庫設定，以避免讀到舊暫存設定)
useUnicode=true&autoReconnect=true&characterEncoding=UTF8

5.java正則表示式中，使用Pattern.compile("regex")似乎無法正常判斷unicode範圍20000 ~ 2A6D6 (42711字)及2F800 ~ 2FA1D (542字)的4 bytes字元，因此改用String.matches("regex")：
//是否全為漢字
str.matches("^[\\u4E00-\\u9FBB\\u3400-\\u4DB5\\uF900-\\uFAD9\\x{20000}-\\x{2A6D6}\\x{2F800}-\\x{2FA1D}\$\$]+$")

6.javascript的全漢字正則表示式：
!/^([\u4E00-\u9FBB|\u3400-\u4DB5|\uF900-\uFAD9]|[\uD800-\uDBFF][\uDC00-\uDFFF])+$/.test(STRING)

ref:
https://segmentfault.com/a/1190000000616820
http://seanlook.com/2016/10/23/mysql-utf8mb4/

https://blog.csdn.net/leshami/article/details/42024217
https://www.mdeditor.tw/pl/2FbL/zh-tw

https://mathiasbynens.be/notes/mysql-utf8mb4

ref(unicode編碼轉換):
https://www.jianshu.com/p/35f5f7d07732
https://codepoints.net/U+20000

養鴨宗師

2018-04-29

JAVA與MySQL的UTFB8MB4問題

沒有留言:

張貼留言