正则表达式 匹配 中文/日文/韩文
Feb 11, 2016
包含中日韩文但不包含其标点符号等的部分的正则表达式
1 | [\u2E80-\u2FDF\u3040-\u318F\u31A0-\u31BF\u31F0-\u31FF\u3400-\u4DB5\u4E00-\u9FFF\uA960-\uA97F\uAC00-\uD7FF] |
有中日韩文字区域细分(我们需要的打√)
2E80-2FDF 中文偏旁部首 √
2FF0-2FFF 表意描述字符,看起来像一堆虚线框
3000-303F 中文的符号
3040-309F 日语平假名 √
30A0-30FF 日语片假名 √
3100-312F Bopomofo注音,台湾使用的注音 √
3130-318F 韩语字母 √
3190-319F 汉字批注
31A0-31BF Bopomofo注音扩充 √
31C0-31EF 中日韩越统一表意文字的笔画
31F0-31FF 片假名语音扩充 √
3200-32FF 一些月份,批注,带圈的数字之类
3300-33FF 一些单位,元素符号之类
3400-4DB5 中日韩越统一表意文字 扩充A区 √
4DC0-4DFF 易经六线型字符
4E00-9FFF 中日韩越统一表意文字 主区 √
A000-A4FF 彝族文字区
A500-A95F Vai,斯拉夫字母之类,看不懂
A960-A97F 韩语字母 扩充A区 √
A980-ABFF 又是一些深奥的语言
AC00-D7FF 韩语音节 √
F900-FAFF 中日韩越统一表意文字 三国意思差不多的字,不过打出来和上面区相同的字显示一样,但是小一点,没什么用
再往下还有 中日韩越统一表意文字 扩充B、C、D、E区,不过看起来都不是常用字
附上 Unicode字符表 下载地址 Unicode Character Database