网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月18日漏签0天
unicode吧 关注:47,976贴子:12,408
  • 看贴

  • 图片

  • 吧主推荐

  • 游戏

  • 1 2 下一页 尾页
  • 45回复贴,共2页
  • ,跳到 页  
<<返回unicode吧
>0< 加载中...

Unicode的平面Unicode有17个平面,即第0平面(

  • 只看楼主
  • 收藏

  • 回复
  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode的平面
Unicode有17个平面,即第0平面(0000-FFFF)到
第16平面(100000-10FFFF)。
第0平面称为BMP(Basic Multilingual Plane)平面,又称为基本多文种平面,第0平面外的平面统称为辅助平面,其范围为0000-FFFF。
第1辅助平面称为SMP(Supplementary Multilingual Plane)平面,又称为多文种补充平面,主要摆放拼音文字及符号,其范围为10000-1FFFF。
第2辅助平面称为SIP(Supplementary Ideographic Plane)平面,又称为表意文字补充平面,其范围为20000-2FFFF。
第3辅助平面称为TIP(Tertiary Ideographic Plane)平面,又称为表意文字第三平面,其范围为30000-3FFFF。
第4至13辅助平面尚未使用。
第14辅助平面称为SSP(Supplementary Special-purpose Plane)平面,又称为特殊用途补充平面,摆放语言标签(Language Tags)和异体字选择器(Variation Selectors),这些都是控制字符,其范围为E0000-EFFFF。
第15辅助平面为私人使用区:
补充私人使用区-A (F0000-FFFFF)
- Supplementary Private Use Area-A
第16辅助平面为私人使用区:
补充私人使用区-B(100000-10FFFF)
- Supplementary Private Use Area-B


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode转UTF-8(最多4字节,BMP平面最多只使用3个字节):
Unicode:0000 0000 - 0000 007F
UTF-8:0xxxxxxx
Unicode:0000 0000 - 0000 07FF
UTF-8:110xxxxx 10xxxxxx
Unicode:0000 0000 - 0000 FFFF
UTF-8:1110xxxx 10xxxxxx 10xxxxxx
Unicode:0000 0000 - 0010 FFFF
UTF-8:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
转换时将16进制的Unicode转成2进制,按范围逐一填入上表的x中。
汉字在UTF-8中,在BMP平面的需要3个字节表示,在SIP和TIP平面中使用4个字节表示。


2025-07-18 03:37:26
广告
  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode转UTF-16:
Unicode BMP平面不用转换,BMP以外的平面需要使用UTF-16代理编码:
UTF-16代理UTF-16 Surrogates (D800-DFFF)
- 高半区代理(D800-DBFF)
- 低半区代理(DC00-DFFF)
Unicode编码的10000相当于UTF-16编码的D800 DC00
从Unicode代码点到代理项对转换:
1、获取Unicode代码点值,减去0x10000,转成20位二进制,分成两个高低代理的10位二进制
2、高代理项10位二进制转成16进制,从高代理项加上0xD800
3、低代理项10位二进制转成16进制,从低代理项加上0xDC00
从代理项对到Unicode代码点转换:
1、从高代理项减去0xD800,获取有效10位二进制
2、从低代理项减去0xDC00,获取有效10位二进制
3、组合成20位二进制转16进制,加上0x10000,获取Unicode代码点值


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode字表:网页链接
Unicode13.0整体字表:
https://www.unicode.org/Public/13.0.0/charts/CodeCharts.pdf


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
UTF编码的BOM:
BOM的用途:BOM是Byte Order Mark的缩写,在UTF-16和UTF-32中需要使用BOM来区分字节顺序,因为CPU有两种系列,一种是大端模式,一种是小端模式(常用设备多为该种模式),在两种不同模式的设备互传文件可能出现无法读取的情况,在文件的最前面添加一个BOM便可判断文件的字节顺序是大端序还是小端序,按照BOM所记录的顺序读取,就不会在读取时出错。UTF-8本身并没有大小端之分,但微软旧版Windows记事本中的UTF-8编码使用了UTF-8的BOM,导致使用BOM的UTF-8编码会在Linux或MacOS中可能会读取异常。
各个UTF的BOM:
UTF-8: EF BB BF
UTF-16BE: FEFF
UTF-16LE: FFFE
UTF-32BE: 0000FEFF
UTF-32LE: FFFE0000
LE(Little Endian):小端序存储
BE(Big Endian):大端序存储


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
微软Windows记事本:
*旧版记事本
ANSI:为使Windows系统支持多国语言设立的编码,在不同地区的系统下,编码各不相同,可通过设置Windows语言和地区改变编码,在中文简体系统下一般指GBK,CodePage为936,GB18030的CodePage为54936。
Unicode:指UTF16-LE,UTF-16小端序,在UCS-2下,定长表示,只有BMP平面,UTF-16的编码几乎和Unicode编码一致,因此当时把UTF-16LE写成Unicode。
Unicode big endian:指UTF16-BE,UTF-16大端序,在UCS-2下,定长表示,只有BMP平面,UTF-16的编码几乎和Unicode编码一致,因此当时把UTF-16BE写成Unicode big endian。
UTF-8:带有BOM的UTF-8编码。
------------------------------------------------
*新版记事本(Windows10 2004版):
ANSI:为使Windows系统支持多国语言设立的编码,在不同地区的系统下,编码各不相同,可通过设置Windows语言和地区改变编码,在中文简体系统下一般指GBK,CodePage为936,GB18030的CodePage为54936。
UTF16-BE:UTF-16大端序
UTF16-LE:UTF-16小端序
UTF-8:UTF-8编码
UTF-8 with BOM:带有BOM的UTF-8编码


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode的PUA(Private Use Areas):
在Unicode中, 私人使用区指其解释未在Unicode标准中指定,而是由合作用户之间的私人协议决定其用途的一系列码位,使用不同编码定义的字体,显示的字符各不相同。Unicode定义了三个私人使用区:一个在基本多文种平面(U+E000-U+F8FF)中,另外两个几乎包含了整个第15和第16平面(分别为U+F0000-U+FFFFD,U+100000-U+10FFFD)。


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Word和写字板可通过输入16进制Unicode编码,然后同时按Alt+X键将Unicode编码转成对应的字符。


2025-07-18 03:31:26
广告
  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。GB18030与Unicode的辅助平面有映射关系,可通过公式相互转换。


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
Unicode辅助平面与GB18030转换:
GB18030转Unicode:
10进制转16进制
(
(16进制转10进制(GB18030第一字节)-144)*12600
+(16进制转10进制(GB18030第二字节)-48)*1260
+(16进制转10进制(GB18030第三字节)-129)*10
+(16进制转10进制(GB18030第四字节)-48)
+65536
)
------------------------------------------------
Uncode转GB18030:
A=Unicode编码(16进制)
B=INT((16进制转10进制(A)-65536)/12600)
C=MOD((16进制转10进制(A)-65536),12600)
D=INT(C/1260)
E=MOD(C,1260)
F=INT(E/10)
G=MOD(E,10)
第一字节=10进制转16进制(B+144)
第二字节=10进制转16进制(D+48)
第三字节=10进制转16进制(F+129)
第四字节=10进制转16进制(G+48)


  • 罗伯斯庇尔的
  • 沝
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
大神,求助一个问题,请问怎么实现“多化一”和“一化多”输入?
比如 :输入“虎”结果解释成“猫科动物”
再比如:输入“初升的太阳”解释成“晨”


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
字体与输入法:
字体文件用于显示对应Unicode编码的字形,输入法则是通过输入码(拼音、五笔、语音、手写)来搜索寻找对应的Unicode编码,以字符形式插入文本,操作系统没有该编码的字体,则显示为缺字符号。


  • laotangsky
  • 水
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
那么常用汉字是在第几平面?0平面吗?比如“中文”,中 对应4e2d,这是0平面?


  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
MySQL数据库的UTF-8:
UTF-8:最多使用3个字节,不支持Unicode辅助平面。
UTF-8mb4:最多使用4个字节,支持Unicode辅助平面。


2025-07-18 03:25:26
广告
  • 函数返回值
  • 淼淼淼淼
    12
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
字体文件的字符数上限:
TTF字体格式字符数量上限为65535个字符;目前OTF字体格式也正在逐步普及,字符数量上限均为65535个字符。而Unicode汉字的数量则有9万字以上,如果要全部设计它们的字形,则需要分成多个字体来进行设计,也可以将ttf、otf文件合并成一个ttc文件。也可在Windows系统上写入注册表,通过Fallback机制使系统缺失不能正常显示的字体自动调用到自行设计的字体上,以便正常显示该字的字形。
我们可以通过FontForge或者Font Creator等软件来创建一个字体文件,安装后字体后,输入使用字体时选择该字体的名称便能使用该字体。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 1 2 下一页 尾页
  • 45回复贴,共2页
  • ,跳到 页  
<<返回unicode吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示