本文介绍了获取 UTF-8 编码的 std::string 的实际长度?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我的 std::string 显然是 utf-8 编码的,str.length() 返回了错误的结果.
my std::string is utf-8 encoded so obviously, str.length() returns the wrong result.
我找到了此信息,但我不确定如何使用它来执行此操作:
I found this information but I'm not sure how I can use it to do this:
以下字节序列是用来表示一个字符.这顺序是使用取决于字符的 UCS 代码编号:
The following byte sequences are used to represent a character. The sequence to be used depends on the UCS code number of the character:
0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
如何找到 UTF-8 编码的 std::string 的实际长度?谢谢
How can I find the actual length of a UTF-8 encoded std::string? Thanks
推荐答案
计算所有首字节(与 10xxxxxx 不匹配的字节).
Count all first-bytes (the ones that don't match 10xxxxxx).
int len = 0;
while (*s) len += (*s++ & 0xc0) != 0x80;
这篇关于获取 UTF-8 编码的 std::string 的实际长度?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!