本文介绍了在C#中从字符串中剥离字节顺序标记的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
在C#中,我有一个从WebClient.DownloadString获得的字符串。我尝试将client.Encoding设置为新的UTF8Encoding(False),但没有什么不同-我在结果字符串的开头仍然得到了UTF-8的字节顺序标记。我需要删除它(以便使用LINQ解析生成的XML),并且希望在内存中执行此操作。
所以我有一个以x00EFx00BBx00BF开头的字符串,如果它存在的话,我想删除它。现在我正在使用
if (xml.StartsWith(ByteOrderMarkUtf8))
{
xml = xml.Remove(0, ByteOrderMarkUtf8.Length);
}
但那感觉就是不对劲。我用STREAMS、GetBytes和编码尝试了各种代码,但都不起作用。是否有人能够提供从字符串中剥离BOM的&Quot;Right&Quot;算法?
BOM
如果变量推荐答案的类型为String,则您已经做错了什么-在字符串中,BOM不应该表示为三个单独的字符,而应该表示为一个代码点。不使用DownloadString,而使用DownloadData,并解析字节数组。XML解析器应该识别BOM本身,并跳过它(自动检测文档编码为UTF-8除外)。
这篇关于在C#中从字符串中剥离字节顺序标记的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!