- A+
所属分类:.NetCore
原因
导致该问题的根本原因是编码转换。在 UTF-8 里有一个特殊的编码0xC2 0xA0
,转换成字符的时候,表现为一个空格,跟普通的半角空格一样,不同的是它的宽度不会被压缩,因此常被用来做网页排版。而在 GB2312、Unicode 等字符集中却没有这个编码,因此如果简单地进行编码转换,这个编码就会被替换成问号。
之前在实际项目中还遇到过更奇葩的情况,文章保存之后,内容中的问号就全都没了。后来发现是别人也遇到了空格变问号的问题,但选错了解决方案,他是直接把问号又替换成空格,结果正常的问号也被毙掉了。
正确的做法是,用 UTF-8 格式的编码进行替换,把那个特殊的空格替换为普通的空格,如果是 HTML 字符串,那就替换为 。
解决方案
- byte[] space = new byte[]{0xc2,0xa0};
- string utfSpace = Encoding.GetEncoding("UTF-8").GetString(space);
- htmlStr = htmlStr.Replace(utfSpace," ");
注意:在替换之前不能进行编码转换,一定要继续使用 UTF-8 编码。如果已经转换成其它编码,那就彻底没救了,因为这时候错误的问号和正常的问号之间已经没有分别了。