【ѩ】【ȹ】【ü】【çµçƒæ°´å™¨】【閰掓暖钖у彴涓浣揿鐢】【璺嗘妩阆撴湇鍎跨璁粌】【鐜诲翱閰搁腑鍎跨鎷栭瀷】
数据里有很多这种字符,怎么才可以过滤掉,网上搜了几个方法正常的汉字也会过滤掉,不能用...
手机
这种是不是可以用编码转换一下?
小米8(白)
貌似需要分词,很难搞
https://cway.top
看起来该乱码是错把UTF-8字符串当作GBK字符串处理造成的。反向编码转换即可还原。
gbkutf8.php
,保存为UTF-8编码。
<?php
$arr = [
'ѩ', 'ȹ', 'ü', 'çµçƒæ°´å™¨', '閰掓暖钖у彴涓浣揿鐢', '璺嗘妩阆撴湇鍎跨璁粌', '鐜诲翱閰搁腑鍎跨鎷栭瀷',
];
foreach ($arr as $v) {
$gbk = mb_convert_encoding($v, 'GBK', 'UTF-8'); // 文件是UTF-8的,想得到GBK字节序列需要进行编码转换
$hex = bin2hex($gbk);
echo "$v\t->\t$hex\t->\t$gbk\n"; // 虽然$gbk名义上是“GBK字节序列”,但它实际上是UTF-8字节序列,所以可以直接当作UTF-8字符串输出
}
不能完全还原,因为不能表示为合法GBK字符的UTF-8字符发生了丢失。
一个帅逼