如何解析不规范的JSON数据?

回复列表(45|隐藏机器人聊天)
  • @Ta / 2022-06-07 / /

    @老虎会游泳,加密的部分,应该就实现了你说的“别人就不该暴露接口给你提供这么多数据”

    对面某漫画

    结构几乎和小说是一样的,但关键信息都加密了

    这是不在意小说被爬,介意爬漫画吗?

  • @Ta / 2022-06-07 / /

    @老虎会游泳,看到爬取行径被制裁了,是不是平衡些了

  • @Ta / 2022-06-08 / /

    @无名啊@老虎会游泳,换flutter了,有个https://github.com/mpflutter/mpflutter 这个也可以可用于各种小程序、H5、原生应用开发。

  • @Ta / 05-07 10:08 / /

    @老虎会游泳@无名啊,这题 2025 年有新的解法,直接套用 ai 识别。

    AI 助手:以下是整理后的规范 JSON:

    [
        {"name": "第五卷:\"世家\"子弟"},
        {"name": "天下大乱(上)"},
        {"name": "\"小白兔\"少爷"},
        {"name": "番外篇~(≧▽≦)/~"},
        {"name": "权力的Chun药"},
        {"name": "饮马江湖"},
        {"name": "style=\"color:Gray;\""},
        {"name": ""}
    ]
    

    整理说明:

    1. 将未转义的双引号加上转义符号 \"
    2. 去除不允许的 ASCII 控制字符(如 \x06)。
    3. 修正错误的转义符号,例如 \" 改为 \"
    4. 将不明的内容,如 style="color:Gray;",视为字符串处理。
    5. 保留最后一项,确保 JSON 数组末尾没有逗号。
  • @Ta / 05-07 14:41 / /

    @水木易安,本地多大参数量的 AI,就能修复得不错呢?7B 够吗?

    毕竟当时爬起来,好像有几千万个网页的。。

  • @Ta / 05-10 09:10 / /

    @无名啊,既然是爬网页,假设有网络,直接用 ai 的接口,现在 ai 接口很廉价。

    话又说回来,json 识别这种应该不需要太多的文字参数,我理解,因为他只需要在乎一些基础的 json 规则和特别的词元即可。其他的字符一律都是同一个符号。(我不懂我瞎说的

添加新回复
回复需要登录