关于AI程序员的内部实现逻辑

@Ta 06-17 20:37 73点击
1. git代码分享平台有上亿亿亿的commits,每个commit都写得清清楚楚,新修改的代码实现了什么。大概有几百万TB的纯文本数据。

2. 每次你向AI提需求,程序就用hash dict查找对应的commit,找到和你代码原文件以及描述最相似的记录,在你本地文件回放之前别人的项目别人的修改。(hash dict查询,速度0.1秒一个)

3. 因为git数据库非常的大,几乎你能想到的任何代码修改需求都有覆盖到,所以你感觉这个AI好智能

4. 你想啊,做一个简单的网页或者程序,github上有一大堆项目,你一提需求直接就把别人的项目拉到你本地了…中间还有去版权、匿名化的行为。目的就是明目张胆的实施代码盗窃…



不好意思,我没办法提供源代码,因为这是商业机密。

(最主要的难点不是程序,而是你要买多少硬盘去装那些代码,以及用多大的内存能做到实时dict查询,反正就一句话,做这种级别的机器学习程序,都不需要用到GPU。哦,对了,github之类的代码平台也不会直接把代码数据送给你。)
回复列表(3|隐藏机器人聊天)
  • @Ta / 06-18 09:50 / /

    这个帖子的内容适合做技术讨论的“脑洞”或“假设推演”,但从专业角度来看,它和现实中的AI程序员(如GitHub Copilot、ChatGPT、CodeWhisperer等)的实际实现机制有较大出入,主要属于“误解”或“想象”。可以从以下几个方面进行评价:


    1. 优点

    • 直观易懂:用“查字典”“回放commit”的比喻,让非专业人士容易理解AI写代码“可能如何工作”。
    • 关注现实痛点:提到了数据体量、检索速度、法律风险(代码盗窃、版权问题)等实际问题。
    • 有一定启发性:这种思路其实和“代码搜索”“代码推荐”相关,有一定的参考价值。

    2. 主要误区

    • 对AI原理的误解
      现实中的AI程序员(如Copilot、ChatGPT)并非直接查找和回放历史commit,而是采用大模型(LLM),通过深度学习“理解”代码和自然语言,实现代码的主动生成。
      你的设想类似于“代码检索/搬运工”,而不是“代码生成/理解者”。

    • 数据规模和硬件不可行
      设想的“百万TB级别纯文本+实时hash dict查询”在现有技术下极难实现。AI大模型实际只需几十~几百GB权重文件即可推理。

    • 法律与伦理问题被夸大
      主流AI平台在训练和生成时会有去重、过滤和版权规避措施,不是“明目张胆的盗窃”。

    • 实际开发需求远比commit检索复杂
      AI生成代码时需要理解上下文、项目结构、API接口等,仅回放commit远远不够。


    3. 适合的定位

    • 作为“科幻”或“技术畅想”可以讨论;
    • 作为对AI实际原理的解读,则属于“误区”或“想当然”。

    4. 可以如何改进/补充

    • 建议结合现实AI原理(如Transformer、LLM、预训练-微调-推理流程)来理解AI程序员;
    • 可以对比“代码检索工具”(如Sourcegraph)与“代码生成模型”(如Copilot)的区别;
    • 可以讨论AI训练中的数据、模型、推理、合规等环节的实际难点。

    5. 综合评价

    这个帖子适合做“科幻畅想”或“非专业讨论”,但与真实的AI程序员实现原理有较大差距。建议大家理性看待,不要误以为AI就是“查commit回放”,而要了解现代AI的“生成式理解”本质。

    如果你想深入了解真实的AI程序员实现原理,欢迎继续提问!

  • @Ta / 06-18 11:37 / /
    @水木易安

    要深入理解git commits是这些机器人程序员的课本…

    课本知识重要,还是人重要?只有人,没有数据,会变成狼孩,没有知识的容器

    这篇文章的重点是揭示ai程序员模型训练需要用到的数据是从哪儿来的

    匿名化处理、版权规避措施,就是把原作者名字给删了,装成是它自己生成的。这就是盗窃
  • @Ta / 06-18 13:04 / /

    @yingshaoxo,期待你用 AI,写个能在 WinXP 上运行的小程序,

    能像隔壁帖子录屏里的 EdgeHTML 那样,平滑不卡顿地滚动界面,

    但却用 CPU 实现。。

添加新回复
回复需要登录