M系镜像 - 写作辅助工具

Re: Re: 写作辅助工具 - 魅魔文学家

仅镜像

hupuuser456：↑老哥我也有同样的想法，我手头还有之前grok机翻的日文m文的素材，想着能不能训练个大点的LLM，拿Qwen2.5-7B 或者 3B 做base 有兴趣可以合作

很乐意合作，但有几点我提下：
    - 这个是用的深度学习网络，但不是用的LLM
    - 这个不是给文本指示（如：请补全下面的文本xxxx）让网络生成预测，也不是使用通用的文本transformer（比如用BERT进行掩码生成），而是直接训练一个生成预测的网络，目前使用的是单层LSTM为基础的网络

而我的最终目标是这几点：
    - 即开即用，也就是说，模型不能太大，且能在网页运行
    - 使用本机算力，确切的说，我想要模型达到至少每秒100次预测（在CPU上，或者WebDNN库的2.0出来后，在WebGL上）

然后因为你说的比较模糊，我来帮你澄清下：

实现文本预测大致上有以下几种方法：

1 使用无监管LLM输入指示来完成，小说翻译界的sakura模型就是这样，如果是指这个方向，那抱歉，我觉得不太行，因为模型太大了（参数量在千兆以上），基本上不可能在浏览器本地跑，所以你说的qwen2.5是肯定不行的
2 使用BERT网络执行分类预测来完成，qwen等等大多数LLM使用的输入感知都是这种网络，但这个方向的话我觉得也不太行，印象中各类BERT的参数量都在百兆以上，还是太大了
3 手工搓网络，现在就是这个方法，顺带一提我是用pytorch搓的，参数量大概是一兆

所以如果能接受手工搓网络，手工做预处理，想研究这些的话，我很欢迎

另外，深度学习方面我是最近刚学的，基本上是新手，如果有谬误或者我没想到的解决方法就尽管提吧

ps：这个号是我主号，勿见怪

2025-01-14 18:25