写作辅助工具 - 魅魔文学家

只显示lanesun的文章。显示全部
La
lanesun
Re: Re: 写作辅助工具 - 魅魔文学家
仅镜像
hupuuser456老哥我也有同样的想法,我手头还有之前grok机翻的日文m文的素材,想着能不能训练个大点的LLM,拿Qwen2.5-7B 或者 3B 做base  有兴趣可以合作
很乐意合作,但有几点我提下:
    - 这个是用的深度学习网络,但不是用的LLM
    - 这个不是给文本指示(如:请补全下面的文本xxxx)让网络生成预测,也不是使用通用的文本transformer(比如用BERT进行掩码生成),而是直接训练一个生成预测的网络,目前使用的是单层LSTM为基础的网络

而我的最终目标是这几点:
    - 即开即用,也就是说,模型不能太大,且能在网页运行
    - 使用本机算力,确切的说,我想要模型达到至少每秒100次预测(在CPU上,或者WebDNN库的2.0出来后,在WebGL上)

然后因为你说的比较模糊,我来帮你澄清下:

实现文本预测大致上有以下几种方法:

1 使用无监管LLM输入指示来完成,小说翻译界的sakura模型就是这样,如果是指这个方向,那抱歉,我觉得不太行,因为模型太大了(参数量在千兆以上),基本上不可能在浏览器本地跑,所以你说的qwen2.5是肯定不行的
2 使用BERT网络执行分类预测来完成,qwen等等大多数LLM使用的输入感知都是这种网络,但这个方向的话我觉得也不太行,印象中各类BERT的参数量都在百兆以上,还是太大了
3 手工搓网络,现在就是这个方法,顺带一提我是用pytorch搓的,参数量大概是一兆

所以如果能接受手工搓网络,手工做预处理,想研究这些的话,我很欢迎

另外,深度学习方面我是最近刚学的,基本上是新手,如果有谬误或者我没想到的解决方法就尽管提吧

ps:这个号是我主号,勿见怪
La
lanesun
Re: 写作辅助工具 - 魅魔文学家
仅镜像
2025-01-17:更新界面,设置页面,帮助页面,优化体验,可选模型,新模型使用Transformer