今天晚上临时开了一个小组会,主要是听组里的lx姐分享了LLM相关使用经验,感觉挺有收获的,特此记录~
LLM使用经验
整体的LLM使用感受
- vicuna:多语言可以
- gemini:对开发者友好
- Llama2:主要支持英文,比较安全 (或者说过于安全)
- Llama3:个性化好,system prompt
- claude3:价格贵,支持上下文,复杂指令的遵从能力比gpt-4强。但是安全性一般,容易被jailbreak
- claude3.5:速度快,能力强,便宜,安全比较好,但也会被reverse text攻击
- zephyr:知识多,指令遵从能力强,7B大小。
- 千问2:综合能力强,但容易被jailbreak?
- chatgpt系列:
- chatgpt:最初的最强大模型,但jailbreak比较容易
- gpt-4:
- 综合能力可以
- 打分能力强
- gpt4o:知识更丰富
- gpto-mini:最大优点就是便宜,感觉能力退化了,能力不如gpt4o
- 其他系列:
- beaver:北大推出来的
- baichun:回复简洁
- ernie bot:百度的
- chatglm:写报告,写指南,风格沉稳
善用system prompt
- system prompt适合给LLM洗脑 & 制定一些格式
- system prompt的安全程度并不会左右模型的安全性
- user prompt适合一些细节的着重介绍
- prompt信息位置敏感, 大多数模型都是信息位置越靠后服从性越高
- 善用输出格式, json格式的输出可以提高生成内容的准确性:
- response_format={“type”: “json_object”}
- 模型对特殊符号标识的格式服从度较高,例如###,
微调工具
- 环境使用
- deepspeed
- accelerate
- fdsp
- 可选模型
- Llama 2
- Mistral
- 注意的点
- Mistral微调学习率过高易出现 / ****/
- deepspeed config顺序要在huggingface的condig前面
测评工具
- lm_eval
优点:
- 集成使用方便
-
多选 vs. 生成
-
MT-Bench
优点:使用比较友好
-
Perspective API
-
TrustLLM
-
Catastrophic Jailbreak of Open-source LLMs via Exploiting Generation
规则+Bert
可以用LLM干的事情
-
自动化评估
-
学术润色/撰写
I’m writing a paper on [topic] for a leading [discipline] academic journal. What I tried to say in the following section is [specific point]. Please rephrase it for clarity, coherence and conciseness, ensuring each paragraph flows into the next. Remove jargon. Use a professionaltone. -
使用SEA-E自动化给论文打分,并给审稿意见。可以参考着修改论文。