前言:
上一章,我们简单的运行了RA软件,同时直接简单的使用了下最简单的文生图功能。
本章,我们开始逐步了解具体的细节内容。关键字/或者说提示词/ Token词元,基本上指向同一个内容。
Token这个单词有点技术性,我们可以理解为AI技术中的一个关键名词定义。针对它的使用完全影响到了最终的AI计算结果。所以非常有必要深度了解和学习下
知识点:
- Token词元
- 提示词 / 关键字
- 准备使用插件
Token 词元
在机器学习领域、NLP领域、文生图等领域,机器读懂词汇和语句是通过 Token 来进行的。
尽管在许多领域中都有“Token”这个字符被使用,在不同领域被翻译成代币、象征、标志、表示、信物、标记等等意思。但是在人工智能 AIGC 领域,通常是指“词元”,它是语言类模型中用数字来表示单词的最小语义单位。
在提示词文本发送给神经网络之前,Tokenizer 将组合词、句子、段落、文章这类型的长文本分解为最小单位的 Token 词元,然后再通过 Embedding 的方式把 token 转化为向量表示的数据结构,最后输入给神经网络。
比如图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,其中[CLS][SEP]为一句话的起始与结束符号,然后再通过 Embedding 的方式转化为向量。
(CLS:classification 告知系统这是句子级别的分类的开始、SEP:separator 告知系统结束本句或分割下一句)
一句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,然后再通过 Embedding 的方式转化为向量
Token 是最小单位的“词元”,或者说单词的“片段”,就是不可再拆分的最小语义单位,比如 “waterfall”,会被拆成2个 token:water、fall。
另外,标点符号也会被分解为 token,因为标点符号也影响了对全文的语义理解。比如“I don‘t know.”可以分解为5个Token,他们是:“ I ”、“don”、“ ‘t” 、“know”、“.”。
在 RA/SD 中默认的提示词输入最大量为不超过75个,这里的75指的就是Token 数,而不是75个单词。
所以,经常会发生你输入的单词数字没有到达75个时,Token 就已经超过75个了。
因为标点符号、复合词等等都会被解读为 Token(当然,现在无需担心在界面的提示词输入框中输入超过75个 Token 的问题,因为它可以通过分段输入的方式来进行了,但是75个 token 这一个概念大家应该明白)。
为什么要用这些提示词呢?
因为这些作为关键字,或者参考量,给到大模型去理解你要的是什么内容,才能生成更精确的AI内容给到你。因此在后续的所有课程中,你都会遇到关键字,提示词这些名字。
一大堆提示词,或一句话最终都被拆解为哪些 token 呢?
大家可以通过 AUTOMATIC1111 提供的 RA/SD 扩展插件 tokenizer 来查看,建议安装。(https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer),
这个扩展插件可以直接在 Extensions 标签下搜索安装。
RA/SD下的插件体系可以认为大幅提升了AIGC的能力,几乎是几百倍的提升。
那么如何安装插件呢?我们在下一课中教大家。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/49