1-3 Token 词元/关键字/提示词

前言:

上一章,我们简单的运行了RA软件,同时直接简单的使用了下最简单的文生图功能。

本章,我们开始逐步了解具体的细节内容。关键字/或者说提示词/ Token词元,基本上指向同一个内容。

Token这个单词有点技术性,我们可以理解为AI技术中的一个关键名词定义。针对它的使用完全影响到了最终的AI计算结果。所以非常有必要深度了解和学习下

知识点:

  1. Token词元 
  2. 提示词 / 关键字
  3. 准备使用插件

Token 词元

在机器学习领域、NLP领域、文生图等领域,机器读懂词汇和语句是通过 Token 来进行的。

尽管在许多领域中都有“Token”这个字符被使用,在不同领域被翻译成代币、象征、标志、表示、信物、标记等等意思。但是在人工智能 AIGC 领域,通常是指“词元”,它是语言类模型中用数字来表示单词的最小语义单位。

在提示词文本发送给神经网络之前,Tokenizer 将组合词、句子、段落、文章这类型的长文本分解为最小单位的 Token 词元,然后再通过 Embedding 的方式把 token 转化为向量表示的数据结构,最后输入给神经网络。

比如图中这句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,其中[CLS][SEP]为一句话的起始与结束符号,然后再通过 Embedding 的方式转化为向量。

(CLS:classification 告知系统这是句子级别的分类的开始、SEP:separator 告知系统结束本句或分割下一句)

1-3 Token 词元/关键字/提示词

一句话“This is a input text.” 首先被 Tokenizer 转化成最小词元,然后再通过 Embedding 的方式转化为向量

Token 是最小单位的“词元”,或者说单词的“片段”,就是不可再拆分的最小语义单位,比如 “waterfall”,会被拆成2个 token:water、fall。

另外,标点符号也会被分解为 token,因为标点符号也影响了对全文的语义理解。比如“I don‘t know.”可以分解为5个Token,他们是:“ I ”、“don”、“ ‘t” 、“know”、“.”。

在 RA/SD 中默认的提示词输入最大量为不超过75个,这里的75指的就是Token 数,而不是75个单词。

所以,经常会发生你输入的单词数字没有到达75个时,Token 就已经超过75个了。

因为标点符号、复合词等等都会被解读为 Token(当然,现在无需担心在界面的提示词输入框中输入超过75个 Token 的问题,因为它可以通过分段输入的方式来进行了,但是75个 token 这一个概念大家应该明白)。

1-3 Token 词元/关键字/提示词

为什么要用这些提示词呢?

因为这些作为关键字,或者参考量,给到大模型去理解你要的是什么内容,才能生成更精确的AI内容给到你。因此在后续的所有课程中,你都会遇到关键字,提示词这些名字。

一大堆提示词,或一句话最终都被拆解为哪些 token 呢?

大家可以通过 AUTOMATIC1111 提供的 RA/SD 扩展插件 tokenizer 来查看,建议安装。(https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer),

这个扩展插件可以直接在 Extensions 标签下搜索安装。

RA/SD下的插件体系可以认为大幅提升了AIGC的能力,几乎是几百倍的提升。

那么如何安装插件呢?我们在下一课中教大家。

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/49

Like (0)
Previous 2024-05-03 7:37 下午
Next 2024-05-03 8:47 下午

相关推荐

发表回复

Please Login to Comment
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn