redis就是用c语言写，但redis的string并没有直接用c语言的string，而是自己搞了一个 SDS 结构体来表示字符串。

SDS 的全称是 Simple Dynamic String，中文叫做“简单动态字符串”。

想知道为什么这么做，我们先看看c语言的string是什么样的。

C语言的string

本质：是 char 类型的一维数组。

结尾：必须以 \0 结束，表示字符串终止。

长度判断：靠遍历字符直到 \0 来判断长度。

c语言的string存在着以下缺点，并且也是redis不使用其的原因：

判断长度时不方便：
- 通过遍历到末尾的空格进行判断，复杂度为O（n）
扩容时不方便：
- 因为没有预分配的内存，所以每次追加数据时就得重新申请一块内存空间，十分消耗资源。并且在C语言中需要程序员手动分配内存进行扩容，若操作不当可能发生内存溢出。
特殊数据无法处理（二进制安全）：
- 因为末尾时以结束符结尾，那么我实际要存储的数据如果末尾也是结束符，两个空格末尾就会发生冲突。而二进制数据中会很经常出现结束符，所以叫作二进制安全。

这些缺点不符合redis的高性能，为了避免这些缺点，redis自己搞了一个 SDS 结构体来表示字符串。

redis中的string

当你 set abc abcdefg 时，这个 set 命令会创建出两个 sds，一个存 key：abc，一个存 value：abcdefg。

key 和 value 在 redisDb 的 dict 中通过键值对哈希表进行映射。

sds结构如下：

struct attribute ((packed)) sdshdr8 {uint8_t len;        // 字符串长度,不包含结束标示uint8_t alloc;      // 分配空间unsigned char flags; // SDS类型char buf[];         // 字符数组（实际数据）
};

len字段的作用：

维护buf[]数组的长度，用于快速O(1)获取字符串的长度（因为字符串内容实际上存储在数组里，字符串长度等价于数组长度）。

若没有len字段维护的长度，当我们每次要获取字符串长度时，都需要从头到尾遍历得到O(n)。

alloc字段的作用：

alloc 表示预分配的内存，也就是为了容纳新增元素而预留的空间。

想象一下，若没有预分配的内存，每次新增元素时，数组会因为空间不足，去重新申请一块内存空间，十分消耗资源。

有了预分配内存后，若当前剩余的预分配内存足够容纳新增元素时，我们就不需要再去分配内存空间，这样可以大幅度减少内存分配次数，提高性能。

flags字段的作用：

表示 type(4位) 和 encoding(4位) 两个字段，加起来 8 位，用位域实现。

其中 type 表示对象的逻辑类型，例如 string、list、set 等。这里的 type 是 string；encoding 表示对象的底层编码方式，比如 int、embstr、raw 等。

buf[]字段的作用：

用于存储字符串实际内容。

扩容策略

当你要“写入数据”导致 len + 新增数据长度 > alloc 时，就会触发扩容机制。

惰性空间释放

当sds的字符串缩短了，sds的buf内会多出来一些空间，这个空间并不会马上被回收，而是暂时留着以防再用的时候进行多余的内存分配。这个是惰性空间释放的策略

SDS的优势：

优化获取字符串长度：

C语言要想获取字符串长度必须遍历整个字符串的每一个字符，然后自增做累加，时间复杂度为O(n)；sds直接维护了一个len变量，时间复杂度为O(1)。

减少内存分配：

当我们对一个字符串类型进行追加的时候，可能会发生两种情况：

当前剩余空间(剩余空间 = alloc - len)足够容纳追加内容时，我们就不需要再去分配内存空间，这样可以减少内存分配次数。
当前剩余空间不足以容纳追加内容，我们需要重新为其申请内存空间。

惰性释放空间

当你对一个 Redis 字符串执行缩短操作（比如删掉部分字符）时，Redis 只更新 len 字段，而不会立刻缩小 alloc 所占的内存，多余的空间会被保留，等待将来复用，这样就避免了频繁的内存申请。

（如果你依旧想释放多余空间，Redis 提供了手动释放函数供调用。）

上面的SDS只是字符串类型中存储字符串内容的结构，Redis中的字符串分为两种存储方式，分别是embstr和raw。

String的三种编码格式（encoding）

String 在 Redis 中有三种编码方式： int、embstr、raw 。

其中 raw 和 embstr 类型，都是基于动态字符串（SDS）实现的。

embstr

果存储在 SDS 中的数据小于等于 44 字节，则会采用 EMBSTR 编码，此时 RedisObject 与 SDS 是一段连续空间。而不是像 RAW 的编码方式一样，由 ptr 指向另外一片空间，申请内存时只需要调用一次内存分配函数，效率更高。

raw

raw 是 string 的基本编码方式，基于简单动态字符串（SDS）实现，存储上限为512mb。当一个字符串采用 raw 的编码方式的时候，它的结构如图所示。

embstr的存储方式是将RedisObject对象头和SDS结构放在内存中连续的空间位置，也就是使用malloc方法一次分配，而raw需要两次malloc，分别分配对象头和SDS的空间。释放空间也一样，embstr释放一次，raw释放两次，所以embstr是一种优化，

（malloc函数用于申请内存空间）

int

如果存储的字符串是整数值，并且大小在 LONG MAX 范围内，则会采用 INT 编码。将字符串内容转为 long，redisObject的对象 ptr 指向该long，并将 encoding 设置为 int，这样就不需要重新开辟空间，算是长整形的一个优化。直接将数据保存在 RedisObject 的 ptr 指针位置（刚好8字节)，不再需要SDS了。