亲自上阵!C++大佬深度“剧透”:C++26将如何在代码生成上对抗Rust?

C语言与CPP编程 2024-10-31 09:02

点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号

干货福利,第一时间送达!

最近有小伙伴说没有收到当天的文章推送,这是因为微信更改了推送机制,导致没有星标公众号的小伙伴刷不到当天推送的文章,无法接收到一些比较实用的知识和资讯。所以建议大家加个星标⭐️,以后就能第一时间收到推送了。

【编者按】随着编程语言的不断发展,Rust 和即将推出的 C++26 在代码生成领域的对比越来越受到开发者和研究者的关注。本文作者身为 C++ 标准委员会成员,将重点讨论 Rust 的过程宏并分析其工作原理,并基于此展示其是如何为 C++26 提出截然不同的解决方案的。

原文链接:https://brevzin.github.io/c++/2024/09/30/annotations/


我很喜欢做的一件事,就是比较不同编程语言如何解决相同的问题,尤其是当这些语言采取了截然不同的方法时,我觉得这非常具有教育意义。在这篇文章中,我们将尝试把反射(reflection)这一颠覆性的语言特性引入到 C++26 标准中。从根本上来讲,反射可以分为两大部分:

1、自省(Introspection):在编译期间,能够对程序进行查询的能力。

2、代码生成(Code Generation):让程序自动生成新代码的能力。

针对 C++26 的 P2996 提案是一个处理自省问题的核心提案,它为未来扩展反射功能奠定了基础,涵盖多个方向的延展功能(例如 P3294 的代码生成设计)。然而,虽然自省功能本身非常有用,但它只解决了一半的问题——知名 C++ 技术专家 Andrei Alexandrescu 甚至在 CppCon 大会上宣称,如果没有代码生成,自省几乎是“无用的”。

目前,C++ 确实有一种代码生成功能:C 宏(C Macros)。不过,这种机制非常原始,且存在许多局限。首先,C 宏缺乏严格的语法规则,甚至可能在不知情的情况下调用宏(标准库实现对此有保护措施)。其次,实现一些简单的逻辑(如迭代或条件判断)往往需要相当复杂的技巧。然而,尽管存在这些问题,在某些场景下,C 宏仍然是最好的解决方案——这也反映了我们迫切需要更完善的代码生成机制。

另一方面,Rust 虽然没有任何自省功能,但它拥有成熟的代码生成机制,特别是其声明式和过程宏。因此本文将重点讨论 Rust 的过程宏,尤其是派生宏(derive macro)。我们将通过两个示例展示派生宏如何解决问题,分析其工作原理,以及我们如何为 C++26 提出截然不同的解决方案。

不过,我不是专业 Rust 程序员,因此如果我在文中犯了错误,还请大家指正。更新一下,在发布这篇博客后,有人指出我在一些地方犯了错误,我已经进行了更正。这些错误包括:我曾提到 Rust 属性无法接受任意值(其实它是可以的,只是旧版本选择不这么做),以及有比我提到的更好的方式来解析属性(实际上大多数人都采用类似做法)。


1、结构体的美化打印(Pretty-Printing)

当你学会如何声明一个带有新成员的类型后,很可能会想让这个类型进行调试打印(debug-printable)。不仅是因为调试打印在日常开发中非常有用,还因为在 Rust 中实现这一功能非常简单:

#[derive(Debug)]struct Point {    x: i32,    y: i32,}
fn main() { let p = Point { x: 1, y: 2 }; // prints: p=Point { x: 1, y: 2 } println!("p={p:?}");}

代码的第一行通过 #[derive(Debug)] 让 Point 结构体支持调试打印。它的作用是自动生成代码,使得可以打印类型名称以及所有成员的名称和值,并按顺序输出。

在我手头的《Rust 编程语言》书中,第 82 页就展示了如何声明一个 struct,第 89 页则展示了如何让它支持调试打印,这几乎是 Rust 学习过程中最早会遇到的功能之一。对于这个任务,Rust 还提供了另一个简便的方式:dbg!(p),不过这里我使用 println! 是为了更贴近未来在 C++ 中实现类似功能的方式。

由于这是编译时的注解(annotation),如果以后我为 Point 结构体添加了一个新字段(比如我决定将其扩展为三维结构体,添加一个 z 字段),调试打印的输出也会自动更新,以打印新字段的值。

总结来说就是:非常简单!

你可能会问,这究竟是如何实现的?是什么使得宏和 Debug 特性(trait)能够实现这种交互?正如我之前提到的,不同于我们为 C++26 提出的方案,Rust 没有任何形式的自省(introspection)功能,也没有机制可以查询结构体的成员并对其进行迭代。

相反,Rust 的 derive 宏采用了非常不同的方式:它是一个函数,接收被注解结构体的 Token 流作为输入,生成相应的 Token 流代码并注入到代码中。实际上,这些注入的代码并不一定与输入直接相关。

在这种情况下,我们通过获取 Point 结构体的 Token 流输入,解析它,并使用解析结果生成我们需要的输出,从而绕过了缺乏自省的问题。我想这也算是一种“自省”——只不过它只能在特定情况下明确选择使用。

在上面的例子中,derive 宏生成了如下代码(我使用 cargo expand 得到的结果):

#[automatically_derived]impl ::core::fmt::Debug for Point {    #[inline]    fn fmt(&self, f: &mut ::core::fmt::Formatter) -> ::core::fmt::Result {        ::core::fmt::Formatter::debug_struct_field2_finish(            f,            "Point",            "x",            &self.x,            "y",            &&self.y,        )    }}

这个代码看起来并不复杂,但关键在于 Rust 程序员无需手动编写这些模板代码。他们只需要学习如何写一行代码(实际上,连一整行都不需要):#[derive(Debug)]。这就是代码生成的强大之处。

即便如此,这个结果也很有趣。为什么对 self.x 使用 &self.x,而对 self.y 使用 &&self.y 呢?这与 Rust 无法进行自省功能有关。在 Rust 中,最后一个字段可以是不定长类型(unsized type)。不定长类型可以被打印,但是需要一个额外的间接层。derive 宏无法知道 y 是否是定长的(在这个例子中它是 i32,所以是定长的),所以为了支持两种情况,宏预先添加了这个额外的间接层。

在 C++ 中,如果想要提出的方案尽量贴近 Rust 的语法,可以这样实现:

struct [[=derive]] Point {    int x;    int y;};
int main() { auto p = Point{.x=1, .y=2}; // prints p=Point{.x=1, .y=2} std::println("p={}", p);}

从本质上讲,C++ 和 Rust 的格式化机制有一些相似之处在 Rust 中,你必须为 Debug trait 提供一个 impl。而在 C++ 中,你需要特化 std::formatter(我们不区分 Debug 和 Display)。正如我之前展示的,Rust 的宏调用会为类型注入正确的 impl Debug 代码,而在 C++ 中,我们并没有这样做。

我在这里使用的特性叫做“注解”(annotation),这个功能将在 P3394 提案中提出,首次由 Daveed Vandevoorde 在 CppCon 的闭幕演讲中披露。这个提案的目标是让你能够以一种自省可以观察到的方式标注声明。值得注意的是,这里并没有发生任何代码注入,我们只是稍微扩展了一下自省功能。

然而,鉴于 C++ 本身具备自省功能(或者将随着 P2996 的提出而获得),这已经足够完成我们的目标。我们可以提前提供一个特化的 std::formatter,该特化会在类型带有 derive 注解时启用,而这个注解本质上只是一个空值:

template <auto V> struct Derive { };template <auto V> inline constexpr Derive derive;
inline constexpr struct{} Debug;
template <class T> requires (has_annotation(^^T, derive))struct std::formatter { // ...};

一旦我们有了这个基础,特化的实现就可以对类型 T 进行自省,获取我们需要的所有信息,以便展示:我们可以迭代所有非静态的数据成员,格式化它们的名称和值。一个简化的实现如下:

template <class T> requires (has_annotation(^^T, derive))struct std::formatter {    constexpr auto parse(auto& ctx) { return ctx.begin(); }
auto format(T const& m, auto& ctx) const { auto out = std::format_to(ctx.out(), "{}", display_string_of(^^T)); *out++ = '{';
bool first = true; [:expand(nonstatic_data_members_of(^^T)):] >> [&]<auto nsdm>{ if (not first) { *out++ = ','; *out++ = ' '; } first = false;
out = std::format_to(out, ".{}={}", identifier_of(nsdm), m.[:nsdm:]); };
*out++ = '}'; return out; }};

某种意义上来说,我们仍然是在生成代码——模板实际上就是 C++ 中的一种代码生成形式。但有趣的是,在这里我们通过非常不同的机制实现了相同的目标。

请注意,这就是完整的实现代码,可以看到代码量其实并不多。


2、JSON 序列化

在之前讨论的调试打印示例中,我们只是简单地按顺序打印所有成员。那么如果我们想做些更复杂的操作呢?在处理序列化时,有时字段的名称可能需要与原始的成员名不同。还有些情况,目标格式在编程语言中根本无法直接表达——比如字段名可能是语言中的关键字,或者字段名包含空格等等。

因此,Rust 的 serde 库提供了许多注解属性,可以添加到类型和成员上,以控制序列化逻辑。下面是一个简单的例子:

use serde::Serialize;use serde_json;
#[derive(Serialize)]struct Person { #[serde(rename = "first name")] first: String,
#[serde(rename = "last name")] last: String,}
fn main() { let person = Person { first: "Peter".to_owned(), last: "Dimov".to_owned(), }; let j = serde_json::to_string(&person).unwrap();
// prints {"first name":"Peter","last name":"Dimov"} println!("{}", j);}

类似于 Debug 特性,Serialize 的派生宏会为我们注入一个实现,其生成的代码如下:

#[doc(hidden)]#[allow(non_upper_case_globals, unused_attributes, unused_qualifications)]const _: () = {    #[allow(unused_extern_crates, clippy::useless_attribute)]    extern crate serde as _serde;    #[automatically_derived]    impl _serde::Serialize for Person {        fn serialize<__S>(            &self,            __serializer: __S,        ) -> _serde::__private::Result<__S::Ok, __S::Error>        where            __S: _serde::Serializer,        {            let mut __serde_state = _serde::Serializer::serialize_struct(                __serializer,                "Person",                false as usize + 1 + 1,            )?;            _serde::ser::SerializeStruct::serialize_field(                &mut __serde_state,                "first name",                &self.first,            )?;            _serde::ser::SerializeStruct::serialize_field(                &mut __serde_state,                "last name",                &self.last,            )?;            _serde::ser::SerializeStruct::end(__serde_state)        }    }};

在这里,你可以看到想要序列化的字段名(如 "first name" 和 "last name")与实际的成员绑定在一起。需要注意的是,false as usize + 1 + 1 是用来表示要序列化的字段数量的构造,这里的 2 显然是字段的数量。

如果我们要添加一个中间名,并且只有当它非空时才进行序列化,可以使用 skip_serializing_if 属性:

#[derive(Serialize)]struct Person {    #[serde(rename = "first name")]    first: String,
#[serde(rename = "middle name", skip_serializing_if = "String::is_empty")] middle: String,
#[serde(rename = "last name")] last: String,}

生成的代码如下,具体新增部分为第 18-19 行、第 26-37 行:

#[doc(hidden)]#[allow(non_upper_case_globals, unused_attributes, unused_qualifications)]const _: () = {    #[allow(unused_extern_crates, clippy::useless_attribute)]    extern crate serde as _serde;    #[automatically_derived]    impl _serde::Serialize for Person {        fn serialize<__S>(            &self,            __serializer: __S,        ) -> _serde::__private::Result<__S::Ok, __S::Error>        where            __S: _serde::Serializer,        {            let mut __serde_state = _serde::Serializer::serialize_struct(                __serializer,                "Person",                false as usize + 1 + if String::is_empty(&self.middle) { 0 } else { 1 }                    + 1,            )?;            _serde::ser::SerializeStruct::serialize_field(                &mut __serde_state,                "first name",                &self.first,            )?;            if !String::is_empty(&self.middle) {                _serde::ser::SerializeStruct::serialize_field(                    &mut __serde_state,                    "middle name",                    &self.middle,                )?;            } else {                _serde::ser::SerializeStruct::skip_field(                    &mut __serde_state,                    "middle name",                )?;            }            _serde::ser::SerializeStruct::serialize_field(                &mut __serde_state,                "last name",                &self.last,            )?;            _serde::ser::SerializeStruct::end(__serde_state)        }    }};

但在 C+中,我们并没有像 serde 这样的库,它可以分离序列化的字段名和成员变量的名称,至少我目前不知道有这样的库。C++ 中,通常是 JSON 库处理 JSON 序列化,TOML 库处理 TOML 序列化等。也许这是因为 C++ 缺乏像 Rust 那样的语言支持,所以无法轻松实现这种序列化机制?

老实说,虽然在格式化方面 Rust 和 C++ 的实现有些相似,但在序列化的灵活性上 Rust 确实更具优势。尽管 C++ 中没有完全类似 serde 的库,但我们也可以使用类似 Boost.JSON 这样的库来实现序列化。

我们从支持 derive 和 rename 开始,这是为了让代码能够正常工作的全部需求:

struct [[=derive]] Point {    int x, y;};
struct [[=derive]] Person { [[=serde::rename("first name")]] std::string first; [[=serde::rename("last name")]] std::string last;};
int main() { // prints {"x":1,"y":2} std::cout << boost::json::value_from(Point{.x=1, .y=2}) << '\n'; // prints {"first name":"Peter","last name":"Dimov"} std::cout << boost::json::value_from(Person{.first="Peter", .last="Dimov"}) << '\n';}

整段代码只有 21 行,如果我保持与之前相同的模板形式,那么基本通过 derive 可以实现:

namespace serde {    inline constexpr struct{} Serialize{};    struct rename { char const* field; };}
namespace boost::json { template <class T> requires (has_annotation(^^T, derive)) void tag_invoke(value_from_tag const&, value& v, T const& t) { auto& obj = v.emplace_object(); [:expand(nonstatic_data_members_of(^^T)):] >> [&]<auto M>{ constexpr auto field = annotation_of(M) .transform([](serde::rename r){ return std::string_view(r.field); }) .value_or(identifier_of(M));
obj[field] = boost::json::value_from(t.[:M:]); }; }}

这段代码应该看起来很熟悉,因为它基本上也是在做格式化工作,只不过这里我们是将成员添加到一个 JSON 对象中,而不是打印一堆键值对。然后,我们没有自动使用非静态数据成员的标识符,而是先尝试检查是否有 rename 注解。annotation_of() 为我们提供了一个 optional,因此我们要么获取 rename 注解的字段名(及其底层字符串),要么回退到 identifier_of(M)。

在这里添加 skip_serializing_if 的支持并不需要太多额外的工作,这也很好地展示了 C++ 和 Rust 处理方式之间的区别。在 Rust 中,你提供一个字符串,它会被注入并在内部调用;而在 C++ 中,我们通常会直接提供一个可调用对象。

起初我以为这是因为 Rust 的属性语法不支持在这里使用可调用对象,但实际上似乎是因为 serde 在支持这一点之前就已经存在了。

我们需要为此添加一个新的注解类型:

namespace serde {      inline constexpr struct{} Serialize{};      struct rename { char const* field; };      template <class F> struct skip_serializing_if { F pred; };  }

然后稍微麻烦一点的部分是对它的解析,我们需要提取出某个 serde::skip_serializing_if 的特化类型注解。如果找到了,就尝试调用其 pred 成员函数,若该函数返回 true,就跳过该字段的序列化。

搜索过程如下所示(注意,我们需要使用 constexpr,因为需要拼接它以进行调用)。我确信这个部分可以通过更好的库 API 稍作清理(至少可以用一个 std::optional 来改进):

constexpr auto skip_if = []() -> std::meta::info {    auto res = std::meta::info();    for (auto A : annotations_of(M)) {        auto type = type_of(A);        if (has_template_arguments(type)            and template_of(type) == ^^serde::skip_serializing_if) {            // found a specialization            // but check to make sure we haven't found two            // different ones.            if (res != std::meta::info() and res != value_of(A)) {                throw "unexpected duplicate";            }
res = value_of(A); } }
return res;}();

然后,如果我们有这样的注解,就调用它来确定是否需要跳过这个成员。这里需要用 if constexpr 语句,因为如果 skip_if 是空反射,我们无法对其进行拼接。除此之外,整体逻辑非常简单:如果有这样的注解,就调用它,如果返回 false,则跳过这个成员:

if constexpr (skip_if != std::meta::info()) {    if (std::invoke([:skip_if:].pred, t.[:M:])) {        return;    }}

现在这段代码已经膨胀到了 51 行(新增部分为第 7 行、第 22-46 行):

template <auto V> struct Derive { };template <auto V> inline constexpr Derive derive;
namespace serde { inline constexpr struct{} Serialize{}; struct rename { char const* field; }; template <class F> struct skip_serializing_if { F pred; };}
namespace boost::json { template <class T> requires (has_annotation(^^T, derive)) void tag_invoke(value_from_tag const&, value& v, T const& t) { auto& obj = v.emplace_object(); [:expand(nonstatic_data_members_of(^^T)):] >> [&]<auto M>{ constexpr auto field = annotation_of(M) .transform([](serde::rename r){ return std::string_view(r.field); }) .value_or(identifier_of(M));
constexpr auto skip_if = []() -> std::meta::info { auto res = std::meta::info(); for (auto A : annotations_of(M)) { auto type = type_of(A); if (has_template_arguments(type) and template_of(type) == ^^serde::skip_serializing_if) { // found a specialization // but check to make sure we haven't found // two different ones. if (res != std::meta::info() and res != value_of(A)) { throw "unexpected duplicate"; }
res = value_of(A); } }
return res; }();
if constexpr (skip_if != std::meta::info()) { if (std::invoke([:skip_if:].pred, t.[:M:])) { return; } }
obj[field] = boost::json::value_from(t.[:M:]); }; }}

此时,我想到了解决此问题的另一种有趣方法。只有两个属性的时候这样做可能没有必要,但如果我打算实现 serde 的全部功能,有一个不单独处理每个属性解析的策略可能会更加合理。那么,如果我们将所有属性收集到一个类类型中,再使用这个类类型会怎样呢?

让我们看看这会是什么样子。

首先,我们创建一个新的类类型——attributes。我们将编程定义它,给它一个每个属性都对应的成员,此时难点在于成员的类型。对于像 serde::rename 这样的属性,我们应该使用 optional。但对于 skip_serializing_if 呢?我们还不知道该使用什么类型,所以这里先用 optional 来进行类型擦除。也就是说,我们希望生成这样的类型:

struct attributes {    optional rename;    optional skip_serializing_if;};

这段代码使用了 std::meta::define_class(),这是 P2996 中唯一一个用于代码生成的 API。它功能不多,但对当前需求来说足够用了。注意,由于我们遍历了命名空间 serde 中的所有成员,需要确保排除 attributes——它当然也在这个命名空间中:

struct attributes;consteval {    std::vector<std::meta::info> specs;    for (auto m : members_of(^^serde)) {        if (m == ^^attributes or not has_identifier(m)) {            continue;        }
auto underlying = is_type(m) ? m : ^^std::meta::info; specs.push_back(data_member_spec( substitute(^^std::optional, {underlying}), {.name=identifier_of(m)})); }
define_class(^^attributes, specs);};

然后我们可以编写一个解析函数,将非静态数据成员的属性写入 attributes 实例中。这里最麻烦的部分就是找到写入 attributes 哪个非静态数据成员。我们暂时跳过这部分逻辑,直接进入如何利用这些工作成果:

namespace boost::json {    template <class T>        requires (has_annotation(^^T, derive))    void tag_invoke(value_from_tag const&, value& v, T const& t) {        auto& obj = v.emplace_object();        [:expand(nonstatic_data_members_of(^^T)):] >> [&]{            constexpr auto attrs = serde::parse_attrs_from();
constexpr auto field = attrs.rename .transform([](serde::rename r){ return std::string_view(r.field); }) .value_or(identifier_of(M));
if constexpr (attrs.skip_serializing_if) { if (std::invoke( [:*attrs.skip_serializing_if:].pred, t.[:M:])) { return; } }
obj[field] = boost::json::value_from(t.[:M:]); }; }}

当然,我们将最复杂的逻辑(解析注解)移到了一个函数中,而这个函数我没有包含在上面的代码块中。如我所说,对于只有两个属性的情况,这样做可能有点大材小用。不过,这种方法意味着添加一个新属性只需在命名空间 serde 中声明一个新类或类模板,然后在实现中使用它即可。


3、Rust 属性 vs. C++ 注解

在对比 C++ 和 Rust 中的 serde 解决方案时,有两个方面引起了我的注意:语法和库的设计。

语法

首先从语法差异来看,使用时的体验是我最先关注的点。以下是我在 Rust 中的声明:

#[derive(Serialize)]struct Person {    #[serde(rename = "first name")]    first: String,
#[serde(rename = "middle name", skip_serializing_if = "String::is_empty")] middle: String,
#[serde(rename = "last name")] last: String,}

而这是我在 C++ 中的声明:

struct [[=derive]] Person {    [[=serde::rename("first name")]]    std::string first;
[[=serde::rename("middle name")]] [[=serde::skip_serializing_if(&std::string::empty)]] std::string middle = "";
[[=serde::rename("last name")]] std::string last;};

可以看到,C++ 的注解语法显得更为复杂和冗长,而这大多是由于语法本身的问题。相较之下 Rust 的注解较为简洁,因为它们遵循不同于语言其余部分的语法规则 —— 比如 serde(rename = "first name") 在 Rust 中是无效的,这里也没有调用名为 serde 的函数。

这种差异带来的好处是,Rust 中的注解使用起来更加清晰自然,因为它真的就像是给选项赋值一样。例如,类似于 serde(rename = "first name") 这样的用法更像是传递配置参数,而不是在调用函数。这为使用者提供了灵活性,比如可以像这样使用属性:#[arg(short)] 或 #[arg(short = 'k')],前者使用了默认值,而后者显式指定了 'k'。

看到这里,你可能会有一种冲动,想要重用(非常特殊且具体的)属性语法,并允许在 C++ 中使用 using 关键字。但实际上,这样做并不会节省太多的输入:

struct [[=derive]] Person {    // old version: 83 chars    [[=serde::rename("middle name"), =serde::skip_serializing_if(&std::string::empty)]]    std::string middle = "";
// new version: 82 chars [[using serde: =rename("middle name"), =skip_serializing_if(&std::string::empty)]] std::string middle = "";};

相比之下,Rust 版本只有 74 个字符。虽然长度上的差异并不大,但至少它少于 80 个。

另一方面,要关注 Rust 为实现这一点付出了什么代价。在 C++ 注解设计中,注解本质上就是值。你需要学习的新语法很少,还可以很清楚地看到这里发生了什么。注解的内容并不是由库定义含义的咒语,而是实际的 C++ 值。如果你不知道 serde::skip_serializing_if 是什么意思,可以直接查看它的定义。

你可能会注意到,在讨论这些示例实现时,我没有提到如何从注解中解析出值——这是因为实际上我不需要做任何解析,编译器为我完成了这项工作!我唯一需要做的,就是从注解列表中提取我关心的注解,这并不涉及实际的解析过程。而 Rust 库则必须真正解析这些 Token 流,对于 serde 来说,这意味着接近 2000 行代码。

另一个有趣的事情是,尽管 Rust 和 C++ 最终以不同的方式实现了相似的功能,但它们并不完全相同。在 Rust 中,#[derive(Debug)] 会为类型注入适当的 impl Debug。而在 C++ 的注解方法中,我们并没有注入适当的 formatter 特化,只是添加了一个全局约束的版本。

这意味着,如果不做进一步处理,仅仅做一个小小的改动就可能导致歧义:

struct [[=derive]] Point {    int x;    int y;
// let's just make this a range for seemingly no reason auto begin() -> int*; auto end() -> int*;};
int main() { auto p = Point{.x=1, .y=2}; std::println("p={}", p); // error: ambiguous}

嗯,我需要做两个小小的改动。我原本的特化定义如下:

template <class T> requires (has_annotation(^^T, derive))struct std::formatter { /* ... */ };

但如果我将其改为:

template <class T, class Char> requires (has_annotation(^^T, derive))struct std::formatter { /* ... */ };

那么它就可能与 C++23 新增的用于范围的 std::formatter 特化产生歧义。为了解决这个问题,可以禁用一个额外的变量模板(在链接中会被预处理掉):

template <class T> requires (has_annotation(^^T, derive))inline constexpr auto std::format_kind = std::range_format::disabled;

这似乎有点令人意外——因为从概念上讲,C++ 的方法与 Rust 的方法是相同的,添加注解会注入一个非常特定且明确的特化,这不可能与其他内容产生歧义——但事实并非如此。因此,这种部分特化的歧义肯定会成为一个问题。或许在未来,我们可以想出一种方法,使诸如 [[=derive]] 这样的注解能够真正注入一个特化来避免这个问题。

库设计

在 Rust 的 serde 库中,序列化是一个两阶段的过程。首先,类型作者选择参与序列化,这会生成一个类似于该类型即时表示的实现。然后,不同协议的作者可以有效地实现不同的后端。

例如在 Person 类型的 serde 实现中,Rust 会生成一个 Serialize 实现,该实现接受满足 serde::Serializer 的任意类型。然后我们对这个 serializer 进行一系列的序列化调用,这些调用会根据协议需求(比如 JSON、CBOR、YAML、TOML 等)执行相应的操作。

如果我们将这种实现方式转换为 C++,看起来可能会像这样(为避免陷入不相关的错误处理细节,这里假设这些函数在出现错误时抛出异常,而不是像 Rust 中那样返回 Result):

template auto serialize(Person const& p, S& serializer) -> void {    auto state = serializer.serialize_struct(        "Person",        2 + (p.middle.empty() ? 0 : 1));    state.serialize_field("first name", p.first);    if (not p.middle.empty()) {        state.serialize_field("middle name", p.middle);    } else {        state.skip_field("middle name", p.middle);    }    state.serialize_field("last name", p.last);    state.end();}

这种设计允许解耦,非常不错。然而你可能注意到了,我之前展示的 C++ 实现根本没有这样做。并不是因为我懒,而是因为在有自省(introspection)的情况下,这样的操作完全没有必要。在 C++ 中,我们不需要生成这种中间表示,Boost.JSON 实现可直接从数据成员完成所有的序列化工作。

这不仅仅是代码量减少的问题,更重要的是根本不需要处理额外的抽象层。这个抽象层虽然不会消耗太多计算资源,也很容易被编译优化掉,但它本身就是不必要的。

接下来再考虑 skip_field 调用。对于很多序列化目标(例如 JSON),跳过某个字段的方法就是简单地不对其进行序列化。这也是为什么 skip_field 的默认实现什么都不做,serde_json 也没有覆盖这个函数。同样,考虑上面提到的字段数量计算。JSON 序列化器也不需要这样的值,因此它会忽略这个字段类型名称的值。

但在创建中间表示时,你需要创建一个足够丰富的表示来处理所有可能的序列化/反序列化目标。某些序列化目标可能需要预先知道字段数量,或者需要为跳过的字段预留位置。因此,serde 必须为此提供支持。

而在 C++ 中,我们根本不需要这样做。对于任何给定的目标,序列化器可以直接执行它所需的所有操作,因为它可以直接访问所有信息,不需要额外的抽象层。因此,C++ 版本的 serde 库可能只需要一系列可作为注解的类型、parse_attrs_from() 函数,以及几个小的辅助函数即可


4、这并不是终点

最后,我想指出几种不同语言中的一些相关特性来结束这篇文章:

  • Rust 的过程宏(procedural macros)

  • Python 的装饰器(decorators)

  • Herb Sutter 的元类(metaclasses)提案

它们都有一个共同点:编写代码,然后将代码传递给一个函数,以生成新的代码。元类和装饰器实际上会替换原始代码,而 derive 宏只会注入新代码(尽管其他过程宏也可以替换代码)。

注解提案在大体上看起来与这些特性类似,但它是一个完全不同的机制,不应与它们混淆:注解并不会注入代码,它只是增强了类型的自省能力。但这并不是说注解没用!正如我所展示的那样,注解有望成为一个非常有用的工具,可以编写出以前在 C++ 中无法想象的用户友好型库 API。

但这仅仅是一个开始。

本文转自公众号“CSDN”,ID:CSDNnews

本文经授权转自公众号CSDN(ID:CSDNnews)

作者 | Barry Revzin,C++ 标准委员会成员,翻译 | 郑丽媛


EOF

你好,我是飞宇。日常分享C/C++、计算机学习经验、工作体会,欢迎点击此处查看我以前的学习笔记&经验&分享的资源。

我组建了一些社群一起交流,群里有大牛也有小白,如果你有意可以一起进群交流。

欢迎你添加我的微信,我拉你进技术交流群。此外,我也会经常在微信上分享一些计算机学习经验以及工作体验,还有一些内推机会

加个微信,打开另一扇窗

经常遇到有读者后台私信想要一些编程学习资源,这里分享 1T 的编程电子书、C/C++开发手册、Github上182K+的架构路线图、LeetCode算法刷题笔记等精品学习资料,点击下方公众号会回复"编程"即可免费领取~

感谢你的分享,点赞,在看三  

C语言与CPP编程 C语言/C++开发,C语言/C++基础知识,C语言/C++学习路线,C语言/C++进阶,数据结构;算法;python;计算机基础等
评论
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 102浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 40浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 82浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 170浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 135浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 96浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 178浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 69浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 107浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 48浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 117浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 24浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 155浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦