程序员的噩梦:用C/C++把UTC时间转成UNIX时间戳竟然这么难?

C语言与CPP编程 2025-02-18 09:01

本文经授权转自公众号CSDN(ID:CSDNnews)

作者 | bert hubert,翻译 | 苏宓

时间处理在编程中看似平常,却隐藏着无数坑点。本文作者以 C 或 C++ 中将 UTC 时间字符串转换为 UNIX 时间戳为例,分享其中的难点以及最优解决方案

原文链接:https://berthub.eu/articles/posts/how-to-get-a-unix-epoch-from-a-utc-date-time-string/


要将「Fri, 17 Jan 2025 06:07:07」UTC 这样的时间字符串转换为 1737094027(一个从 1970-01-01 00:00:00 UTC 开始的秒数表示,虽然只是理论上的秒数,并不完全准确),看起来似乎不难。

但实际上,真正尝试完成这个操作时会发现,POSIX 时间处理函数在各种 C 库及其衍生语言中隐藏着许多让人意想不到的“特性”和不符合直觉的行为。尽管 C 和 UNIX 世界有许多优秀的设计,但时间处理显然不是其中之一。

然而,仍有一些可行性方法存在。在探讨具体方法之前,先提供一些背景知识。

快速解读(TL;DR):

1. 避免调用 setlocale():如果你从不调用 setlocale(),那么可以直接使用 strptime() 来解析 UTC 时间字符串。

2. 避免 %z 或 %Z 格式符:解析时请勿使用这两个格式符。

3. 转换为 UNIX 时间戳:将 strptime() 解析后生成的 struct tm 结构体传递给 timegm()(在 Windows 上使用 mkgmtime()),即可得到对应的 UNIX 时间戳。

4. 如果使用了 setlocale(),需要更复杂的处理:具体解决方案在下文中会有解释。

5. C++ 提供了更好的时间处理支持,这也可以从 C 中借用。


1、时间点的复杂性

即便忽略闰秒和广义相对论的影响,时间本身就足够复杂了。当我们将人类的行为和政治因素引入时间处理时,事情会变得异常棘手。

例如,在阿姆斯特丹,“2025 年 3 月 30 日 02:20”这个时间点在当地根本就不存在:

$ TZ=Europe/Amsterdam date -d '20250330 01:59:59'Sun Mar 30 01:59:59 AM CET 2025$ TZ=Europe/Amsterdam date -d '20250330 02:30:00'date: invalid date ‘20250330 02:30:00’

这点至少是明确的。由于夏令时的切换,时间会直接从 01:59:59 跳到 03:00:00。因此,工具无法解析“02:30:00”,因为在那一天的阿姆斯特丹,这个时间点根本不存在。

但对于“2024年10月27日 02:30”这个时间点,情况变得更加难以解释。因为夏令时的结束,在 02:59:59 的下一秒,时间会重新变为 02:00:00。这意味着当地会出现两个都被称为“02:00”的时间点。而我们的工具在处理这种情况时开始做出一些看似任意的选择:

$ TZ=Europe/Amsterdam date -d '20241027 01:59:59' +"%Y-%m-%d %H:%M:%S %s %z"2024-10-27 01:59:59 1729987199 +0200$ TZ=Europe/Amsterdam date -d '20241027 02:00:00' +"%Y-%m-%d %H:%M:%S %s %z"2024-10-27 02:00:00 1729990800 +0100

你看,当解析 02:00:00 时,我使用的 GNU date 工具选择了第二个出现的时间点。据我观察,这可能是因为我在一月份运行了这个命令。如果在四月份运行,它可能会选择第一个 02:00:00 实例。是不是让人有些搞不懂?


2、POSIX 的时间概念

最有用的时间表示方式,毫无疑问是用某个已知“纪元”(epoch)之后或之前的秒数来指定时间点。例如:

  • POSIX/Unix 的纪元是 1970-01-01 00:00:00 UTC

  • GPS 的纪元是 1980-01-06 00:00:00 UTC

  • Galileo(“欧盟版 GPS”)的纪元是 1999-08-21 23:59:47 UTC

  • 北斗系统的起始历元是 2006-01-01 00:00:00 UTC

GPS、Galileo 和北斗系统明智地忽略了闰秒,将这些问题留给人类去处理。

但是,我们偏爱 POSIX/Unix 的 time_t 是有充分理由的。它几乎不会有任何歧义,除了在闰秒期间——而闰秒可能再也不会出现了。

然而,人类难以理解诸如 1737214750 这样的数字。因此,我们需要将时间戳与包含月份等复杂概念的“人类友好”时间表示相互转换。为此,UNIX 提供了 struct tm,用于存储“细分时间”:

struct tm {  int  tm_sec;    /* Seconds          [0, 60] */  int  tm_min;    /* Minutes          [0, 59] */  int  tm_hour;   /* Hour             [0, 23] */  int  tm_mday;   /* Day of the month [1, 31] */  int  tm_mon;    /* Month            [0, 11]  (January = 0) */  int  tm_year;   /* Year minus 1900 */  int  tm_wday;   /* Day of the week  [0, 6]   (Sunday = 0) */  int  tm_yday;   /* Day of the year  [0, 365] (Jan/01 = 0) */  int  tm_isdst;  /* Daylight savings flag */  long tm_gmtoff; /* Seconds East of UTC */  const char *tm_zone;   /* Timezone abbreviation */};

标准规定 struct tm 至少要包含这些字段,但实现中可能还会有其他字段。

然而,现在这个结构体显然是“过度定义”的。例如,星期几(tm_wday)和每年的第几天(tm_yday)完全可以从其他字段推导出来。而 tm_gmtoff、tm_zone 和 tm_isdst 的意义定义不明确,使用时往往会造成困惑。

有趣的是,苏联的 GLONASS 卫星导航系统并没有采用纪元时间戳的方法,而是基于“莫斯科标准时间”的 struct tm,包括闰秒。这种设计据说引发了许多问题,也算是“自作自受”。

struct tm 的一个重要用途是作为 mktime() 的输入。mktime() 的部分功能是将“根据你当地时区的细分时间”转换为 UNIX 时间戳(epoch 时间戳)。然而,mktime() 的作用远不止于此!

根据 Linux 的 glibc 手册页,mktime() 的描述相当模糊。而 IEEE Std 1003.1-2024 规范则用了更多(令人泄气的)文字来解释它。

mktime() 不会处理 tm_gmtoff 或 tm_zone。其输入仅限于:tm_year、tm_mon、tm_mday、tm_hour、tm_min、tm_sec 和 tm_isdst。tm_isdst 也有特殊处理的情况,譬如 tm_isdst 可以设置为负值,表示让 mktime() 自动判断指定时间是否处于夏令时。

如上所述,时间问题其实在现实中很复杂。例如,如果想将日期调整一周,你可以简单地向 time_t 时间戳添加 604800秒。但如果这种调整跨越了夏令时边界,你的下午两点约会可能会变成下一周的下午一点或三点。这显然不是人类期望的结果。

mktime() 不仅返回一个 time_t 值,还会规范化传入的 struct tm。截至 2024 年,关于如何规范化的规则已经明确。例如,要计算“下一周的同一时间”,可以将当前时间加上 7 天(tm.tm_mday += 7),然后再次调用 mktime()。即使你构造出了一个像“3月35日”这样的日期,mktime() 也会将其修正为有效日期。

然而,当我们实际这样做时,却发现它不起作用:

struct tm tm = {.tm_hour=14, .tm_mday = 28,                .tm_mon = 2, .tm_year = 2025 - 1900,        .tm_isdst = -1};  // <- NOTE the -1
time_t t = mktime(&tm);cout << "original: "<< ctime(&t);
tm.tm_mday += 7;t = mktime(&tm);
cout << "mktime adjusted:  "<< ctime(&t);

在欧洲/阿姆斯特丹时区,这段代码输出:

original:        Fri Mar 28 14:00:00 2025mktime adjustedFri Apr  4 15:00:00 2025

为什么预约时间发生了 1 小时的偏移?问题实则出在 tm.tm_isdst 身上。

mktime() 的设计要求开发者明确指定时间是否处于夏令时状态,或者将这一决定交由 mktime() 自动判断(通过设置 tm_isdst = -1)。

在第一次调用 mktime() 时,系统检测到时间不处于夏令时,因此将 tm_isdst 设置为 0。但第二次调用时,这一状态未被清除,尽管新的目标时间实际上处于夏令时中。这导致了错误的调整结果。

所以在第二次调用 mktime() 之前,重置 tm_isdst 为 -1:

tm.tm_isdst = -1;

这样可以避免偏移问题,并正确调整预约时间。


3、解析 UTC 时间

现在,mktime() 会将你传递的时间解释为“本地时间”。这意味着在处理 UTC 时间之前,你应该将时区设置为 UTC。但如果你的应用程序中有其他线程运行,修改整个应用程序的时区可能会带来副作用。不过,如果没有其他线程,你可以这么做。

更新:有人指出,多线程程序无法修改环境变量。因此,这个方法就无效了。

有一个非标准/预标准的函数广泛可用,它可以显著改善处理 UTC 的情况。根据《IEEE Std 1003.1-2024》:

“未来版本的标准预计会新增一个 timegm() 函数,它与 mktime() 类似,但由 timeptr 指向的 tm 结构包含以协调世界时 (UTC) 表示的分解时间。”

为了解析 UTC 中的分解时间,推荐使用 timegm(),而不是修改 TZ 环境变量。在 Windows 上,timegm() 被称为 mkgmtime()。如果你使用的是 AIX(唯一不支持 timegm() 的平台),可以找到一个独立的实现版本。

总结:

1. 当对本地时间使用 mktime() 时,将 tm_isdst 设置为 -1,这通常是“人类”期望的。否则可能会在夏令时切换时返回随机的两个时间点之一(如“02:30”)。

2. 填写 struct tm 时,确保先将其他字段清零。

3. 注意,mktime() 会修改传入的 struct tm,可能产生副作用。在重用之前至少重置 tm_isdst。

4. 无论对 tm_gmtoff 或 tm_zone 做了什么,mktime() 都会使用当前时区。如果希望将 struct tm 解释为 UTC,需要设置 TZ 环境变量为 UTC,但这会影响其他线程的时间操作。

5. 更简单的做法:直接使用 timegm() 或 mkgmtime()。

但是,我们该如何将时间字符串转换为 struct tm?


4、解析时间字符串

理想情况下,我们希望能将 Fri, 17 Jan 2025 06:07:07 GMT 输入到 strptime() 中,并得到一个有效的 struct tm。

但根据 Linux glibc 的 strptime() 手册页描述,关于 %z 和 %Z 时区格式说明符的行为是含糊的:

出于对称性的考虑,glibc 尝试让 strptime() 支持与 strftime() 相同的格式字符。(在大多数情况下,相应的字段会被解析,但 tm 中的字段可能不会被更改。)

现在,我们的目标是将 UTC 时间字符串转换为 UNIX 时间戳。许多人可能希望通过 %Z 解析 GMT 后,再用 mktime() 达到目的。

但我们之前了解到,mktime() 根本不处理 tm_gmtoffset 或 tm_zone,因此即使 strptime() 能正确解析时区信息,也没有任何作用。而事实是,它也解析不对。

截至 2024 年,Open Group 的规范对 strptime() 提供了明确的说明,提到了当前实现中的各种问题与不足。例如:

  • %z 的行为没有明确规定,解析类似 +0200 的偏移量通常不会奏效。

  • %Z 的作用非常有限,仅在某些情况下有效。如果你的地区时区有 DST 标识符(例如 CEST)与常规时区(例如 CET)不同,并且 %Z 解析到了其中一个,它可能会为您正确设置 tm_isdst,但也可能不行(特别是如果你住在爱尔兰)。

一般来说,解析像 EST 这样的字符串毫无意义,因为它并无明确含义,仅在本地可能有用。

幸运的是,由于我们可以通过 gmtime() 获取 UTC 时间,完全可以忽略 %z 和 %Z,它们并不是必须的。


5、strptime 的语言环境问题

通常情况下,我们希望解析包含英文日期和月份名称的时间字符串,并希望 strptime() 能处理这些情况。然而,IEEE/Open Group 标准明确指出:

“这些转换是根据当前语言环境的 LC_TIME 类别决定的。”

糟糕。我以前并不知道,除非特别设置,C 和 C++ 程序会默认使用 “C” 语言环境,这实际上等同于美式英语。这意味着默认情况下,所有 LC_TIME 等环境变量都会被忽略。这对解析大多数以英文表示的时间字符串来说非常有用,因为数据中的时间几乎总是英文格式。

但是,如果你的 C 或 C++ 程序调用了 setlocale(),请求了非 “C” 的语言环境,那么你的程序可能会仅适用于例如荷兰语格式的时间字符串,而这种情况非常罕见。

现在你可能会考虑在调用 strptime() 之前将语言环境切换为 “C”,然后再切换回来。然而,不幸的是,setlocale() 在多线程程序中并不安全(除非在线程启动之前调用)。即使可以安全使用,也可能会干扰其他线程的输出。

因此,通常情况下,如果需要解析特定的时间字符串并使用 strptime(),请确保程序的语言环境设置为预期的值。虽然有 strftime_l() 允许指定格式化时间时的语言环境,但等价的 strptime_l() 并未正式提供。

值得一提的是,OpenBSD 的 strptime() 实现完全忽略了语言环境,只支持 “C”。

解析类似 17 Jan 2025 06:07:07 的字符串并填写一个 struct tm 其实并不困难,然后交由 mktime() 处理实际的 UNIX 时间戳计算工作。


6、使用纯 C++ 解决语言环境问题

虽然 C++  iostreams 不太受欢迎,但在处理语言环境方面比 C/POSIX 做得更好。在 C++ 中,你可以为每个 iostream 设置独立的语言环境。以下是一个可以从 C 调用的 C++ 辅助函数,用于解析任意 UTC 时间字符串:

extern "C"int utcstr2epoch(const char* timestr, const char* fmtstr, struct tm* output){  std::tm t = {}; // tm_isdst = 0, don't think about it please, this is UTC  std::istringstream ss(timestr);  ss.imbue(std::locale()); // "LANG=C", but local
ss >> std::get_time(&t, fmtstr); if (ss.fail()) return -1; // now fix up the day of week, day of year etc t.tm_isdst = 0; // no thinking! t.tm_wday = -1; if(mktime(&t) == -1 && t.tm_wday == -1) // "real error" return -1;
*output = t; return 0;}

这个函数展示了如何为 mktime() 处理错误。当你请求解析 31st December 1969 23:59 时,mktime() 会返回 -1 表示错误。此时可以使用 tm_wday 作为标志位来判断是否进行了任何处理。

还有一个基于 C 的小型演示程序,它可以解析英文 UTC 时间戳,并根据调用环境的语言环境输出结果:

$ LC_TIME="nl_NL.utf-8" ./utcparse "1 Jan 1970 00:00:00" "%d %b %Y %H:%M:%S"UTC Time: donderdag, 1 januari 1970 00:00:00, day of year 001time_t:   0


7、C++20 的极致体验

C++20 及更高版本提供了豪华的时区数据库(timezone database)。虽然并非所有编译器都支持,但幸运的是,可以使用预标准化的独立版本。有时候,我们得感谢那些愿意花费数年时间为我们提供精美代码的人,比如 Howard Hinnant。

以下是一个优雅的例子:

auto meet_nyc = make_zoned("America/New_York", date::local_days{Monday[1]/May/2016} + 9h);auto meet_lon = make_zoned("Europe/London",    meet_nyc);auto meet_syd = make_zoned("Australia/Sydney", meet_nyc);cout << "The New York meeting is " << meet_nyc << '\n';cout << "The London   meeting is " << meet_lon << '\n';cout << "The Sydney   meeting is " << meet_syd << '\n';

该代码解析了“2016 年 5 月第一个星期一上午 9 点(纽约当地时间)”,并无缝转换到其他两个时区:

The New York meeting is 2016-05-02 09:00:00 EDT The London   meeting is 2016-05-02 14:00:00 BST The Sydney   meeting is 2016-05-02 23:00:00 AEST 

更棒的是,这个库不仅支持操作系统的时区数据库,还可以直接使用 IANA tzdb,这使得你能够精确计算 1978 年的一次飞行持续时间,包括经过夏令时的变化以及闰秒。令人惊叹。

本文转自公众号“CSDN”,ID:CSDNnews

图片

推荐阅读  点击标题可跳转

1、C++训练营,来了!

2、HarmonyOS 学习资料分享(无套路免费分享)

我组建了一些社群一起交流,群里有大牛也有小白,如果你有意可以一起进群交流。

图片

欢迎你添加我的微信,我拉你进技术交流群。此外,我也会经常在微信上分享一些计算机学习经验以及工作体验,还有一些内推机会

图片

加个微信,打开另一扇窗

感谢你的分享,点赞,在看三  图片

C语言与CPP编程 C语言/C++开发,C语言/C++基础知识,C语言/C++学习路线,C语言/C++进阶,数据结构;算法;python;计算机基础等
评论 (0)
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 457浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 403浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 575浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 280浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 492浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 655浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 98浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 117浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 350浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 255浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 230浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦