Blame


1 3448adb0 2022-11-02 op /* See LICENSE file for copyright and license details. */
2 3448adb0 2022-11-02 op #include <errno.h>
3 3448adb0 2022-11-02 op #include <math.h>
4 3448adb0 2022-11-02 op #include <stdint.h>
5 3448adb0 2022-11-02 op #include <stdio.h>
6 3448adb0 2022-11-02 op #include <stdlib.h>
7 3448adb0 2022-11-02 op #include <string.h>
8 3448adb0 2022-11-02 op
9 3448adb0 2022-11-02 op #include "../grapheme.h"
10 3448adb0 2022-11-02 op #include "../gen/character-test.h"
11 3448adb0 2022-11-02 op #include "util.h"
12 3448adb0 2022-11-02 op
13 3448adb0 2022-11-02 op #include <utf8proc.h>
14 3448adb0 2022-11-02 op
15 3448adb0 2022-11-02 op #define NUM_ITERATIONS 100000
16 3448adb0 2022-11-02 op
17 3448adb0 2022-11-02 op struct utf8_benchmark_payload {
18 3448adb0 2022-11-02 op char *buf;
19 3448adb0 2022-11-02 op utf8proc_uint8_t *buf_utf8proc;
20 3448adb0 2022-11-02 op size_t buflen;
21 3448adb0 2022-11-02 op };
22 3448adb0 2022-11-02 op
23 3448adb0 2022-11-02 op void
24 3448adb0 2022-11-02 op libgrapheme(const void *payload)
25 3448adb0 2022-11-02 op {
26 3448adb0 2022-11-02 op const struct utf8_benchmark_payload *p = payload;
27 3448adb0 2022-11-02 op uint_least32_t cp;
28 3448adb0 2022-11-02 op size_t ret, off;
29 3448adb0 2022-11-02 op
30 3448adb0 2022-11-02 op for (off = 0; off < p->buflen; off += ret) {
31 3448adb0 2022-11-02 op if ((ret = grapheme_decode_utf8(p->buf + off,
32 3448adb0 2022-11-02 op p->buflen - off, &cp)) >
33 3448adb0 2022-11-02 op (p->buflen - off)) {
34 3448adb0 2022-11-02 op break;
35 3448adb0 2022-11-02 op }
36 3448adb0 2022-11-02 op (void)cp;
37 3448adb0 2022-11-02 op }
38 3448adb0 2022-11-02 op }
39 3448adb0 2022-11-02 op
40 3448adb0 2022-11-02 op void
41 3448adb0 2022-11-02 op libutf8proc(const void *payload)
42 3448adb0 2022-11-02 op {
43 3448adb0 2022-11-02 op const struct utf8_benchmark_payload *p = payload;
44 3448adb0 2022-11-02 op utf8proc_int32_t cp;
45 3448adb0 2022-11-02 op utf8proc_ssize_t ret;
46 3448adb0 2022-11-02 op size_t off;
47 3448adb0 2022-11-02 op
48 3448adb0 2022-11-02 op for (off = 0; off < p->buflen; off += (size_t)ret) {
49 3448adb0 2022-11-02 op if ((ret = utf8proc_iterate(p->buf_utf8proc + off,
50 3448adb0 2022-11-02 op (utf8proc_ssize_t)(p->buflen - off),
51 3448adb0 2022-11-02 op &cp)) < 0) {
52 3448adb0 2022-11-02 op break;
53 3448adb0 2022-11-02 op }
54 3448adb0 2022-11-02 op (void)cp;
55 3448adb0 2022-11-02 op }
56 3448adb0 2022-11-02 op }
57 3448adb0 2022-11-02 op
58 3448adb0 2022-11-02 op int
59 3448adb0 2022-11-02 op main(int argc, char *argv[])
60 3448adb0 2022-11-02 op {
61 3448adb0 2022-11-02 op struct utf8_benchmark_payload p;
62 3448adb0 2022-11-02 op size_t i;
63 3448adb0 2022-11-02 op double baseline = (double)NAN;
64 3448adb0 2022-11-02 op
65 3448adb0 2022-11-02 op (void)argc;
66 3448adb0 2022-11-02 op
67 3448adb0 2022-11-02 op p.buf = generate_utf8_test_buffer(character_break_test,
68 3448adb0 2022-11-02 op LEN(character_break_test),
69 3448adb0 2022-11-02 op &(p.buflen));
70 3448adb0 2022-11-02 op
71 3448adb0 2022-11-02 op /* convert cp-buffer to stupid custom libutf8proc-uint8-type */
72 3448adb0 2022-11-02 op if ((p.buf_utf8proc = malloc(p.buflen)) == NULL) {
73 3448adb0 2022-11-02 op fprintf(stderr, "malloc: %s\n", strerror(errno));
74 3448adb0 2022-11-02 op exit(1);
75 3448adb0 2022-11-02 op }
76 3448adb0 2022-11-02 op for (i = 0; i < p.buflen; i++) {
77 3448adb0 2022-11-02 op /*
78 3448adb0 2022-11-02 op * even if char is larger than 8 bit, it will only have
79 3448adb0 2022-11-02 op * any of the first 8 bits set (by construction).
80 3448adb0 2022-11-02 op */
81 3448adb0 2022-11-02 op p.buf_utf8proc[i] = (utf8proc_uint8_t)p.buf[i];
82 3448adb0 2022-11-02 op }
83 3448adb0 2022-11-02 op
84 3448adb0 2022-11-02 op printf("%s\n", argv[0]);
85 3448adb0 2022-11-02 op run_benchmark(libgrapheme, &p, "libgrapheme ", NULL,
86 3448adb0 2022-11-02 op "byte", &baseline, NUM_ITERATIONS, p.buflen);
87 3448adb0 2022-11-02 op run_benchmark(libutf8proc, &p, "libutf8proc ",
88 3448adb0 2022-11-02 op "but unsafe (does not detect overlong encodings)",
89 3448adb0 2022-11-02 op "byte", &baseline, NUM_ITERATIONS, p.buflen);
90 3448adb0 2022-11-02 op
91 3448adb0 2022-11-02 op free(p.buf);
92 3448adb0 2022-11-02 op free(p.buf_utf8proc);
93 3448adb0 2022-11-02 op
94 3448adb0 2022-11-02 op return 0;
95 3448adb0 2022-11-02 op }