Change syntax so that { ... } surrounds match patterns.
[ocaml-bitstring.git] / bitmatch.mli
1 (** Bitmatch library. *)
2 (* Copyright (C) 2008 Red Hat Inc., Richard W.M. Jones
3  *
4  * This library is free software; you can redistribute it and/or
5  * modify it under the terms of the GNU Lesser General Public
6  * License as published by the Free Software Foundation; either
7  * version 2 of the License, or (at your option) any later version.
8  *
9  * This library is distributed in the hope that it will be useful,
10  * but WITHOUT ANY WARRANTY; without even the implied warranty of
11  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
12  * Lesser General Public License for more details.
13  *
14  * You should have received a copy of the GNU Lesser General Public
15  * License along with this library; if not, write to the Free Software
16  * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
17  *
18  * $Id: bitmatch.mli,v 1.14 2008-04-25 11:08:43 rjones Exp $
19  *)
20
21 (**
22    {{:#reference}Jump straight to the reference section for
23    documentation on types and functions}.
24
25    {2 Introduction}
26
27    Bitmatch adds Erlang-style bitstrings and matching over bitstrings
28    as a syntax extension and library for OCaml.  You can use
29    this module to both parse and generate binary formats, for
30    example, communications protocols, disk formats and binary files.
31
32    {{:http://et.redhat.com/~rjones/bitmatch/}OCaml bitmatch website}
33
34    {2 Examples}
35
36    A function which can parse IPv4 packets:
37
38 {[
39 let display pkt =
40   bitmatch pkt with
41   (* IPv4 packet header
42     0                   1                   2                   3   
43     0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 
44    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
45    |   4   |  IHL  |Type of Service|          Total Length         |
46    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
47    |         Identification        |Flags|      Fragment Offset    |
48    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
49    |  Time to Live |    Protocol   |         Header Checksum       |
50    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
51    |                       Source Address                          |
52    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
53    |                    Destination Address                        |
54    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
55    |                    Options                    |    Padding    |
56    +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
57   *)
58   | { 4 : 4; hdrlen : 4; tos : 8;   length : 16;
59       identification : 16;          flags : 3; fragoffset : 13;
60       ttl : 8; protocol : 8;        checksum : 16;
61       source : 32;
62       dest : 32;
63       options : (hdrlen-5)*32 : bitstring;
64       payload : -1 : bitstring } ->
65
66     printf "IPv4:\n";
67     printf "  header length: %d * 32 bit words\n" hdrlen;
68     printf "  type of service: %d\n" tos;
69     printf "  packet length: %d bytes\n" length;
70     printf "  identification: %d\n" identification;
71     printf "  flags: %d\n" flags;
72     printf "  fragment offset: %d\n" fragoffset;
73     printf "  ttl: %d\n" ttl;
74     printf "  protocol: %d\n" protocol;
75     printf "  checksum: %d\n" checksum;
76     printf "  source: %lx  dest: %lx\n" source dest;
77     printf "  header options + padding:\n";
78     Bitmatch.hexdump_bitstring stdout options;
79     printf "  packet payload:\n";
80     Bitmatch.hexdump_bitstring stdout payload
81
82   | { version : 4 } ->
83     eprintf "unknown IP version %d\n" version;
84     exit 1
85
86   | { _ } as pkt ->
87     eprintf "data is smaller than one nibble:\n";
88     Bitmatch.hexdump_bitstring stderr pkt;
89     exit 1
90 ]}
91
92    A program which can parse
93    {{:http://lxr.linux.no/linux/include/linux/ext3_fs.h}Linux EXT3 filesystem superblocks}:
94
95 {[
96 let bits = Bitmatch.bitstring_of_file "tests/ext3_sb"
97
98 let () =
99   bitmatch bits with
100   | { s_inodes_count : 32 : littleendian;       (* Inodes count *)
101       s_blocks_count : 32 : littleendian;       (* Blocks count *)
102       s_r_blocks_count : 32 : littleendian;     (* Reserved blocks count *)
103       s_free_blocks_count : 32 : littleendian;  (* Free blocks count *)
104       s_free_inodes_count : 32 : littleendian;  (* Free inodes count *)
105       s_first_data_block : 32 : littleendian;   (* First Data Block *)
106       s_log_block_size : 32 : littleendian;     (* Block size *)
107       s_log_frag_size : 32 : littleendian;      (* Fragment size *)
108       s_blocks_per_group : 32 : littleendian;   (* # Blocks per group *)
109       s_frags_per_group : 32 : littleendian;    (* # Fragments per group *)
110       s_inodes_per_group : 32 : littleendian;   (* # Inodes per group *)
111       s_mtime : 32 : littleendian;              (* Mount time *)
112       s_wtime : 32 : littleendian;              (* Write time *)
113       s_mnt_count : 16 : littleendian;          (* Mount count *)
114       s_max_mnt_count : 16 : littleendian;      (* Maximal mount count *)
115       0xef53 : 16 : littleendian } ->           (* Magic signature *)
116
117     printf "ext3 superblock:\n";
118     printf "  s_inodes_count = %ld\n" s_inodes_count;
119     printf "  s_blocks_count = %ld\n" s_blocks_count;
120     printf "  s_free_inodes_count = %ld\n" s_free_inodes_count;
121     printf "  s_free_blocks_count = %ld\n" s_free_blocks_count
122
123   | { _ } ->
124     eprintf "not an ext3 superblock!\n%!";
125     exit 2
126 ]}
127
128    Constructing packets for a simple binary message
129    protocol:
130
131 {[
132 (*
133   +---------------+---------------+--------------------------+
134   | type          | subtype       | parameter                |
135   +---------------+---------------+--------------------------+
136    <-- 16 bits --> <-- 16 bits --> <------- 32 bits -------->
137
138   All fields are in network byte order.
139 *)
140
141 let make_message typ subtype param =
142   (BITSTRING {
143      typ : 16;
144      subtype : 16;
145      param : 32
146    }) ;;
147 ]}
148
149    {2 Loading, creating bitstrings}
150
151    The basic data type is the {!bitstring}, a string of bits of
152    arbitrary length.  Bitstrings can be any length in bits and
153    operations do not need to be byte-aligned (although they will
154    generally be more efficient if they are byte-aligned).
155
156    Internally a bitstring is stored as a normal OCaml [string]
157    together with an offset and length, where the offset and length are
158    measured in bits.  Thus one can efficiently form substrings of
159    bitstrings, overlay a bitstring on existing data, and load and save
160    bitstrings from files or other external sources.
161
162    To load a bitstring from a file use {!bitstring_of_file} or
163    {!bitstring_of_chan}.
164
165    There are also functions to create bitstrings from arbitrary data.
166    See the {{:#reference}reference} below.
167
168    {2 Matching bitstrings with patterns}
169
170    Use the [bitmatch] operator (part of the syntax extension) to break
171    apart a bitstring into its fields.  [bitmatch] works a lot like the
172    OCaml [match] operator.
173
174    The general form of [bitmatch] is:
175
176    [bitmatch {] {i bitstring-expression} [} with]
177
178    [| {] {i pattern} [} ->] {i code}
179
180    [| {] {i pattern} [} ->] {i code}
181
182    [|] ...
183
184    As with normal match, the statement attempts to match the
185    bitstring against each pattern in turn.  If none of the patterns
186    match then the standard library [Match_failure] exception is
187    thrown.
188
189    Patterns look a bit different from normal match patterns.  The
190    consist of a list of bitfields separated by [;] where each bitfield
191    contains a bind variable, the width (in bits) of the field, and
192    other information.  Some example patterns:
193
194 {[
195 bitmatch bits with
196
197 | { version : 8; name : 8; param : 8 } -> ...
198
199    (* Bitstring of at least 3 bytes.  First byte is the version
200       number, second byte is a field called name, third byte is
201       a field called parameter. *)
202
203 | { flag : 1 } ->
204    printf "flag is %b\n" flag
205
206    (* A single flag bit (mapped into an OCaml boolean). *)
207
208 | { len : 4; data : 1+len } ->
209    printf "len = %d, data = 0x%Lx\n" len data
210
211    (* A 4-bit length, followed by 1-16 bits of data, where the
212       length of the data is computed from len. *)
213
214 | { ipv6_source : 128 : bitstring;
215     ipv6_dest : 128 : bitstring } -> ...
216
217    (* IPv6 source and destination addresses.  Each is 128 bits
218       and is mapped into a bitstring type which will be a substring
219       of the main bitstring expression. *)
220 ]}
221
222    You can also add conditional when-clauses:
223
224 {[
225 | { version : 4 }
226     when version = 4 || version = 6 -> ...
227
228    (* Only match and run the code when version is 4 or 6.  If
229       it isn't we will drop through to the next case. *)
230 ]}
231
232    Note that the pattern is only compared against the first part of
233    the bitstring (there may be more data in the bitstring following
234    the pattern, which is not matched).  In terms of regular
235    expressions you might say that the pattern matches [^pattern], not
236    [^pattern$].  To ensure that the bitstring contains only the
237    pattern, add a length -1 bitstring to the end and test that its
238    length is zero in the when-clause:
239
240 {[
241 | { n : 4;
242     rest : -1 : bitstring }
243     when Bitmatch.bitstring_length rest = 0 -> ...
244
245    (* Only matches exactly 4 bits. *)
246 ]}
247
248    Normally the first part of each field is a binding variable,
249    but you can also match a constant, as in:
250
251 {[
252 | { 6 : 4 } -> ...
253
254    (* Only matches if the first 4 bits contain the integer 6. *)
255 ]}
256
257    {3:patternfieldreference Pattern field reference}
258
259    The exact format of each pattern field is:
260
261    [pattern : length [: qualifier [,qualifier ...]]]
262
263    [pattern] is the pattern, binding variable name, or constant to
264    match.  [length] is the length in bits which may be either a
265    constant or an expression.  The length expression is just an OCaml
266    expression and can use any values defined in the program, and refer
267    back to earlier fields (but not to later fields).
268
269    Integers can only have lengths in the range \[1..64\] bits.  See the
270    {{:#integertypes}integer types} section below for how these are
271    mapped to the OCaml int/int32/int64 types.  This is checked
272    at compile time if the length expression is constant, otherwise it is
273    checked at runtime and you will get a runtime exception eg. in
274    the case of a computed length expression.
275
276    A bitstring field of length -1 matches all the rest of the
277    bitstring (thus this is only useful as the last field in a
278    pattern).
279
280    A bitstring field of length 0 matches an empty bitstring
281    (occasionally useful when matching optional subfields).
282
283    Qualifiers are a list of identifiers which control the type,
284    signedness and endianness of the field.  Permissible qualifiers are:
285
286    - [int] (field has an integer type)
287    - [bitstring] (field is a bitstring type)
288    - [signed] (field is signed)
289    - [unsigned] (field is unsigned)
290    - [bigendian] (field is big endian - a.k.a network byte order)
291    - [littleendian] (field is little endian - a.k.a Intel byte order)
292    - [nativeendian] (field is same endianness as the machine)
293
294    The default settings are [int], [unsigned], [bigendian].
295
296    Note that many of these qualifiers cannot be used together,
297    eg. bitstrings do not have endianness.  The syntax extension should
298    give you a compile-time error if you use incompatible qualifiers.
299
300    {3 Other cases in bitmatch}
301
302    As well as a list of fields, it is possible to name the
303    bitstring and/or have a default match case:
304
305 {[
306 | { _ } -> ...
307
308    (* Default match case. *)
309
310 | { _ } as pkt -> ...
311
312    (* Default match case, with 'pkt' bound to the whole bitstring. *)
313 ]}
314
315    {2 Constructing bitstrings}
316
317    Bitstrings may be constructed using the [BITSTRING] operator (as an
318    expression).  The [BITSTRING] operator takes a list of fields,
319    similar to the list of fields for matching:
320
321 {[
322 let version = 1 ;;
323 let data = 10 ;;
324 let bits =
325   BITSTRING {
326     version : 4;
327     data : 12
328   } ;;
329
330    (* Constructs a 16-bit bitstring with the first four bits containing
331       the integer 1, and the following 12 bits containing the integer 10,
332       arranged in network byte order. *)
333
334 Bitmatch.hexdump_bitstring stdout bits ;;
335
336    (* Prints:
337
338       00000000  10 0a         |..              |
339     *)
340 ]}
341
342    The format of each field is the same as for pattern fields (see
343    {{:#patternfieldreference}Pattern field reference section}), and
344    things like computed length fields, fixed value fields, insertion
345    of bitstrings within bitstrings, etc. are all supported.
346
347    {3 Construction exception}
348
349    The [BITSTRING] operator may throw a {!Construct_failure}
350    exception at runtime.
351
352    Runtime errors include:
353
354    - int field length not in the range \[1..64\]
355    - a bitstring with a length declared which doesn't have the
356      same length at runtime
357    - trying to insert an out of range value into an int field
358      (eg. an unsigned int field which is 2 bits wide can only
359      take values in the range \[0..3\]).
360
361    {2:integertypes Integer types}
362
363    Integer types are mapped to OCaml types [bool], [int], [int32] or
364    [int64] using a system which tries to ensure that (a) the types are
365    reasonably predictable and (b) the most efficient type is
366    preferred.
367
368    The rules are slightly different depending on whether the bit
369    length expression in the field is a compile-time constant or a
370    computed expression.
371
372    Detection of compile-time constants is quite simplistic so only an
373    immediate, simple integer is recognised as a constant and anything
374    else is considered a computed expression, even expressions such as
375    [5-2] which are obviously (to our eyes) constant.
376
377    In any case the bit size of an integer is limited to the range
378    \[1..64\].  This is detected as a compile-time error if that is
379    possible, otherwise a runtime check is added which can throw an
380    [Invalid_argument] exception.
381
382    The mapping is thus:
383
384    {v
385    Bit size         ---- OCaml type ----
386                 Constant        Computed expression
387
388    1            bool            int64
389    2..31        int             int64
390    32           int32           int64
391    33..64       int64           int64
392    v}
393
394    A possible future extension may allow people with 64 bit computers
395    to specify a more optimal [int] type for bit sizes in the range
396    [32..63].  If this was implemented then such code {i could not even
397    be compiled} on 32 bit platforms, so it would limit portability.
398
399    Another future extension may be to allow computed
400    expressions to assert min/max range for the bit size,
401    allowing a more efficient data type than int64 to be
402    used.  (Of course under such circumstances there would
403    still need to be a runtime check to enforce the
404    size).
405
406    {2 Compiling}
407
408    Using the compiler directly you can do:
409
410    {v
411    ocamlc -I +bitmatch \
412      -pp "camlp4o `ocamlc -where`/bitmatch/pa_bitmatch.cmo" \
413      bitmatch.cma test.ml -o test
414    v}
415
416    Simpler method using findlib:
417
418    {v
419    ocamlfind ocamlc \
420      -package bitmatch.syntax -syntax bitmatch.syntax \
421      -linkpkg test.ml -o test
422    v}
423
424    {2 Security and type safety}
425
426    {3 Security on input}
427
428    The main concerns for input are buffer overflows and denial
429    of service.
430
431    It is believed that this library is robust against attempted buffer
432    overflows.  In addition to OCaml's normal bounds checks, we check
433    that field lengths are >= 0, and many additional checks.
434
435    Denial of service attacks are more problematic although we still
436    believe that the library is robust.  We only work forwards through
437    the bitstring, thus computation will eventually terminate.  As for
438    computed lengths, code such as this is thought to be secure:
439
440 {[
441 bitmatch bits with
442 | { len : 64;
443     buffer : Int64.to_int len : bitstring } ->
444 ]}
445
446    The [len] field can be set arbitrarily large by an attacker, but
447    when pattern-matching against the [buffer] field this merely causes
448    a test such as [if len <= remaining_size] to fail.  Even if the
449    length is chosen so that [buffer] bitstring is allocated, the
450    allocation of sub-bitstrings is efficient and doesn't involve an
451    arbitary-sized allocation or any copying.
452
453    The main protection against attackers should therefore be to ensure
454    that the main program will only read input bitstrings up to a
455    certain length, which is outside the scope of this library.
456
457    {3 Security on output}
458
459    As with the input side, computed lengths are believed to be
460    safe.  For example:
461
462 {[
463 let len = read_untrusted_source () in
464 let buffer = allocate_bitstring () in
465 BITSTRING {
466   buffer : len : bitstring
467 }
468 ]}
469
470    This code merely causes a check that buffer's length is the same as
471    [len].  However the program function [allocate_bitstring] must
472    refuse to allocate an oversized buffer (but that is outside the
473    scope of this library).
474
475    {3 Order of evaluation}
476
477    In [bitmatch] statements, fields are evaluated left to right.
478
479    Note that the when-clause is evaluated {i last}, so if you are
480    relying on the when-clause to filter cases then your code may do a
481    lot of extra and unncessary pattern-matching work on fields which
482    may never be needed just to evaluate the when-clause.  You can
483    usually rearrange the code to do only the first part of the match,
484    followed by the when-clause, followed by a second inner bitmatch.
485
486    {3 Safety}
487
488    The current implementation is believed to be fully type-safe,
489    and makes compile and run-time checks where appropriate.  If
490    you find a case where a check is missing please submit a
491    bug report or a patch.
492
493    {2 Limits}
494
495    These are thought to be the current limits:
496
497    Integers: \[1..64\] bits.
498
499    Bitstrings (32 bit platforms): maximum length is limited
500    by the string size, ie. 16 MBytes.
501
502    Bitstrings (64 bit platforms): maximum length is thought to be
503    limited by the string size, ie. effectively unlimited.
504
505    Bitstrings must be loaded into memory before we can match against
506    them.  Thus available memory may be considered a limit for some
507    applications.
508
509    {2:reference Reference}
510    {3 Types}
511 *)
512
513 type bitstring = string * int * int
514 (** [bitstring] is the basic type used to store bitstrings.
515
516     The type contains the underlying data (a string),
517     the current bit offset within the string and the
518     current bit length of the string (counting from the
519     bit offset).  Note that the offsets are bits, not bytes.
520
521     Normally you don't need to use the bitstring type
522     directly, since there are functions and syntax
523     extensions which hide the details.
524     See {!bitstring_of_file}, {!hexdump_bitstring},
525     {!bitstring_length}.
526 *)
527
528 (** {3 Exceptions} *)
529
530 exception Construct_failure of string * string * int * int
531 (** [Construct_failure (message, file, line, char)] may be
532     raised by the [BITSTRING] constructor.
533
534     Common reasons are that values are out of range of
535     the fields that contain them, or that computed lengths
536     are impossible (eg. negative length bitfields).
537
538     [message] is the error message.
539
540     [file], [line] and [char] point to the original source
541     location of the [BITSTRING] constructor that failed.
542 *)
543
544 (** {3 Bitstrings} *)
545
546 val empty_bitstring : bitstring
547 (** [empty_bitstring] is the empty, zero-length bitstring. *)
548
549 val create_bitstring : int -> bitstring
550 (** [create_bitstring n] creates an [n] bit bitstring
551     containing all zeroes. *)
552
553 val make_bitstring : int -> char -> bitstring
554 (** [make_bitstring n c] creates an [n] bit bitstring
555     containing the repeated 8 bit pattern in [c].
556
557     For example, [make_bitstring 16 '\x5a'] will create
558     the bitstring [0x5a5a] or in binary [0101 1010 0101 1010].
559
560     Note that the length is in bits, not bytes. *)
561
562 val bitstring_of_chan : in_channel -> bitstring
563 (** [bitstring_of_chan chan] loads the contents of
564     the input channel [chan] as a bitstring.
565
566     The length of the final bitstring is determined
567     by the remaining input in [chan], but will always
568     be a multiple of 8 bits. *)
569
570 val bitstring_of_file : string -> bitstring
571 (** [bitstring_of_file filename] loads the named file
572     into a bitstring. *)
573
574 val hexdump_bitstring : out_channel -> bitstring -> unit
575 (** [hexdump_bitstring chan bitstring] prints the bitstring
576     to the output channel in a format similar to the
577     Unix command [hexdump -C]. *)
578
579 val bitstring_length : bitstring -> int
580 (** [bitstring_length bitstring] returns the length of
581     the bitstring in bits. *)
582
583 val string_of_bitstring : bitstring -> string
584 (** [string_of_bitstring bitstring] converts a bitstring to a string
585     (eg. to allow comparison).
586
587     This function is inefficient.  In the best case when the bitstring
588     is nicely byte-aligned we do a [String.sub] operation.  If the
589     bitstring isn't aligned then this involves a lot of bit twiddling
590     and is particularly inefficient.
591
592     XXX This function wouldn't be needed so much if the [bitmatch]
593     operator allowed us to pattern-match on strings. *)
594
595 (** {3 Bitstring buffer} *)
596
597 module Buffer : sig
598   type t
599   val create : unit -> t
600   val contents : t -> bitstring
601   val add_bits : t -> string -> int -> unit
602   val add_bit : t -> bool -> unit
603   val add_byte : t -> int -> unit
604 end
605 (** Buffers are mainly used by the [BITSTRING] constructor, but
606     may also be useful for end users.  They work much like the
607     standard library [Buffer] module. *)
608
609 (** {3 Miscellaneous} *)
610
611 val debug : bool ref
612 (** Set this variable to true to enable extended debugging.
613     This only works if debugging was also enabled in the
614     [pa_bitmatch.ml] file at compile time, otherwise it
615     does nothing. *)
616
617 (**/**)
618
619 (* Private functions, called from generated code.  Do not use
620  * these directly - they are not safe.
621  *)
622
623 val extract_bitstring : string -> int -> int -> int -> bitstring * int * int
624
625 val extract_remainder : string -> int -> int -> bitstring * int * int
626
627 val extract_bit : string -> int -> int -> int -> bool * int * int
628
629 val extract_char_unsigned : string -> int -> int -> int -> int * int * int
630
631 val extract_int_be_unsigned : string -> int -> int -> int -> int * int * int
632
633 val extract_int_le_unsigned : string -> int -> int -> int -> int * int * int
634
635 val extract_int32_be_unsigned : string -> int -> int -> int -> int32 * int * int
636
637 val extract_int32_le_unsigned : string -> int -> int -> int -> int32 * int * int
638
639 val extract_int64_be_unsigned : string -> int -> int -> int -> int64 * int * int
640
641 val construct_bit : Buffer.t -> bool -> int -> unit
642
643 val construct_char_unsigned : Buffer.t -> int -> int -> exn -> unit
644
645 val construct_int_be_unsigned : Buffer.t -> int -> int -> exn -> unit
646
647 val construct_int64_be_unsigned : Buffer.t -> int64 -> int -> exn -> unit