OCaml 教程 / 类型推导深入

类型推导深入

OCaml 的类型推导是其最引人注目的特性之一。本文将深入讲解 Hindley-Milner 类型系统的核心算法、值限制、弱类型变量等高级话题。

1. Hindley-Milner 算法 W

1.1 算法概述

算法 W 是 HM 类型系统的核心推导算法，用于自动推导表达式的"最一般类型"（most general type）：

Algorithm W(Γ, e):
  1. 变量 x: instantiate(Γ(x))
  2. Lambda (λx.e): 新建类型变量 β, 推导 e
  3. 应用 (e₁ e₂): 推导 e₁ 和 e₂ 的类型，统一化
  4. Let (let x = e₁ in e₂): 推导 e₁, 泛化, 推导 e₂

1.2 核心概念

概念	定义	示例
Substitution	类型变量到类型的映射	`[α ↦ int, β ↦ string]`
Unification	寻找使两个类型相等的替换	`unify(α → int, string → β)` = `[α ↦ string, β ↦ int]`
Occurs Check	防止无限类型	`unify(α, α list)` 失败
Instantiation	将类型方案实例化	`∀α. α → α` 实例化为 `β → β`
Generalization	从类型中抽象出自由变量	`β → β` 泛化为 `∀β. β → β`

1.3 手动推导示例

(* 推导 fun f x -> f (f x) *)
(* Step 1: f : α, x : β *)
(* Step 2: f x → α = β → γ *)
(* Step 3: f (f x) → β → γ = γ → δ → β = γ, δ = γ *)
(* 最终: (γ → γ) → γ → γ *)

let f = fun f x -> f (f x)
(* 类型: ('a -> 'a) -> 'a -> 'a *)

2. 统一化（Unification）

2.1 简化的统一化实现

type typ =
  | TVar of string | TInt | TString
  | TArrow of typ * typ | TList of typ

type substitution = (string * typ) list

let rec apply_subst (s : substitution) : typ -> typ = function
  | TVar x -> (match List.assoc_opt x s with
    | Some t -> apply_subst s t | None -> TVar x)
  | TInt -> TInt | TString -> TString
  | TArrow (a, b) -> TArrow (apply_subst s a, apply_subst s b)
  | TList t -> TList (apply_subst s t)

let rec occurs (x : string) : typ -> bool = function
  | TVar y -> x = y | TInt | TString -> false
  | TArrow (a, b) -> occurs x a || occurs x b
  | TList t -> occurs x t

let rec unify : typ -> typ -> substitution = fun t1 t2 ->
  match t1, t2 with
  | TInt, TInt | TString, TString -> []
  | TVar x, t | t, TVar x ->
    if TVar x = t then []
    else if occurs x t then failwith "occurs check failed"
    else [(x, t)]
  | TArrow (a1, b1), TArrow (a2, b2) ->
    let s1 = unify a1 a2 in
    let s2 = unify (apply_subst s1 b1) (apply_subst s1 b2) in
    s2 @ s1
  | TList a, TList b -> unify a b
  | _ -> failwith "cannot unify"

2.2 统一化示例

(* unify(α → int, string → β) → [α = string, β = int] *)
(* unify(int list, α list) → [α = int] *)
(* unify(α, α list) → occurs check 失败！ *)

⚠️ 注意点：occurs check 是防止无限类型（如 'a = 'a list）的关键机制。

3. 类型推导的限制

(* 1. 多态递归 —— 需要显式注解 *)
let rec (f : 'a -> 'a list list) = fun x -> f [x]

(* 2. GADT 模式匹配需要类型注解 *)
type _ expr = Int : int -> int expr | Bool : bool -> bool expr
let eval : type a. a expr -> a = function Int n -> n | Bool b -> b

(* 3. 多态递归自动推导失败的原因 *)
(* let rec f x = f [x] *)
(* f : 'a -> ??, [x] : 'a list, 应用 f 到 'a list *)
(* 统一化 'a = 'a list → occurs check 失败 *)

无法推导的情况	原因	解决方案
多态递归	occurs check	显式递归类型注解
GADT	类型索引	`type a.` 语法
值限制	可变性安全	类型注解或 eta-expansion
类型歧义	信息不足	显式注解

4. 类型注解的最佳实践

(* ✅ 公共 API 必须注解 *)
val sort : ('a -> 'a -> int) -> 'a list -> 'a list

(* ✅ 复杂函数签名应该注解 *)
let process_data (type a)
    (module S : Serializable with type t = a)
    (xs : a list) : string list =
  List.map S.to_json xs

(* ✅ 关键数据结构应该注解 *)
type user = {
  id : int; name : string;
  role : [`Admin | `User | `Guest];
}

(* ⚠️ 简单局部函数可以省略 *)
let double x = x * 2

注解风格

风格	语法	使用场景
函数参数	`let f (x : int) = ...`	消歧
let 绑定	`let f : int -> int = ...`	完整签名
.mli 文件	`val f : int -> int`	模块接口
内联	`(expr : int list)`	局部消歧

5. 类型错误调试技巧

5.1 错误消息解读

错误消息	原因	解决方案
`expected int, got string`	类型不匹配	检查函数参数
`_'weak1` 出现	值限制	添加类型注解
`cannot unify 'a and 'a list`	occurs check	检查递归类型
`unbound value`	变量未定义	检查拼写和导入

5.2 调试策略

(* 策略1：缩小范围 *)
let result : int = some_complex_expression  (* 强制报错位置 *)

(* 策略2：逐步构建 *)
let step1 = List.map f xs   (* # 检查 step1 的类型 *)
let step2 = List.filter g step1

(* 策略3：使用 toplevel *)
(* # let step1 = List.map f xs;; *)
(* val step1 : int list = [1; 2; 3] *)

💡 提示：Merlin 编辑器插件是类型调试的最佳伴侣——将光标移到表达式上即可查看推导出的类型。

6. 值限制详解

6.1 为什么需要值限制

(* 如果没有值限制，以下代码会破坏类型安全 *)
let id = ref (fun x -> x)  (* 假设 : ('a -> 'a) ref *)
id := (fun (x : int) -> x + 1)  (* 修正为 int -> int *)
let s = !id "hello"  (* 但实际是 int -> int，运行时崩溃！ *)

6.2 什么时候触发

(* ❌ 触发 —— 函数应用不是值 *)
let r = ref []        (* '_weak1 list ref *)
let f = List.map Fun.id  (* 有弱类型变量 *)

(* ✅ 不触发 —— 是值 *)
let id = fun x -> x      (* 'a -> 'a *)
let empty = []            (* 'a list *)

表达式	是否为值	多态化
常量、变量、函数	✅	✅
函数应用 `f x`	❌	❌
构造器应用 `Some x`	❌	❌
`ref []`	❌	❌

6.3 修复方法

(* 方法1：类型注解 *)
let r : int list ref = ref []

(* 方法2：eta-expansion *)
let make_ref () = ref []
(* 外部函数是值 → 多态化 *)

(* 方法3：重新设计 API *)
type 'a state = { mutable items : 'a list }

7. 弱类型变量

7.1 识别与生命周期

# let r = ref [];;
val r : '_weak1 list ref = {contents = []}

(* 阶段1：未固定 *)
r := [42]     (* '_weak1 固定为 int *)
(* 阶段2：已固定 *)
r := [1; 2]   (* OK: int list ref *)
(* r := ["x"]  (* 错误！ *) *)

7.2 避免弱类型变量

(* ✅ 在函数内创建 *)
let create_state () = ref []
let () =
  let state = create_state () in
  state := [1; 2; 3]

(* ✅ 使用参数化类型 *)
type 'a state = { mutable items : 'a list; add : 'a -> unit }

8. 递归类型推导

(* 简单递归 —— 自动推导 *)
let rec length = function
  | [] -> 0 | _ :: xs -> 1 + length xs
(* 'a list -> int *)

(* 相互递归 *)
let rec even n = n = 0 || odd (n - 1)
and odd n = n <> 0 && even (n - 1)
(* int -> bool *)

(* 带累加器 *)
let rec sum_acc (acc : int) = function
  | [] -> acc | x :: xs -> sum_acc (acc + x) xs

9. 业务场景：配置解析器

type 'a config = {
  key : string; default : 'a;
  parse : string -> 'a option;
}

let int_config key default = {
  key; default;
  parse = (fun s -> try Some (int_of_string s) with _ -> None);
}

let string_config key default = {
  key; default;
  parse = (fun s -> Some s);
}

let get_config cfg env =
  match List.assoc_opt cfg.key env with
  | Some s -> (match cfg.parse s with Some v -> v | None -> cfg.default)
  | None -> cfg.default

let port = int_config "PORT" 8080
let host = string_config "HOST" "localhost"

let env = [("PORT", "3000"); ("HOST", "example.com")]
let () = Printf.printf "http://%s:%d\n"
  (get_config host env) (get_config port env)

10. 扩展阅读

资源	说明
Damas & Milner (1982)	Let-polymorphism 原始论文
OCaml Manual: Type expressions	v2.ocaml.org
OCaml 官方 FAQ: Value Restriction	ocaml.org/learn/faq
Real World OCaml: 类型推导	Chapter on Type Inference
“OutsideIn(X)”	Schrijvers et al. (2008)

💡 提示：当遇到棘手的类型错误时，最有效的策略是逐步缩小范围：1）给顶层函数添加类型注解；2）给中间绑定添加注解；3）在 toplevel 中测试每个子表达式。