Satoshi Identification

Used email communication data between BTC team, data taken from [1], zipped [2]. Merely tokenized the messages, create a word frequency vector for each person, and computed its cosine distance to Satoshi's vector.

import satoshi
satoshi.compare()

sato dict 6364
gavin-andresen 0.009 23821
hal-finney 0.058 19868
jed-mccaleb 0.028 7506
nick-szabo 0.133 33000
roger-ver 0.016 11586
craig-steven-wright 0.246 10055
wei-dai 0.19 25717

Gavin Andresen's writing, word usage seems closest.

Using another measure, Kullback-Leibler divergence,

import satoshi
satoshi.compare_kl()

sato dict 6364
gavin-andresen 0.362
hal-finney 0.561
jed-mccaleb 0.213
nick-szabo 0.893
roger-ver 0.422
craig-steven-wright 0.504
wei-dai 0.751

Code

References

[1] Data on GH

[2] Data