Zipf分布
Zipf分布は、zipfの法則に基づいてデータをサンプリングするために使用されます。
ジップの法則: コレクションでは、n番目の一般的な用語は最も一般的な用語の1 / n倍です。たとえば、英語の5番目の一般的な単語は、最もよく使用される単語のほぼ1/5回出現しています。
2つのパラメータがあります。
a
-分布パラメータ。
size
-返された配列の形状。
例
サイズ2x3の分布パラメーター2を使用してzipf分布のサンプルを作成します。
from numpy import random
x = random.zipf(a=2, size=(2, 3))
print(x)
Zipf分布の視覚化
1000ポイントをサンプリングしますが、より意味のあるグラフを作成するには、値が10未満のポイントのみをプロットします。
例
from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns
x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)
plt.show()