Zipf分布


Zipf分布は、zipfの法則に基づいてデータをサンプリングするために使用されます。

ジップの法則: コレクションでは、n番目の一般的な用語は最も一般的な用語の1 / n倍です。たとえば、英語の5番目の一般的な単語は、最もよく使用される単語のほぼ1/5回出現しています。

2つのパラメータがあります。

a -分布パラメータ。

size -返された配列の形状。

サイズ2x3の分布パラメーター2を使用してzipf分布のサンプルを作成します。

from numpy import random

x = random.zipf(a=2, size=(2, 3))

print(x)

Zipf分布の視覚化

1000ポイントをサンプリングしますが、より意味のあるグラフを作成するには、値が10未満のポイントのみをプロットします。

from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns

x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)

plt.show()

結果