cuốn sách gpt4 ai đã làm

Cách sử dụng Seaborn thực hiện nâng cao biểu đồ thống kê

In lại Tác giả: Sahara Thời gian cập nhật: 2024-05-20 09:12:07 56 4
mua khóa gpt4 Nike

Bài viết này được chia sẻ từ Cộng đồng Huawei Cloud "Sử dụng Seaborn để triển khai các biểu đồ thống kê nâng cao từ sơ đồ hộp đến khám phá mối quan hệ đa biến", tác giả: Lemony Hug.

Trong lĩnh vực khoa học dữ liệu và trực quan hóa dữ liệu, Seaborn là thư viện trực quan hóa Python phổ biến. Nó được xây dựng trên nền tảng Matplotlib, cung cấp giao diện đồ họa đơn giản và đẹp hơn, đồng thời có một số chức năng biểu đồ thống kê nâng cao. Bài viết này sẽ giới thiệu cách sử dụng Seaborn để thực hiện một số biểu đồ thống kê nâng cao và cung cấp các ví dụ mã tương ứng.

Cài đặt Seaborn

Trước tiên, hãy đảm bảo bạn đã cài đặt Seaborn. Bạn có thể cài đặt nó bằng pip:

cài đặt pip seaborn

Nhập các thư viện cần thiết

Trước khi bắt đầu, chúng ta cần nhập Seaborn và một số thư viện trực quan và xử lý dữ liệu thường được sử dụng khác:

nhập khẩu hải sản BẰNG sns nhập matplotlib.pyplot BẰNG xin vui lòng nhập numpy BẰNG np nhập khẩu gấu trúc BẰNG pd

Lô hộp

Boxplot là một biểu đồ thống kê thường được sử dụng để hiển thị sự phân bổ dữ liệu. Seaborn cung cấp một giao diện đơn giản và dễ sử dụng để vẽ các ô hình hộp.

# Tạo dữ liệu ngẫu nhiên np.random.seed(0) dữ liệu = np.random.normal(loc=0, tỷ lệ=1, kích thước=100) # Vẽ biểu đồ hộp sns.boxplot(data=dữ liệu) plt.title('Biểu đồ hộp dữ liệu ngẫu nhiên') plt.show()

Trong ví dụ này, chúng tôi đã tạo một tập hợp dữ liệu ngẫu nhiên và vẽ biểu đồ hộp bằng hàm sns.boxplot(). Thông qua biểu đồ này, chúng ta có thể hiểu một cách trực quan sự phân bổ dữ liệu, bao gồm giá trị trung bình, phần tư và giá trị ngoại lệ.

Âm mưu vĩ cầm

Biểu đồ violin là biểu đồ kết hợp biểu đồ hình hộp và ước tính mật độ hạt nhân để hiển thị phân bổ dữ liệu một cách trực quan hơn.

# Tạo dữ liệu ngẫu nhiên np.random.seed(0) dữ liệu1 = np.random.normal(loc=0, tỷ lệ=1, kích thước=100) dữ liệu2 = np.random.normal(loc=2, tỷ lệ=1,5, kích thước=100) dữ liệu = nhãn np.concatenate([data1, data2]) =['Nhóm 1'] * 100 + ['Nhóm 2'] * 100

# Vẽ sơ đồ đàn violin sns.violinplot(x=nhãn,y=dữ liệu) plt.title('Âm mưu violin của hai nhóm') plt.show()

Thông qua biểu thức và vẽ sơ đồ đàn violin bằng hàm sns.violinplot(). sơ đồ này, chúng tôi có thể so sánh các phân tích bổ sung của hai dữ liệu và các số liệu khảo sát khác nhau.

Bản đồ nhiệt độ

Bản đồ nhiệt là biểu đồ sử dụng màu sắc để hiển thị dữ liệu ma trận, thường được sử dụng để hiển thị mối quan hệ hoặc dữ liệu mật khẩu.

# Tạo dữ liệu ngẫu nhiên np.random.seed(0) dữ liệu = np.random.rand(10, 10) # Vẽ bản đồ nhiệt sns.heatmap(data, annot= Đúng,cmap='viridis') plt.title('Bản đồ nhiệt độ ngẫu nhiên của dữ liệu') plt.show()

Thông qua biểu đồ này, chúng tôi có thể hiểu được cách trực quan hóa mối tương quan giữa dữ liệu và phân tích dữ liệu bổ sung.

Hạt nhân mật khẩu sơ đồ

Biểu đồ ước tính hạt nhân là một phương pháp tham số để tính toán dữ liệu mật khẩu bằng cách làm cho dữ liệu được kiểm tra để tạo liên kết xác thực đường dẫn.

# Tạo dữ liệu ngẫu nhiên np.random.seed(0) dữ liệu = np.random.normal(loc=0, tỷ lệ=1, kích thước=100) # Vẽ bản đồ ước tính mật hạt nhân sns.kdeplot(data, shade=Đúng) plt.title('Sơ đồ ước tính hạt nhân mật khẩu của ngẫu nhiên dữ liệu') plt.show()

Trong ví dụ này, chúng tôi đã tạo một tập hợp dữ liệu ngẫu nhiên và vẽ sơ đồ ước tính mật độ nhân bằng hàm sn.kdelot(). phân phối dữ liệu đặc biệt.

Lô cặp

Sơ đồ mối quan hệ cặp đôi là một loại sơ đồ được sử dụng để trực quan hóa mối quan hệ giữa các biến trong tập dữ liệu và rất hữu ích cho công việc khám phá phân tích dữ liệu.

# Tạo ngẫu nhiên tập dữ liệu np.random.seed(0) dữ liệu = pd.DataFrame(np.random.randn(100, 4), cột=['MỘT', 'B', 'C', 'D']) # Vẽ sơ đồ quan hệ cặp sns.pairplot(data) plt.suptitle('Cặp lô dữ liệu ngẫu nhiên',y=1,02) plt.show()

Biểu tượng This show mối quan hệ giữa các biến thể trong data file, bao gồm biểu đồ phân tán và biểu đồ phân phối đơn biến, giúp khám phá các mô hình và mối liên hệ giữa các biến.

Bản đồ

Các biến tương thích tự động được hiển thị theo nhóm phân tích thuật toán thông tin.

# Tạo ngẫu nhiên tập dữ liệu np.random.seed(0) dữ liệu = pd.DataFrame(np.random.rand(10, 10), cột=['MỘT', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'tôi', 'J']) # Vẽ bản đồ cụm sns.clustermap(data, cmap='viridis') plt.title('Bản đồ ngẫu nhiên dữ liệu') plt.show()

Biểu tượng Điều này đã tìm thấy sự tương thích giữa các biến trong dữ liệu. thuật toán phân tích, giúp khám phá các mẫu và cấu trúc giữa các biến.

Passmap

Bản đồ nhiệt phân là bản đồ nhiệt dựa trên thuật toán phân cụm theo cấp bậc, phân cụm dữ liệu và sắp xếp sắp xếp lại kết quả phân cụm để hiển thị cấu trúc tốt hơn và mối quan hệ tương quan của dữ liệu.

# Tạo dữ liệu ngẫu nhiên np.random.seed(0) dữ liệu = np.random.rand(10, 10) # Vẽ bản đồ nhiệt sns.clustermap(data, cmap='mát mẻ') plt.title('Tự nhiên phân loại dữ liệu ngẫu nhiên') plt.show()

Thông qua biểu tượng sơ đồ này, chúng tôi có thể xác định mối quan hệ giữa cụm dữ liệu và sự tương thích giữa các dữ liệu điểm khác nhau.

Phân loại Biểu đồ Phân tán (Pairplot)

Biểu đồ phân loại phân loại là biểu đồ hiển thị mối quan hệ giữa nhiều biến thể một lần và thường được sử dụng dùng để khám phá mối tương quan giữa các biến khác nhau trong dữ liệu.

#Tải iris mẫu dữ liệu = sns.load_dataset('ống kính') # Vẽ một biểu đồ phân tán đã được phân loại sns.pairplot(iris, Hue='cùng loại', đánh dấu=['', 'S', 'D']) plt.title('Iris Data Iris') plt.show()

Trong ví dụ này, chúng tôi sử dụng bộ dữ liệu mống mắt đi kèm với Seaborn và sử dụng hàm sns.pairplot() để vẽ biểu đồ phân loại phân loại. nhau, cũng như mối tương quan giữa các đặc điểm khác nhau.

Cốt truyện thời gian

Chuỗi biểu tượng thời gian là biểu đồ được sử dụng để hiển thị thời gian chuỗi dữ liệu và thường được sử dụng sử dụng để phân tích xu hướng và tính toán hoàn thành dữ liệu theo thời gian.

# Tạo chuỗi dữ liệu ngày = pd.date_range(bắt đầu='2022-01-01', end='2022-12-31') dữ liệu = np.random.randn(len(dates)) # Tạo DataFrame df = pd.DataFrame({'Ngày': ngày tháng, 'Giá trị': data}) # Vẽ biểu đồ chuỗi thời gian sns.lineplot(x='Ngày',y='Giá trị', data=df) plt.title('Thời gian biểu tượng của dữ liệu ngẫu nhiên') plt.xlabel('Ngày') plt.ylabel('Giá trị') plt.show()

Thông qua Biểu đồ này chúng ta có thể thấy xu hướng và tính toán hoàn thành của số liệu theo thời gian.

Cao nâng cấp màu bảng

Seaborn cung cấp các tính năng bảng màu phong phú có thể giúp người dùng lựa chọn cách phối màu phù hợp trong biểu đồ để làm nổi bật các điểm chính hoặc nâng cao hiệu ứng trực tiếp.

# Sử dụng bảng nâng cao current_palette = sns.color_palette('vỏ', 5) # Vẽ biểu đồ thanh sns.barplot(x=np.arange(5), y=np.random.rand(5), color table=current_palette) plt.title('Sơ đồ nâng cao màu của bảng') plt.show()

Sau đó, chúng tôi sử dụng sử dụng bảng màu này để vẽ biểu đồ minh họa hiệu ứng.

Tùy chọn cốt truyện theo kiểu

Seaborn cho phép người dùng sử dụng giao diện điều chỉnh tùy chỉnh của biểu đồ bằng cách đặt các loại khác nhau để đáp ứng nhu cầu cá nhân.

# Đặt sns.set_style( tùy chỉnh kiểu)'trắng lưới') # Vẽ biểu đồ phân tán sns.scatterplot(x=np.random.randn(100), y=np.random.randn(100)) plt.title('Phân tích biểu đồ với tùy chỉnh kiểu') plt.show()

Trong ví dụ này, chúng tôi sử dụng hàm sns.set_style() để đặt trắng biểu đồ thành nhóm và vẽ biểu đồ phân tích để có thể thực hiện thao tác của nó.

Bản vẽ nhiều bảng (Lưới viền)

Seaborn cung cấp nhiều bảng vẽ đồ họa chức năng, có thể hiển thị nhiều ô cùng lúc để so sánh tốt hơn mối quan hệ giữa các tập hợp khác nhau.

# Tải Mẹo về mẫu dữ liệu = sns.load_dataset('lời khuyên') # Tạo đối tượng FacetGrid g = sns.FacetGrid(mẹo, col='thời gian', hàng='người hút thuốc') # Vẽ sơ đồ violin g.map(sns.violinplot, 'tổng_đơn_hóa') plt.show()

FacetGrid bằng cách sử dụng hàm sns.FacetGrid() và vẽ các ô violin trong các ô khác nhau để hiển thị dữ liệu bổ sung giữa các tập hợp khác nhau.

So sánh phân phối dữ liệu (So sánh phân phối)

Seaborn cung cấp một số cách để so sánh sự khác biệt giữa các phân phối dữ liệu khác nhau, đưa ra hạn chế như cách sử dụng biểu tượng đồ hoặc ước tính hạt nhân mật khẩu.

#Tải iris mẫu dữ liệu = sns.load_dataset('ống kính') # Vẽ biểu đồ ước tính hạt nhân sns.kdeplot(data=mống mắt,x='đài lá dài', sắc='cùng loại', điền=Đúng) plt.title('So sánh vách ngăn chiều dài của bố cục') plt.show()

Trong ví dụ này, chúng tôi sử dụng hàm sns.kdeplot() để vẽ sơ đồ ước tính mật độ hạt nhân về độ dài vách ngăn giữa các loài trong mắt tập dữ liệu để so sánh bố cục của chúng.

Nhóm được lượng hóa một cách trực tiếp

Seaborn có thể dễ dàng hiển thị dữ liệu nhóm công việc, hạn chế sử dụng các phân loại biến để nhóm và trực quan hóa data.

# Load Titanic mẫu dữ liệu = sns.load_dataset('tàu Titanic') # Vẽ một boxplot đã phân loại sns.boxplot(data=titanic,x='lớp học',y='tuổi', sắc='tình huống giáo dục') plt.title('Ô được nhóm theo độ tuổi theo tầng và giới tính') plt.show()

Trong ví dụ này, chúng tôi sử dụng hàm sns.boxplot() để biểu thị tác động của tuổi tác đối với các hạng cabin và giới tính khác nhau trong Titanic data file nhằm so sánh khả năng phân tích của chúng.

Khám phá mối liên hệ đa biến

Seaborn cung cấp một số cách để khám phá mối quan hệ giữa nhiều biến thể, nghĩ ra cách sử dụng ma trận biểu đồ phân tán hoặc biểu tượng mối quan hệ cặp đôi.

#Tải iris mẫu dữ liệu = sns.load_dataset('ống kính') # Vẽ ma trận biểu đồ phân tán sns.pairplot(data=mống mắt, màu sắc='cùng loại') plt.title('Cặp sơ đồ để khám phá các mối quan hệ đa biến') plt.show()

Trong ví dụ này, chúng tôi sử dụng hàm sns.pairplot() để vẽ biểu đồ mối quan hệ theo cặp giữa các tính năng khác nhau trong tập liệu mống mắt nhắm tới việc khám phá mối quan hệ đa biến giữa chúng.

Tóm tắt

Đầu tiên, chúng tôi học cách vẽ các biểu đồ thống kê phổ biến, bao gồm các biểu đồ hình hộp, biểu đồ violin, bản đồ nhiệt, vv, qua nơi đó có thể hiển thị bố cục trực tiếp và tương quan của dữ liệu. limit like table color, tùy chỉnh biểu đồ kiểu, vẽ nhiều bảng, vv, có thể giúp giao diện điều chỉnh tùy chỉnh của người dùng Sau đó, chúng tôi giới thiệu một số ứng dụng nâng cao, có giới hạn như so sánh phân tích Phân phối dữ liệu, hiển thị dữ liệu nhóm, khám phá mối quan hệ đa biến, vv Các phương pháp này có thể giúp người dùng hiểu sâu hơn về mối quan hệ và mô hình giữa dữ liệu. kỹ năng cơ bản khi sử dụng Seaborn để trực tiếp hóa dữ liệu và có thể sử dụng các chức năng phong phú và hoạt động giao diện của nó để phân tích và khám phá dữ liệu. công cụ không thể thiếu đối với các nhà khoa học và phân tích dữ liệu.

  .

Hãy nhấp vào để theo dõi và tìm hiểu về các công nghệ mới của Huawei Cloud càng sớm càng tốt~.

Nếu bạn muốn biết Continue duyệt các bài viết liên quan hỗ trợ tôi trong blog tương lai của tôi!

56 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress