[Toán học] Quy trình đạo hàm chuyên sâu phân tích thành phần chính (PCA)-6ren

[Toán học] Quy trình đạo hàm chuyên sâu phân tích thành phần chính (PCA)

In lại Tác giả: Sahara Thời gian cập nhật: 2024-04-23 16:07:27

Dựa trên cuốn sách Deep Learning (2017, MIT).

Bài viết này dựa trên Deep Learning (2017, MIT). Quá trình phái sinh hoàn thiện các kiến thức liên quan và những phần bị bỏ qua, bỏ sót trong quy trình phái sinh trong sách. blog.

1 Tổng quan

Các bộ dữ liệu hiện đại, hạn chế như web chỉ mục, hình ảnh có độ phân giải cao, khí cụ, đo thử thử nghiệm, vv, thường chứa nhiều chiều đặc biệt và dữ liệu ở vĩ độ cao có thể không rõ ràng, dư thừa hoặc thậm chí gây nhầm lẫn. được đào tạo với nhiều dữ liệu như vậy thường có xu hướng trang bị quá trình (lời nói về tính tính) chiều). data size. vẫn giữ được nhiều thông tin và tính năng gốc nhất có thể (nén mất dữ liệu). và có ý nghĩa nhất trong dữ liệu, giúp dữ liệu trở nên dễ dàng hình dung. Giảm nhiễu và tiền xử lý dữ liệu cho máy tính toán thuật toán.

Các thành phần chính là gì?
Các thành phần chính là các biến mới được xây dựng dưới tính chất kết hợp định dạng của các biến ban đầu. Cái mới này không tương quan và chứa hết thông tin trong dữ liệu gốc.

2. Nền tảng học thuật thuật toán

Kiến thức này rất quan trọng cho việc suy ra đạo hàm trong phần tiếp theo.

Các giao dịch trực tiếp và ma trận:
- Nếu hai góc vuông thì chúng ta trực tiếp. Nghĩa là vô hướng của hai góc bằng 0.
- Ma trận trực tiếp là ma trận vuông có các hàng và cột là đơn vị giao tiếp trực tiếp với nhau; số chấm của mỗi hàng và cột bằng 0 và kích thước của mỗi hàng và cột là 1.
- if if$A^T=A^{-1}$hoặc$AA^T=A^TA=I$,Nhưng$MỘT$là một giao diện trực tiếp.
- Trong chế độ tạo robot, ma trận thường là một$3\times3$Một ma trận trực tiếp được thực hiện theo hướng dẫn trong quá trình biến đổi không gian nhưng vẫn giữ nguyên kích thước của lệnh cấm đầu.
Quy tắc nhân ma trận và hoàn thiện:
- $(AB)^T=B^TA^T$, vị trí của ma trận tích lũy.
- $\vec{a}^T\vec{b}=\vec{b}^T\vec{a}$, cả hai kết quả đều là vô hướng và chuyển vị của số vô hướng là như nhau.
- $(A + B)C = AC + BC$, được phép nhân có thể phân phối.
- $AB \neq{} BA$, được phép nhân nói chung không thỏa mãn luật giao thông.
- $A(BC)=(AB)C$, được phép nhân kỷ luật kết hợp.
Ma trận xứng đáng:
- $A=A^T$,$MỘT$là một ma trận xứng đáng.
- $X^TX$là ma trận xứng đáng$(X^TX)^T=X^TX$.
Quy tắc đạo chức năng ($B$là ma trận hằng):
- $d(x^TB)/dx=B$
- $d(x^Tx)/dx=2x$
- $d(x^TBx)/dx=2Bx$
Quy tắc theo dõi ma trận:
- $Tr(A)=Tr(A^T)$
- $Tr(AB)=Tr(BA)$
- $Tr(A)=\sum_i{\lambda_i}$,TRONG$\lambda$Đúng$MỘT$các giá trị riêng biệt.
- Dấu vết không thay đổi bên dưới vòng chuyển dịch:$Tr(ABCD)=Tr(BCDA)=Tr(CDAB)=Tr(DABC)$
Cường độ và ma trận:
- rồi$L^2$Chuẩn mực, còn được gọi là chuẩn mực Euclide:$||x||_2=\sqrt{\sum_i|x_i|^2}$.
- Thường có hình vuông$L^2$Định dạng để đo kích thước của một số lượng có thể được tính toán sau$x^Tx$.
- Frobenius Định dạng là kích thước đo của ma trận:$||A||_F=\sqrt{\sum_{i,j}A^2_{i,j}}$
- Định Frobenius là bậc hai của tổng bình phương tuyệt đối của tất cả các ma trận tử tử.
- Chuẩn Frobenius là phiên bản ma trận của chuẩn Euclide.
Phân tách giá trị riêng và giá trị riêng:
- phalanx$MỘT$Vector riêng của là một vector khác 0$v$, làm$MỘT$Phép nhân chỉ thay đổi$v$Tỷ lệ của:$Av=\lambda v$.$\lambda$là giá trị đặc trưng,$v$là vectơ riêng.
- ma trận giả thuyết$MỘT$có$N$vectơ riêng độc lập tuyến tính$v^{(i)}$, chúng ta có thể kết nối tất cả các vectơ riêng để tạo thành một ma trận$V=[v^{(1)},\ldots,v^{(n)}]$, và kết nối tất cả các giá trị riêng bằng$\lambda=[\lambda_1,\ldots,\lambda_n]^T$tạo thành một vectơ thì$MỘT$củaPhân tách tính năngĐúng$A=Vdiag(\lambda)V^{-1}$
- Mọi ma trận đối xứng thực đều có thể được phân tích thành$A=Q\Lambda Q^T$,TRONG$Q$được làm bằng$MỘT$Một ma trận trực giao bao gồm các vectơ riêng,$\Lambda$(phát âm là 'lambda') là ma trận đường chéo.
Phương pháp nhân tử Lagrange:
- Phương pháp nhân tử Lagrange là một chiến lược tìm cực đại và cực tiểu cục bộ của hàm dưới các ràng buộc của phương trình.
- Dạng tổng quát:$\mathcal{L}(x,\lambda)=f(x)+\lambda\cdot g(x)$,$\lambda$được gọi là số nhân Lagrange.

3 Dẫn xuất PCA chi tiết

Mô tả các yêu cầu.

Chúng ta có dữ liệu đầu vào của $m$ điểm, được biểu thị dưới dạng ${x^{(1)},...,x^{(m)}}$ trong $\mathbb{R}^{ số thực của n}$ tập trung. Do đó, mỗi điểm$x^{(i)}$ là một vectơ cột có đặc điểm $n$-chiều.

Cần phải nén dữ liệu đầu vào để mã hóa các điểm để thể hiện các phiên bản có chiều thấp hơn của chúng. Nói cách khác, chúng ta muốn tìm vectơ mã hóa$c^{(i)}\in \mathbb{R}^{l}$,\((l

$g(f(x))$ được giải mã là một tập hợp các điểm (biến) mới, do đó nó gần đúng với $x$ ban đầu. Việc lưu trữ $c^{(i)}$ và chức năng giải mã sẽ tiết kiệm nhiều dung lượng hơn so với việc lưu trữ $x^{(i)}$ vì $c^{(i)}$ có thứ nguyên thấp hơn.

ma trận giải mã.

Chúng tôi chọn sử dụng ma trận $D$ làm ma trận giải mã để ánh xạ vectơ mã hóa $c^{(i)}$ trở lại $\mathbb{R}^{n}$, vì vậy $g (c) =Dc$, trong đó $D\in \mathbb{R}^{n\times l}$. Để đơn giản hóa vấn đề mã hóa, PCA hạn chế các cột của $D$ trực giao với nhau.

Đo lường hiệu suất của việc tái cấu trúc.

Trước khi tiếp tục, chúng ta cần tìm ra cách tạo điểm mã hóa tối ưu $c^{*}$. Chúng ta có thể đo lường sự khác biệt giữa điểm đầu vào $x$ và điểm tái tạo của nó $g(c^*) $ khoảng cách, hãy sử dụng định mức $L^2$ (hoặc định mức Euclide): $c^{*}=\arg\min_c||xg(c)||_2$. Vì định mức $L^2$ không âm và phép tính bình phương tăng dần đều, nên thay vào đó chúng ta có thể sử dụng định mức $L^2$ bình phương:

\[c^{*}={\arg\min__c||xg(c)||_2^2 \]

Định mức $L^2$ của một vectơ là tổng bình phương của các thành phần của nó, bằng tích vô hướng của vectơ và chính nó, ví dụ $||x||_2=\sqrt{\ sum|x_i|^2}=\ sqrt{x^Tx}$, do đó, chuẩn $L^2$ bình phương có thể được viết dưới dạng sau:

\[||xg(c)||_2^2 = (xg(c))^T(xg(c)) \]

Theo tỷ lệ phân phối:

\[=(x^Tg(c)^T)(xg(c))=x^Tx-x^Tg(c)-g(c)^Tx+g(c)^Tg(c) \]

Vì $x^Tg(c)$ và $g(c)^Tx$ là các đại lượng vô hướng, nên đại lượng vô hướng bằng với chuyển vị của nó, $(g(c)^Tx)^T=x^Tg( c) $, vậy:

\[=x^Tx-2x^Tg(c)+g(c)^Tg(c) \]

vì vậy:

\[c^*={\arg\min__c-2x^Tg(c)+g(c)^Tg(c) \]

Sau đó thay thế nó bằng định nghĩa $Dc$ của $g(c)$:

\[={\arg\min__c-2x^TDc+c^TD^TDc \]

Thực hiện các chế độ tính toán trực tiếp và định vị đơn vị của $D$:

\[c^*={\arg\min__c-2x^TDc+c^TI_lc \]

\[= {\arg\min__c-2x^TDc+c^Tc \]

tiêu điểm chức năng.

Sử dụng tính năng được phép và cho đạo hàm của nó bằng 0:

\[\nabla_c(-2x^TDc+c^Tc)=0 \]

Theo quy tắc đạo chức năng:

\[-2D^Tx+2c=0 \Rightarrow c=D^Tx \]

Tìm ma trận hóa $D$.

Do đó, hàm mã hóa là$f(x)=D^Tx$.

Do đó, ma trận hóa $D$ cũng được sử dụng trong cấu trúc tái sinh. Function item tiêu chuẩn được xác định ở đây bằng cách sử dụng Frobenius chuẩn (chuẩn ma trận):

\[D^*={\arg\min__D\sqrt{\sum_{i,j}(x_j^{(i)}-r(x^{i})_j)^2},\quad D^ TD= Tôi_l \]

Bắt đầu từ việc xem xét trường hợp hợp $l=1$ (cũng là thành phần chính đầu tiên), $D$ là một đơn vị $d$ và lịch sử sử dụng phương thức chuẩn $L^2$ :

\[d^*={\arg\min__d{\sum_{i}||(x^{(i)}-r(x^{i}))}||_2^2, ||d| =1 \]

\[= {\arg\min__d{\sum_{i}||(x^{(i)}-dd^Tx^{(i)})||_2^2}, ||d||_2 =1 \]

$d^Tx^{(i)}$ là một đại lượng vô hướng:

\[= {\arg\min__d{\sum_{i}||(x^{(i)}-d^Tx^{(i)}d)}||_2^2, ||d|| 1 \]

Một đại lượng vô hướng bằng cách sử dụng chuyển vị của nó:

\[d^*= {\arg\min__d{\sum_{i}||(x^{(i)}-x^{(i)T}dd)}||_2^2, ||d || _2=1 \]

Sử dụng ma trận dạng.

Đặt $X\in \mathbb{R}^{m\times n}$ biểu thị tập tin của tất cả các mô tả điểm, nghĩa là $\{x^{(1)^T}, x^ { (2)^ T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}\}$, sao cho $X_{i,:}=x^ {(i)^ T} $.

\[X = \begin{bmatrix} x^{(1)^T}\\ x^{(2)^T}\\ \ldots\\ x^{(m)^T} \end{bmatrix} \ Mũi tên phải Xd = \begin{bmatrix} x^{(1)^T}d\\ x^{(2)^T}d\\ \ldots\\ x^{(m)^T}d \end{bmatrix} \]

\[\Rightarrow Xdd^T = \begin{bmatrix} x^{(1)^T}dd^T\\ x^{(2)^T}dd^T\\ \ldots\\ x^{(m )^T}dd^T\\ \end{bmatrix} \]

\[\Rightarrow X-Xdd^T = \begin{bmatrix} x^{(1)^T}-x^{(1)^T}dd^T\\ x^{(2)^T}-x ^{(2)^T}dd^T\\ \ldots\\ x^{(m)^T}-x^{(m)^T}dd^T\\ \end{bmatrix} \]

Change a row in ma trận:

\[(x^{(i)^T}-x^{(i)^T}dd^T)^T=x^{(i)}-dd^Tx^{(i)} \]

Vì $d^Tx^{(i)}$ là một đại lượng vô hướng:

\[=x^{(i)}-d^Tx^{(i)}d=x^{(i)}-x^{(i)^T}dd \]

Vì vậy, chúng tôi biết rằng chuẩn L^2 của hàng i của bạn use ma trận và bỏ dấu tổng:

\[d^*={\arg\min__{d}||X-Xdd^T||_F^2, \quad d^Td=1 \]

Quy tắc theo dõi ma trận được sử dụng để đơn giản hóa phần xác định Frobenius như sau:

\[{\arg\min__{d}||X-Xdd^T||_F^2 \]

\[={\arg\min__{d}Tr((X-Xdd^T)^T(X-Xdd^T)) \]

\[={\arg\min__{d}-Tr(X^TXdd^T)-Tr(dd^TX^TX)+Tr(dd^TX^TXdd^T) \]

\[={\arg\min__{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^Tdd^T) \]

By vì$d^Td=1$:

\[={\arg\min__{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^T) \]

\[={\arg\min__{d}-Tr(X^TXdd^T) \]

\[={\arg\max__{d}Tr(X^TXdd^T) \]

Vì dấu vết là bất kỳ biến thể nào đối với các vị trí hoàn thành hàng tuần nên phương pháp có thể được viết lại thành:

\[d^*={\arg\max__{d}Tr(d^TX^TXd), \quad d^Td=1 \]

Vì $d^TX^TXd$ là số thực thi nên có thể bỏ qua dấu vết ký hiệu:

\[d^*={\arg\max__{d}d^TX^TXd,\quad d^Td=1 \]

Tìm kiếm $d$ tối ưu.

Hiện tại, vấn đề đang được tìm kiếm ra $d$ tối ưu để tối đa hóa hóa $d^TX^TXd$ và có những ràng buộc $d^Td=1$.

Sử dụng phương pháp nhân tử Lagrange để giải toán theo $d$:

\[\mathcal{L}(d,\lambda)=d^TX^TXd+\lambda(d^Td-1) \]

Tìm đạo hàm theo $d$ (quy tắc đạo chức năng):

\[\nabla_d\mathcal{L}(d,\lambda)=2X^TXd+2\lambda d \]

Cho đạo hàm bằng 0 thì $d$ sẽ tối ưu:

\[2X^TXd+2\lambda d=0 \]

\[X^TXd=-\lambda d \]

\[X^TXd=\lambda' d,\quad(\lambda'=-\lambda) \]

Phương thức này là riêng biệt giá trị phân tích của ma trận, $d$ được riêng biệt của ma trận $X^TX$, $\lambda'$ là giá match value riêng.

Sử dụng các kết quả trên, chúng ta hãy xem lại phương pháp ban đầu:

\[d^*={\arg\max__{d}d^TX^TXd, \quad d^Td=1 \]

\[={\arg\max__{d}d^T\lambda' d \]

\[={\arg\max__{d}\lambda'd^T d \]

\[={\arg\max__{d}\lambda' \]

Bây giờ vấn đề đã trở nên rõ ràng. cấm đầu trình, do đó $d$ tối ưu là ma trận $X^TX$ tương ứng với giá trị tối đa của giá trị.

Hàm này dành riêng cho trường hợp hợp $l=1$ và chỉ chứa các thành phần chính đầu tiên. thứ nhất $d_1$ là đặc tính của ma trận $X^TX$ tương ứng với giá trị riêng biệt lớn nhất, thành phần chính thứ hai $d_2$ được tùy chỉnh tương ứng với các giá trị riêng biệt thứ hai, vv

4 Tóm tắt

Set $X\in \mathbb{R}^{m\times n}$ là ma ma trận được thành công bằng cách xếp chồng tất cả các điểm sau: $[x^{(1)^T}, x^{(2) ^ T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}]$.

Hàm phân tích mã hóa thành phần chính (PCA) được biểu thị dưới dạng$f(x)=D^Tx$ và chức năng tái tạo có thể biểu thị dưới dạng$x\approx g(c)=Dc$, trong đó$D =[d_1, Các cột của d_2, \ldots]$ là các thuộc tính của $X^TX$ và các giá dành riêng giá trị $D^Tx$ là dữ liệu sau khi giảm kích thước.

Cuối cùng, bài viết này về quy trình đạo hàm chi tiết và chuyên sâu của Phân tích thành phần chính (PCA) [Toán học] kết thúc ở đây. Tìm kiếm các bài viết về CFSDN hoặc tiếp tục duyệt các bài viết liên quan. lại!

Bài viết khuyến nghị: Chào mừng Llama3: Thế hệ mô hình ngôn ngữ mở rộng nguồn mới của Meta

Bài viết khuyến nghị: Lựa chọn công nghệ dành riêng cho nhà phát triển Web3: Người dùng phân phối cảnh (next.js)

Bài viết khuyến nghị: C#S7.NET hoàn thành các bước để phát triển việc khai thu thập dữ liệu khối PLCDB của Siemens

Bài viết khuyến nghị: Bản ghi yêu cầu phân loại thuật toán (Thuật toán phân loại)

C++ - Độ phân giải/khấu trừ mẫu quá tải rõ ràng
Chạy đoạn mã sau, tôi không gặp lỗi và nhận được kết quả như mong đợi. không rõ ràng (tất cả các loại công cụ xác định đều là tham chiếu), tôi lo lắng rằng điều này có thể không được xác định
Sự khác biệt của trình biên dịch khi suy ra các mẫu tham số loại (chưa được nhập)
Vui lòng xem xét ví dụ sau: #include struct A {}; template void f() { static_assert(std::is_same_v); // #1 A&
mã hoá - xuất khóa AES
AES 128 bit từ một bí mật bắt nguồn từ đàm phán DH là gì? mật khẩu bằng cách sử dụng 128 bit đầu tiên và sử dụng 128 bit đầu tiên với một số sửa đổi
mã hoá - xuất khóa AES
AES 128 bit từ một bí mật bắt nguồn từ đàm phán DH là gì? mật khẩu bằng cách sử dụng 128 bit đầu tiên và sử dụng 128 bit đầu tiên với một số sửa đổi
Get signature signature of sample type (không)
Tôi vẫn còn một công việc mới trong việc viết mẫu siêu cài đặt, có thể là lý do tại sao tôi không thể tìm ra giải pháp cho vấn đề này. số nguyên hoặc std::initializer_list, đổi số nguyên thành số La Mã
Kết quả hợp nhất/xuất ra tham số C++
Android Oreo mà tôi không hiểu lắm lắm. Đầu tiên, lớp IOMXNode có chức năng: class IOMXNode : public IInterface { public: +
c++ - Suy ra kiểu tham chiếu LValue
Có rất nhiều cuộc thảo luận và làm rõ về công việc dẫn xuất tham số mẫu, đặc biệt là việc gấp tham chiếu và "tham chiếu" phổ biến". chi tiết hơn và có thể cung cấp thêm
Khó hiểu hàm C++
Tôi đã áp dụng nhiều giả định từ Java vào quá trình nghiên cứu C++ của mình và điều này sẽ làm lại cho tôi bối rối rối. mình muốn xem: #inc
c++ - Có cho phép xuất không ngoại trừ trong các chuyên môn từng phần của mẫu không?
Tiêu chuẩn phân tách GCC 7.1 (dự thảo) tĩnh_asse
Suy ra kiểu chụp Lambda
Gần đây, tôi phát hiện ra rằng việc nắm bắt các hằng số đối tượng theo giá trị trong lambda có nghĩa là các biến trong phần nội dung của labmda (nghĩa là dữ liệu thành viên của lambda) cũng là const.
Lấy tham số PHP đóng
Có cơ hội nào để tôi có thể suy ra thông tin loại tham số Đóng cửa PHP không? Hãy xem xét ví dụ này: 5, 'b' => 10]); else { call_user_func($closure, 5, 10);
java - tính toán các phép toán phức hợp (tích phân, đạo hàm...)
đóng cửa. Câu hỏi này không có thủ tục nguyên tắc của Stack Overflow. chúng tôi yêu cầu chúng tôi giới thiệu hoặc tìm kiếm các công cụ, thư viện hoặc tài nguyên yêu thích bên ngoài trang web đều không có chủ đề đối lập với Tràn ngăn xếp.
android - machine-learning - Đạo hàm của phương trình dạng kép SVM
Đối với hàm Lagrangian của Svm trên, tôi có thể lấy đạo hàm riêng như sau: Tuy nhiên, tôi không hiểu cách cắm chúng vào Lagrangian để suy ra dạng kép? W có thể được thay thế, nhưng b sẽ đi đâu? Ai đó có thể giải thích điều này và đưa ra các bước chi tiết? Câu trả lời hay nhất cho raga của bạn
Cách lập trình hủy, lấy, dịch ngược và đảo ngược thuật toán được sử dụng để xây dựng các biến trong tập dữ liệu theo chương trình
Tôi đang tìm kiếm một số thuật toán, chương trình hoặc hàm để suy ra cách tạo một biến, miễn là tôi cung cấp cho nó các biến khác. Tôi nghĩ các lập trình viên máy tính sẽ gọi nó là "giải mã" và các kiến trúc sư sẽ gọi nó là "kỹ thuật đảo ngược", nhưng tôi đoán là tôi không biết một nhà thống kê sẽ gọi nó như thế nào...hoặc nếu có
Suy ra loại kết quả std::function và sử dụng nó làm tham số
Đây là lớp học đơn giản của tôi trông như thế nào. mẫu lớp A { T thứ nhất; T thứ hai; công khai: A(T f, T s) : thứ nhất(f), giây (s) {};
Suy ra các tham số mẫu C++ bằng lambdas
Câu hỏi này đã có câu trả lời ở đây: Có thể tìm ra kiểu tham số và kiểu trả về của lambda không?
Lấy mẫu C++ từ lambdas
Tôi có một hàm lấy hai tham số std::function s. Các tham số của hàm thứ hai có cùng loại với kết quả của hàm thứ nhất. Tôi đã viết một mẫu hàm như thế này: template void ExamplFunction(st
mysql - nên sử dụng truy vấn nào? Suy ra từ MySQL Giải thích
Có câu hỏi này ở cuối chương Giải thích MySQL Giải thích của Sách thống kê SQL tối ưu hóa O'reilly. Sau đây là một ví dụ
c++ - Khấu trừ tham số mẫu - suy ra T và sử dụng T&&
Ví dụ: hàm void mẫu (T&& arg) Ai đó có thể giải thích chi tiết về cách nó kết thúc việc thay đổi chữ ký hàm thành T& cho giá trị lvalue và T&& cho giá trị được truyền không? Tôi biết rằng bằng cách nào đó (yêu cầu hàng tiêu chuẩn) T -> T& in
mật mã - Phương pháp dẫn xuất khóa (MKD) cho mật mã phiên bản 5
Tôi đang phát triển phần mềm cho các giao dịch EMV nhưng tôi đang gặp phải tình trạng thiếu tài liệu nghiêm trọng từ công ty thuê tôi. Một trong số đó là về MKD được sử dụng để tạo ARQC (trong GENERATE AC đầu tiên). Tôi biết từ yêu cầu tin nhắn rằng IAD như sau:

sa mạc Sahara

Hồ sơ

Tôi là một lập trình viên xuất sắc, rất xuất sắc!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá taxi Didi miễn phí

Các bài viết phổ biến trên toàn bộ trang web

trang đầu

đã học

6Ren·AI

trung tâm mua sắm