cuốn sách gpt4 ai đã làm

[Toán học] Quy trình đạo hàm chuyên sâu phân tích thành phần chính (PCA)

In lại Tác giả: Sahara Thời gian cập nhật: 2024-04-23 16:07:27 58 4
mua khóa gpt4 Nike

Dựa trên cuốn sách Deep Learning (2017, MIT).

Bài viết này dựa trên Deep Learning (2017, MIT). Quá trình phái sinh hoàn thiện các kiến thức liên quan và những phần bị bỏ qua, bỏ sót trong quy trình phái sinh trong sách. blog.

1 Tổng quan

Các bộ dữ liệu hiện đại, hạn chế như web chỉ mục, hình ảnh có độ phân giải cao, khí cụ, đo thử thử nghiệm, vv, thường chứa nhiều chiều đặc biệt và dữ liệu ở vĩ độ cao có thể không rõ ràng, dư thừa hoặc thậm chí gây nhầm lẫn. được đào tạo với nhiều dữ liệu như vậy thường có xu hướng trang bị quá trình (lời nói về tính tính) chiều). data size. vẫn giữ được nhiều thông tin và tính năng gốc nhất có thể (nén mất dữ liệu). và có ý nghĩa nhất trong dữ liệu, giúp dữ liệu trở nên dễ dàng hình dung. Giảm nhiễu và tiền xử lý dữ liệu cho máy tính toán thuật toán.

  • Các thành phần chính là gì?
    Các thành phần chính là các biến mới được xây dựng dưới tính chất kết hợp định dạng của các biến ban đầu. Cái mới này không tương quan và chứa hết thông tin trong dữ liệu gốc.

2. Nền tảng học thuật thuật toán

Kiến thức này rất quan trọng cho việc suy ra đạo hàm trong phần tiếp theo.

  • Các giao dịch trực tiếp và ma trận:
    • Nếu hai góc vuông thì chúng ta trực tiếp. Nghĩa là vô hướng của hai góc bằng 0.
    • Ma trận trực tiếp là ma trận vuông có các hàng và cột là đơn vị giao tiếp trực tiếp với nhau; số chấm của mỗi hàng và cột bằng 0 và kích thước của mỗi hàng và cột là 1.
    • if if\(A^T=A^{-1}\)hoặc\(AA^T=A^TA=I\),Nhưng\(MỘT\)là một giao diện trực tiếp.
    • Trong chế độ tạo robot, ma trận thường là một\(3\times3\)Một ma trận trực tiếp được thực hiện theo hướng dẫn trong quá trình biến đổi không gian nhưng vẫn giữ nguyên kích thước của lệnh cấm đầu.
  • Quy tắc nhân ma trận và hoàn thiện:
    • \((AB)^T=B^TA^T\), vị trí của ma trận tích lũy.
    • \(\vec{a}^T\vec{b}=\vec{b}^T\vec{a}\), cả hai kết quả đều là vô hướng và chuyển vị của số vô hướng là như nhau.
    • \((A + B)C = AC + BC\), được phép nhân có thể phân phối.
    • \(AB \neq{} BA\), được phép nhân nói chung không thỏa mãn luật giao thông.
    • \(A(BC)=(AB)C\), được phép nhân kỷ luật kết hợp.
  • Ma trận xứng đáng:
    • \(A=A^T\),\(MỘT\)là một ma trận xứng đáng.
    • \(X^TX\)là ma trận xứng đáng\((X^TX)^T=X^TX\).
  • Quy tắc đạo chức năng (\(B\)là ma trận hằng):
    • \(d(x^TB)/dx=B\)
    • \(d(x^Tx)/dx=2x\)
    • \(d(x^TBx)/dx=2Bx\)
  • Quy tắc theo dõi ma trận:
    • \(Tr(A)=Tr(A^T)\)
    • \(Tr(AB)=Tr(BA)\)
    • \(Tr(A)=\sum_i{\lambda_i}\),TRONG\(\lambda\)Đúng\(MỘT\)các giá trị riêng biệt.
    • Dấu vết không thay đổi bên dưới vòng chuyển dịch:\(Tr(ABCD)=Tr(BCDA)=Tr(CDAB)=Tr(DABC)\)
  • Cường độ và ma trận:
    • rồi\(L^2\)Chuẩn mực, còn được gọi là chuẩn mực Euclide:\(||x||_2=\sqrt{\sum_i|x_i|^2}\).
    • Thường có hình vuông\(L^2\)Định dạng để đo kích thước của một số lượng có thể được tính toán sau\(x^Tx\).
    • Frobenius Định dạng là kích thước đo của ma trận:\(||A||_F=\sqrt{\sum_{i,j}A^2_{i,j}}\)
    • Định Frobenius là bậc hai của tổng bình phương tuyệt đối của tất cả các ma trận tử tử.
    • Chuẩn Frobenius là phiên bản ma trận của chuẩn Euclide.
  • Phân tách giá trị riêng và giá trị riêng:
    • phalanx\(MỘT\)Vector riêng của là một vector khác 0\(v\), làm\(MỘT\)Phép nhân chỉ thay đổi\(v\)Tỷ lệ của:\(Av=\lambda v\).\(\lambda\)là giá trị đặc trưng,\(v\)là vectơ riêng.
    • ma trận giả thuyết\(MỘT\)\(N\)vectơ riêng độc lập tuyến tính\(v^{(i)}\), chúng ta có thể kết nối tất cả các vectơ riêng để tạo thành một ma trận\(V=[v^{(1)},\ldots,v^{(n)}]\), và kết nối tất cả các giá trị riêng bằng\(\lambda=[\lambda_1,\ldots,\lambda_n]^T\)tạo thành một vectơ thì\(MỘT\)củaPhân tách tính năngĐúng\(A=Vdiag(\lambda)V^{-1}\)
    • Mọi ma trận đối xứng thực đều có thể được phân tích thành\(A=Q\Lambda Q^T\),TRONG\(Q\)được làm bằng\(MỘT\)Một ma trận trực giao bao gồm các vectơ riêng,\(\Lambda\)(phát âm là 'lambda') là ma trận đường chéo.
  • Phương pháp nhân tử Lagrange:
    • Phương pháp nhân tử Lagrange là một chiến lược tìm cực đại và cực tiểu cục bộ của hàm dưới các ràng buộc của phương trình.
    • Dạng tổng quát:\(\mathcal{L}(x,\lambda)=f(x)+\lambda\cdot g(x)\),\(\lambda\)được gọi là số nhân Lagrange.

3 Dẫn xuất PCA chi tiết

Mô tả các yêu cầu.

Chúng ta có dữ liệu đầu vào của \(m\) điểm, được biểu thị dưới dạng \({x^{(1)},...,x^{(m)}}\) trong \(\mathbb{R}^{ số thực của n}\) tập trung. Do đó, mỗi điểm\(x^{(i)}\) là một vectơ cột có đặc điểm \(n\)-chiều.

Cần phải nén dữ liệu đầu vào để mã hóa các điểm để thể hiện các phiên bản có chiều thấp hơn của chúng. Nói cách khác, chúng ta muốn tìm vectơ mã hóa\(c^{(i)}\in \mathbb{R}^{l}\),\((l

\(g(f(x))\) được giải mã là một tập hợp các điểm (biến) mới, do đó nó gần đúng với \(x\) ban đầu. Việc lưu trữ \(c^{(i)}\) và chức năng giải mã sẽ tiết kiệm nhiều dung lượng hơn so với việc lưu trữ \(x^{(i)}\) vì \(c^{(i)}\) có thứ nguyên thấp hơn.

ma trận giải mã.

Chúng tôi chọn sử dụng ma trận \(D\) làm ma trận giải mã để ánh xạ vectơ mã hóa \(c^{(i)}\) trở lại \(\mathbb{R}^{n}\), vì vậy \(g (c) =Dc\), trong đó \(D\in \mathbb{R}^{n\times l}\). Để đơn giản hóa vấn đề mã hóa, PCA hạn chế các cột của \(D\) trực giao với nhau.

Đo lường hiệu suất của việc tái cấu trúc.

Trước khi tiếp tục, chúng ta cần tìm ra cách tạo điểm mã hóa tối ưu \(c^{*}\). Chúng ta có thể đo lường sự khác biệt giữa điểm đầu vào \(x\) và điểm tái tạo của nó \(g(c^*) \) khoảng cách, hãy sử dụng định mức \(L^2\) (hoặc định mức Euclide): \(c^{*}=\arg\min_c||xg(c)||_2\). Vì định mức \(L^2\) không âm và phép tính bình phương tăng dần đều, nên thay vào đó chúng ta có thể sử dụng định mức \(L^2\) bình phương:

\[c^{*}={\arg\min__c||xg(c)||_2^2 \]

Định mức \(L^2\) của một vectơ là tổng bình phương của các thành phần của nó, bằng tích vô hướng của vectơ và chính nó, ví dụ \(||x||_2=\sqrt{\ sum|x_i|^2}=\ sqrt{x^Tx}\), do đó, chuẩn \(L^2\) bình phương có thể được viết dưới dạng sau:

\[||xg(c)||_2^2 = (xg(c))^T(xg(c)) \]

Theo tỷ lệ phân phối:

\[=(x^Tg(c)^T)(xg(c))=x^Tx-x^Tg(c)-g(c)^Tx+g(c)^Tg(c) \]

Vì \(x^Tg(c)\) và \(g(c)^Tx\) là các đại lượng vô hướng, nên đại lượng vô hướng bằng với chuyển vị của nó, \((g(c)^Tx)^T=x^Tg( c) \), vậy:

\[=x^Tx-2x^Tg(c)+g(c)^Tg(c) \]

vì vậy:

\[c^*={\arg\min__c-2x^Tg(c)+g(c)^Tg(c) \]

Sau đó thay thế nó bằng định nghĩa \(Dc\) của \(g(c)\):

\[={\arg\min__c-2x^TDc+c^TD^TDc \]

Thực hiện các chế độ tính toán trực tiếp và định vị đơn vị của \(D\):

\[c^*={\arg\min__c-2x^TDc+c^TI_lc \]

\[= {\arg\min__c-2x^TDc+c^Tc \]

tiêu điểm chức năng.

Sử dụng tính năng được phép và cho đạo hàm của nó bằng 0:

\[\nabla_c(-2x^TDc+c^Tc)=0 \]

Theo quy tắc đạo chức năng:

\[-2D^Tx+2c=0 \Rightarrow c=D^Tx \]

Tìm ma trận hóa \(D\).

Do đó, hàm mã hóa là\(f(x)=D^Tx\).

Do đó, ma trận hóa \(D\) cũng được sử dụng trong cấu trúc tái sinh. Function item tiêu chuẩn được xác định ở đây bằng cách sử dụng Frobenius chuẩn (chuẩn ma trận):

\[D^*={\arg\min__D\sqrt{\sum_{i,j}(x_j^{(i)}-r(x^{i})_j)^2},\quad D^ TD= Tôi_l \]

Bắt đầu từ việc xem xét trường hợp hợp \(l=1\) (cũng là thành phần chính đầu tiên), \(D\) là một đơn vị \(d\) và lịch sử sử dụng phương thức chuẩn \(L^2\) :

\[d^*={\arg\min__d{\sum_{i}||(x^{(i)}-r(x^{i}))}||_2^2, ||d| =1 \]

\[= {\arg\min__d{\sum_{i}||(x^{(i)}-dd^Tx^{(i)})||_2^2}, ||d||_2 =1 \]

\(d^Tx^{(i)}\) là một đại lượng vô hướng:

\[= {\arg\min__d{\sum_{i}||(x^{(i)}-d^Tx^{(i)}d)}||_2^2, ||d|| 1 \]

Một đại lượng vô hướng bằng cách sử dụng chuyển vị của nó:

\[d^*= {\arg\min__d{\sum_{i}||(x^{(i)}-x^{(i)T}dd)}||_2^2, ||d || _2=1 \]

Sử dụng ma trận dạng.

Đặt \(X\in \mathbb{R}^{m\times n}\) biểu thị tập tin của tất cả các mô tả điểm, nghĩa là \(\{x^{(1)^T}, x^ { (2)^ T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}\}\), sao cho \(X_{i,:}=x^ {(i)^ T} \).

\[X = \begin{bmatrix} x^{(1)^T}\\ x^{(2)^T}\\ \ldots\\ x^{(m)^T} \end{bmatrix} \ Mũi tên phải Xd = \begin{bmatrix} x^{(1)^T}d\\ x^{(2)^T}d\\ \ldots\\ x^{(m)^T}d \end{bmatrix} \]

\[\Rightarrow Xdd^T = \begin{bmatrix} x^{(1)^T}dd^T\\ x^{(2)^T}dd^T\\ \ldots\\ x^{(m )^T}dd^T\\ \end{bmatrix} \]

\[\Rightarrow X-Xdd^T = \begin{bmatrix} x^{(1)^T}-x^{(1)^T}dd^T\\ x^{(2)^T}-x ^{(2)^T}dd^T\\ \ldots\\ x^{(m)^T}-x^{(m)^T}dd^T\\ \end{bmatrix} \]

Change a row in ma trận:

\[(x^{(i)^T}-x^{(i)^T}dd^T)^T=x^{(i)}-dd^Tx^{(i)} \]

Vì \(d^Tx^{(i)}\) là một đại lượng vô hướng:

\[=x^{(i)}-d^Tx^{(i)}d=x^{(i)}-x^{(i)^T}dd \]

Vì vậy, chúng tôi biết rằng chuẩn L^2 của hàng i của bạn use ma trận và bỏ dấu tổng:

\[d^*={\arg\min__{d}||X-Xdd^T||_F^2, \quad d^Td=1 \]

Quy tắc theo dõi ma trận được sử dụng để đơn giản hóa phần xác định Frobenius như sau:

\[{\arg\min__{d}||X-Xdd^T||_F^2 \]

\[={\arg\min__{d}Tr((X-Xdd^T)^T(X-Xdd^T)) \]

\[={\arg\min__{d}-Tr(X^TXdd^T)-Tr(dd^TX^TX)+Tr(dd^TX^TXdd^T) \]

\[={\arg\min__{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^Tdd^T) \]

By vì\(d^Td=1\):

\[={\arg\min__{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^T) \]

\[={\arg\min__{d}-Tr(X^TXdd^T) \]

\[={\arg\max__{d}Tr(X^TXdd^T) \]

Vì dấu vết là bất kỳ biến thể nào đối với các vị trí hoàn thành hàng tuần nên phương pháp có thể được viết lại thành:

\[d^*={\arg\max__{d}Tr(d^TX^TXd), \quad d^Td=1 \]

Vì \(d^TX^TXd\) là số thực thi nên có thể bỏ qua dấu vết ký hiệu:

\[d^*={\arg\max__{d}d^TX^TXd,\quad d^Td=1 \]

Tìm kiếm \(d\) tối ưu.

Hiện tại, vấn đề đang được tìm kiếm ra \(d\) tối ưu để tối đa hóa hóa \(d^TX^TXd\) và có những ràng buộc \(d^Td=1\).

Sử dụng phương pháp nhân tử Lagrange để giải toán theo \(d\):

\[\mathcal{L}(d,\lambda)=d^TX^TXd+\lambda(d^Td-1) \]

Tìm đạo hàm theo \(d\) (quy tắc đạo chức năng):

\[\nabla_d\mathcal{L}(d,\lambda)=2X^TXd+2\lambda d \]

Cho đạo hàm bằng 0 thì \(d\) sẽ tối ưu:

\[2X^TXd+2\lambda d=0 \]

\[X^TXd=-\lambda d \]

\[X^TXd=\lambda' d,\quad(\lambda'=-\lambda) \]

Phương thức này là riêng biệt giá trị phân tích của ma trận, \(d\) được riêng biệt của ma trận \(X^TX\), \(\lambda'\) là giá match value riêng.

Sử dụng các kết quả trên, chúng ta hãy xem lại phương pháp ban đầu:

\[d^*={\arg\max__{d}d^TX^TXd, \quad d^Td=1 \]

\[={\arg\max__{d}d^T\lambda' d \]

\[={\arg\max__{d}\lambda'd^T d \]

\[={\arg\max__{d}\lambda' \]

Bây giờ vấn đề đã trở nên rõ ràng. cấm đầu trình, do đó \(d\) tối ưu là ma trận \(X^TX\) tương ứng với giá trị tối đa của giá trị.

Hàm này dành riêng cho trường hợp hợp \(l=1\) và chỉ chứa các thành phần chính đầu tiên. thứ nhất \(d_1\) là đặc tính của ma trận \(X^TX\) tương ứng với giá trị riêng biệt lớn nhất, thành phần chính thứ hai \(d_2\) được tùy chỉnh tương ứng với các giá trị riêng biệt thứ hai, vv


4 Tóm tắt

Set \(X\in \mathbb{R}^{m\times n}\) là ma ma trận được thành công bằng cách xếp chồng tất cả các điểm sau: \([x^{(1)^T}, x^{(2) ^ T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}]\).

Hàm phân tích mã hóa thành phần chính (PCA) được biểu thị dưới dạng\(f(x)=D^Tx\) và chức năng tái tạo có thể biểu thị dưới dạng\(x\approx g(c)=Dc\), trong đó\(D =[d_1, Các cột của d_2, \ldots]\) là các thuộc tính của \(X^TX\) và các giá dành riêng giá trị \(D^Tx\) là dữ liệu sau khi giảm kích thước.

Cuối cùng, bài viết này về quy trình đạo hàm chi tiết và chuyên sâu của Phân tích thành phần chính (PCA) [Toán học] kết thúc ở đây. Tìm kiếm các bài viết về CFSDN hoặc tiếp tục duyệt các bài viết liên quan. lại!

58 4 0
Chứng chỉ ICP Bắc Kinh số 000000
Hợp tác quảng cáo: 1813099741@qq.com 6ren.com
Xem sitemap của VNExpress