python - 使用 FeatureUnion 拟合管道时出现 IndexError-6ren

python - 使用 FeatureUnion 拟合管道时出现 IndexError

In lại 作者：太空宇宙更新时间：2023-11-03 15:05:40

我不断收到

IndexError:仅整数、切片 (:)、省略号 (...)、numpy.newaxis (Không có)整数或 bool 数组是有效索引

同时尝试将我的数据框适合以下管道。训练和测试是两个具有相同列的数据框。有不同的列，但我只想通过 ItemSelector 关注其中的三个。

from sklearn.base import BaseEstimator, TransformerMixin
from sklearn import preprocessing
from sklearn.pipeline import FeatureUnion
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.pipeline import Pipeline

    class ItemSelector(BaseEstimator, TransformerMixin):

        def __init__(self, column):
            self.column = column

        def fit(self, X, y=None):
            return self

        def transform(self, X):
            return X[self.column]


    def predictCases(train, test):
        target_names = sorted(list(set(train['TARGET'].values)))
        y_train = np.array([target_names.index(x) for x in train['TARGET'].values])
        y_test = np.array([target_names.index(x) for x in test['TARGET'].values])

        # train and predict
        classifier = Pipeline([
                    ('union', FeatureUnion([

                            ('text', Pipeline([
                                ('selector', ItemSelector(column='TEXT')),
                                ('tfidf_vec', TfidfVectorizer())
                            ])),

                            ('feature1', Pipeline([
                                ('selector', ItemSelector(column='CATEG_FEAT1')),
                                ('lbe', LabelEncoder())
                            ])),

                            ('feature2', Pipeline([
                                ('selector', ItemSelector(column='CATEG_FEAT2')),
                                ('lbe', LabelEncoder())
                            ]))
                    ])),
                    ('clf', OneVsRestClassifier(LinearSVC()))])
        classifier.fit(train.values, y_train)
        predicted = classifier.predict(test.values)
        return(metrics.precision_recall_fscore_support(y_test, predicted))

完全错误:

IndexError Traceback (most recent call last)
 in ()
----> 1 tt = predictCases(train_resampled, validate)

 in predictCases(train, test)
     24 ])),
     25 ('clf', OneVsRestClassifier(LinearSVC()))])
---> 26 classifier.fit(train.values, y_train)
     27 predicted = classifier.predict(test.values)
     28 return(metrics.precision_recall_fscore_support(y_test, predicted))

C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in fit(self, X, y, **fit_params)
    266 This estimator
    267 """
--> 268 Xt, fit_params = self._fit(X, y, **fit_params)
    269 if self._final_estimator is not None:
    270 self._final_estimator.fit(Xt, y, **fit_params)

C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in _fit(self, X, y, **fit_params)
    232 pass
    233 elif hasattr(transform, "fit_transform"):
--> 234 Xt = transform.fit_transform(Xt, y, **fit_params_steps[name])
    235 else:
    236 Xt = transform.fit(Xt, y, **fit_params_steps[name]) \

C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in fit_transform(self, X, y, **fit_params)
    732 delayed(_fit_transform_one)(trans, name, weight, X, y,
    733 **fit_params)
--> 734 for name, trans, weight in self._iter())
    735 
    736 if not result:

C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\parallel.py in __call__(self, iterable)
    756 # was dispatched. In particular this covers the edge
    757 # case of Parallel used with an exhausted iterator.
--> 758 while self.dispatch_one_batch(iterator):
    759 self._iterating = True
    760 else:

C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\parallel.py in dispatch_one_batch(self, iterator)
    606 return False
    607 else:
--> 608 self._dispatch(tasks)
    609 return True
    610 

C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\parallel.py in _dispatch(self, batch)
    569 dispatch_timestamp = time.time()
    570 cb = BatchCompletionCallBack(dispatch_timestamp, len(batch), self)
--> 571 job = self._backend.apply_async(batch, callback=cb)
    572 self._jobs.append(job)
    573 

C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\_parallel_backends.py in apply_async(self, func, callback)
    107 def apply_async(self, func, callback=None):
    108 """Schedule a func to be run"""
--> 109 result = ImmediateResult(func)
    110 if callback:
    111 callback(result)

    C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\_parallel_backends.py in __init__(self, batch)
        324 # Don't delay the application, to avoid keeping the input
        325 # arguments in memory
    --> 326 self.results = batch()
        327 
        328 def get(self):

    C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\parallel.py in __call__(self)
        129 
        130 def __call__(self):
    --> 131 return [func(*args, **kwargs) for func, args, kwargs in self.items]
        132 
        133 def __len__(self):

    C:\\Anaconda3\lib\site-packages\sklearn\externals\joblib\parallel.py in (.0)
        129 
        130 def __call__(self):
    --> 131 return [func(*args, **kwargs) for func, args, kwargs in self.items]
        132 
        133 def __len__(self):

    C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in _fit_transform_one(transformer, name, weight, X, y, **fit_params)
        575 **fit_params):
        576 if hasattr(transformer, 'fit_transform'):
    --> 577 res = transformer.fit_transform(X, y, **fit_params)
        578 else:
        579 res = transformer.fit(X, y, **fit_params).transform(X)

    C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in fit_transform(self, X, y, **fit_params)
        299 """
        300 last_step = self._final_estimator
    --> 301 Xt, fit_params = self._fit(X, y, **fit_params)
        302 if hasattr(last_step, 'fit_transform'):
        303 return last_step.fit_transform(Xt, y, **fit_params)

    C:\\Anaconda3\lib\site-packages\sklearn\pipeline.py in _fit(self, X, y, **fit_params)
        232 pass
        233 elif hasattr(transform, "fit_transform"):
    --> 234 Xt = transform.fit_transform(Xt, y, **fit_params_steps[name])
        235 else:
        236 Xt = transform.fit(Xt, y, **fit_params_steps[name]) \

    C:\\Anaconda3\lib\site-packages\sklearn\base.py in fit_transform(self, X, y, **fit_params)
        495 else:
        496 # fit method of arity 2 (supervised transformation)
    --> 497 return self.fit(X, y, **fit_params).transform(X)
        498 
        499 

     in transform(self, X)
         10 
         11 def transform(self, X):
    ---> 12 return X[self.column]

    IndexError: only integers, slices (`:`), ellipsis (`...`), numpy.newaxis (`None`) and integer or boolean arrays are valid indices

biên tập:

如果我在 fit 中使用 train 而不是 train.values ，则会出现以下错误:

TypeError: fit_transform() takes 2 positional arguments but 3 were given

1 Câu trả lời

您将 test.values(即具有原始 DataFrame 值的 numpy 数组)传递给 classifier.predict 和 classifier.fit，而您的转换器需要一个 DataFrame 对象。

关于python - 使用 FeatureUnion 拟合管道时出现 IndexError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44696741/

Bài viết được đề xuất: python - 如何让python再次打印到同一行

Bài viết được đề xuất: ftp - 如何在 PHP 中通过 TLS 使用隐式 FTP 建立 FTP 连接

Bài viết được đề xuất: python - 如何通过 Django Rest Framework 公开非模型模块方法？

Bài viết được đề xuất: java - SSL 握手失败错误

Phân cụm trong Python hoặc hợp nhất các cụm để giảm số lượng nhóm (Python)
Tôi đang xử lý một tập hợp gồm 173 nghìn điểm được dán nhãn thành 160 nhóm. Tôi muốn giảm số lượng nhóm/cụm bằng cách sáp nhập những nhóm/cụm gần nhất (còn 9 hoặc 10 nhóm). Tôi đã tìm kiếm sklearn hoặc các thư viện tương tự nhưng không thành công. Tôi đoán nó chỉ là sự nhóm lại thông qua knn
Phân chia danh sách dựa trên các nhóm phần tử của cùng một danh sách, theo Python
Tôi có một danh sách phẳng các số được nhóm hợp lý thành các nhóm 3, trong đó mỗi bộ ba là (số, __bỏ qua, cờ[0 hoặc 1]), ví dụ: [7,56,1, 8,0,0, 2,0,0, 6,1,
Kích hoạt môi trường ảo Python và gọi một tập lệnh Python từ bên trong một tập lệnh Python khác
Tôi đang sử dụng pipenv để quản lý các gói của mình. Tôi muốn viết một tập lệnh python để gọi một tập lệnh python khác sử dụng môi trường ảo (VE) khác. Cách chạy một tập lệnh python bằng VE1 và gọi một tập lệnh khác
Thực hiện các tệp Python theo chương trình từ bên trong Python trong môi trường Python mới
Giả sử tôi có một tệp script.py nằm ở đường dẫn = "foo/bar/script.py". Tôi đang tìm cách thực thi các tập lệnh trong Python từ Python chính của tôi
Chạy một tập lệnh python từ bên trong một tập lệnh python nhưng bên ngoài tập lệnh python
Điều này nghe có vẻ giống như một câu đố hay một trò đùa, nhưng thực ra tôi vẫn chưa tìm ra câu trả lời cho câu hỏi này. Vấn đề thực sự là gì? Tôi muốn chạy 2 tập lệnh. Trong tập lệnh đầu tiên, tôi gọi tập lệnh kia, nhưng tôi muốn chúng tiếp tục song song, chứ không phải thành hai luồng riêng biệt. Chủ yếu là tôi không muốn
Chạy một tập lệnh python từ python bằng cách sử dụng một python khác
Tôi có một phần mềm sử dụng python 2.5.5. Tôi muốn gửi lệnh để bắt đầu một tập lệnh trong python 2.7.5 và sau đó tiếp tục thực thi tập lệnh đó. Tôi đã thử sử dụng #!python2.7.5 và http://re
Tại sao Python không thể tìm và chạy tập lệnh của tôi khi tôi gọi nó từ dòng lệnh Python?
Tôi đang ở dòng lệnh python (sử dụng python 2.7) và đang cố gắng chạy một tập lệnh Python. Hệ điều hành của tôi là Windows 7. Tôi đã thiết lập thư mục của mình thành thư mục chứa tất cả các tập lệnh của tôi bằng cách sử dụng: os.chdir("
Lỗi Python nghiêm trọng khi thực thi mã Python nhúng bằng phiên bản Python động python python-3.x
Spoiler: Đã giải quyết một phần (xem phần cuối). Sau đây là một ví dụ mã sử dụng nhúng Python: #include int main(int argc, char** argv) { Py_SetPythonHome
Cách nhanh nhất trong Python để xác định sự khác biệt tích lũy lớn nhất trong một mảng hoặc danh sách Python là gì?
Giả sử tôi có danh sách sau, tương ứng với giá cổ phiếu theo thời gian thực: giá = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] Tôi muốn xác định giá trị tốt nhất tổng thể sau đây
(Python) Cập nhật nền thông qua các nút radio python
Vì vậy, tôi đang cố gắng thay đổi hình nền của khung này khi một nút radio nào đó được chọn. Khung của tôi nằm bên trong một lớp và chức năng của các nút radio nằm bên ngoài lớp đó. (Để tôi có thể gọi chúng trên tất cả các khung khác.) Vấn đề là bất cứ khi nào tôi chọn một nút radio, tôi nhận được lỗi sau:
So sánh chuỗi với biểu thức chính quy trong python không thành công trong python
Tôi đang cố gắng so sánh một chuỗi với một biểu thức chính quy trong python như sau, #!/usr/bin/env python3 import re str1 = "Expecting property name
Làm thế nào để tải thư viện Boost.Python? python Boost.Python
Hãy xem xét mô-đun Boost.Python nguyên mẫu sau đây nhập lớp "D" từ một tệp tiêu đề C++ riêng biệt. /* tập tin: a/b.cpp */ BOOST_PYTHON_MODULE(c)
Các vấn đề với module kiểm tra python
Làm thế nào để viết một chương trình để "xác định số dòng của lệnh gọi hàm?" Mô-đun kiểm tra của Python cung cấp tùy chọn để xác định vị trí số dòng, tuy nhiên, def di(): return inspect.currentframe().f_back.f_l
Hệ thống Python so với Người dùng Python
Tôi đã cài đặt Python 2.7 bằng macports và do biến $PATH của tôi nên đây là những gì tôi nhận được khi nhập $ python. Tuy nhiên, virtualenv sử dụng Python 2.6 theo mặc định, ngoại trừ
[Python]: Python re. Tối ưu hóa tốc độ tìm kiếm cho các dòng chuỗi dài
Tôi chỉ muốn hỏi làm thế nào để tăng tốc độ tìm kiếm trên python. Tôi có một chuỗi ký tự rất dài, dài 176861 (tức là các ký tự chữ và số có một số ký hiệu) mà tôi đã thử nghiệm cho mục đích nghiên cứu bằng cách sử dụng hàm này: def getExe
Chỉnh sửa chuỗi python biểu thức chính quy python
list1 = [u'%app%%General%%%Council%', u'%people%', u'%people%%Regional%%%Council%%Mandate%', u'%ppp%%Ge
Tác dụng phụ trong ánh xạ Python (khối "do" của Python)
Câu hỏi này đã có câu trả lời tại đây: Có phải Pythonic sử dụng danh sách hiểu biết chỉ cho các tác dụng phụ không? (7 câu trả lời) Đã đóng 4 tháng trước. kể
Kết hợp hai danh sách python bằng cách sử dụng các giá trị của chúng một cách hợp lý - Python
Tôi muốn kết hợp hai danh sách thành một danh sách trong Python như sau: a = [1,1,1,2,2,2,3,3,3,3] b = ["Sun", "is", "bright", "June","and" ,"Ju
Lỗi liên kết Python Boost.Python
Tôi đang chạy Mac OS X 10.8.4 (Darwin 12.4.0) với bản phân phối Boost mới nhất (1.55.0). Tôi đang làm theo hướng dẫn ở đây để xây dựng hướng dẫn Boost-Pyth có trong bản phân phối của tôi
Tạo một trình thu thập dữ liệu web cơ bản bằng Python chỉ sử dụng các thư viện tích hợp sẵn - Python
Tôi đang học Python và đang cố gắng tạo một trình thu thập dữ liệu web mà không cần bất kỳ thư viện của bên thứ 3 nào nên quy trình không được đơn giản hóa đối với tôi và tôi biết mình đang làm gì. Tôi đã tìm kiếm một số tài liệu trực tuyến nhưng tất cả đều khiến tôi bối rối về một điều gì đó. html trông giống như

太空宇宙

Hồ sơ cá nhân

Tôi là một lập trình viên xuất sắc, rất giỏi!

Bài viết phổ biến của tác giả

Nhận phiếu giảm giá Didi Taxi miễn phí

Các bài viết nóng hổi trên toàn bộ trang web

trang đầu

đã học

Trí tuệ nhân tạo 6Ren

Trung tâm mua sắm

python - 使用 FeatureUnion 拟合管道时出现 IndexError