python - 使用 RegEx 从字符串中获取 YouTube 视频 url 或 YouTube 视频 ID-6ren

python - 使用 RegEx 从字符串中获取 YouTube 视频 url 或 YouTube 视频 ID

In lại Tác giả: Vũ trụ không gian 更新时间：2023-11-04 06:59:43

29

4

所以我一直坚持这个大约一个小时左右，我就是无法让它工作。到目前为止，我一直在尝试从字符串中提取整个链接，但现在我觉得只获取视频 ID 可能更容易。

RegEx 需要从以下链接样式中获取 ID/URL，无论它们在字符串中的什么位置:

http://youtube.com/watch?v=iwGFalTRHDA
http://www.youtube.com/watch?v=iwGFalTRHDA&feature=related
https://youtube.com/iwGFalTRHDA
http://youtu.be/n17B_uFF4cA
youtube.com/iwGFalTRHDA
youtube.com/n17B_uFF4cA
http://www.youtube.com/embed/watch?feature=player_embedded&v=r5nB9u4jjy4
http://www.youtube.com/watch?v=t-ZRX8984sc
http://youtu.be/t-ZRX8984sc

到目前为止，我有这个正则表达式:

((http(s)?\:\/\/)?(www\.)?(youtube|youtu)((\.com|\.be)\/)(watch\?v=)?([0-z]{11}|[0-z]{4}(\-|\_)[0-z]{4}|.(\-|\_)[0-z]{9}))

这会捕获链接，但它也会将链接分解为多个部分，并将其也添加到列表中，因此如果字符串包含单个 youtube 链接，则打印列表时的输出如下所示:

('https://www.youtube.com/watch?v=Idn7ODPMhFY', 'https://', 's', 'www.', 'youtube', '.com/', '.com', 'watch?v=', 'Idn7ODPMhFY', '', '')

我需要列表只包含链接本身，或者只包含视频 ID(这样更可取)。我真的已经尝试自己做了很长一段时间了，但我就是想不通。我想知道是否有人可以为我整理正则表达式并告诉我哪里出错了，这样我以后就不会再遇到这个问题了？

câu trả lời hay nhất

与其编写可能并非在所有情况下都有效的复杂正则表达式，不如使用工具来分析 url，例如 urllib:

from urllib.parse import urlparse, parse_qs

url = 'http://youtube.com/watch?v=iwGFalTRHDA'

def get_id(url):
    u_pars = urlparse(url)
    quer_v = parse_qs(u_pars.query).get('v')
    if quer_v:
        return quer_v[0]
    pth = u_pars.path.split('/')
    if pth:
        return pth[-1]

如果两次尝试都失败，此函数将返回 Không có.

我用示例 url 测试了它:

>>> get_id('http://youtube.com/watch?v=iwGFalTRHDA')
'iwGFalTRHDA'
>>> get_id('http://www.youtube.com/watch?v=iwGFalTRHDA&feature=related')
'iwGFalTRHDA'
>>> get_id('https://youtube.com/iwGFalTRHDA')
'iwGFalTRHDA'
>>> get_id('http://youtu.be/n17B_uFF4cA')
'n17B_uFF4cA'
>>> get_id('youtube.com/iwGFalTRHDA')
'iwGFalTRHDA'
>>> get_id('youtube.com/n17B_uFF4cA')
'n17B_uFF4cA'
>>> get_id('http://www.youtube.com/embed/watch?feature=player_embedded&v=r5nB9u4jjy4')
'r5nB9u4jjy4'
>>> get_id('http://www.youtube.com/watch?v=t-ZRX8984sc')
't-ZRX8984sc'
>>> get_id('http://youtu.be/t-ZRX8984sc')
't-ZRX8984sc'

关于python - 使用 RegEx 从字符串中获取 YouTube 视频 url 或 YouTube 视频 ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45579306/

29

4

0

Bài viết khuyến nghị: python - 从列表中更改 Pandas Dataframe 中的列名称

Bài viết khuyến nghị: c# - 将 Java 加密代码转换为 C#

Bài viết khuyến nghị: c - 让 int8_t num = -1。为什么 printf ("%u", num) 溢出到 T_MAX32 而不是 T_MAX8？

Bài viết khuyến nghị: java - 使用 Smack XMPP 发送内嵌图像

c# - tác vụ không đồng bộ Nhận VS HttpResponseMessage Nhận
Tôi cần sự giúp đỡ của bạn với những điều sau đây. Tôi đã đọc về nhiệm vụ và không đồng bộ trong gần một tháng. Tôi muốn thử triển khai kiến thức mới tìm thấy của mình trong một dự án API WEP đơn giản. Tôi có các phương pháp sau và tất cả chúng đều hoạt động như mong đợi: public Htt
Không thể lấy URI từ URL, nhận được giá trị rỗng?
Tôi có tệp mẫu (.xls) trong tệp thực thi của mình. Không cần trong thời gian chạy, tôi cần tạo hơn 100 bản sao của tệp này (sẽ được thêm vào sau). Được sử dụng để lấy tài nguyên trong tệp jar (template.xls). tôi đang sử dụng
javascript - Thu thập nguyên mẫu (nguyên mẫu) mô hình của Backbone so với thu thập xương sống
Tôi đang xem mã mô hình của trang web và có câu hỏi về nguyên mẫu. Tôi biết điều này hữu ích cho việc kế thừa trong Javascript. Trong ví dụ này...define([], function () { "use
javascript - Bắt ScrollTop, nhận offsetHeight và getStyle mất nhiều thời gian
Ba thao tác hàng đầu ảnh hưởng đến hiệu suất của tôi là: Nhận thanh cuộn Nhận chiều cao bù trừ Ext.getStyle Để giải thích những gì đang xảy ra trong ứng dụng của tôi: Tôi có một lưới với một cột trong mỗi ô hiển thị lưới. Khi tôi làm hầu hết mọi thứ với nội dung của lưới, nó sẽ hoạt động
Nhận chức năng tham số URL, nhận giá trị của phần url hoặc trả về true nếu có nhưng không có giá trị?
Tôi đang sử dụng chức năng sau để lấy tham số URL. hàm gup(tên, url) { name = name.replace(/[\[]/, '\\\[').replace(/[\]]/,
c - MacOS sử dụng sysctl() để lấy HW_MACHINE_ARCH để nhận được "không có tệp hoặc thư mục như vậy"
Gần đây tôi đã sử dụng sysctl cho rất nhiều thứ và hiện tại tôi đang sử dụng biến HW_MACHINE_ARCH. Tôi đang sử dụng đoạn mã sau. Lưu ý rằng mã này hoạt động hoàn hảo khi tôi cố gắng lấy biến khác HW_MACHINE. tôi cũng nghĩ
Đưa (đưa) kênh YouTube của tôi vào ứng dụng iOS của tôi
đóng cửa. Câu hỏi này không tuân thủ các nguyên tắc của Stack Overflow. Hiện tại nó không chấp nhận câu trả lời. Đóng cửa 9 năm trước Các câu hỏi yêu cầu mã phải thể hiện sự hiểu biết tối thiểu về vấn đề đang được giải quyết. Bao gồm các giải pháp đã thử và tại sao
webpack: Cách lấy JavaScript từ "bower_comComponents" thay vì "node_modules"
Vì sử dụng main-bower-files như một phần của tác vụ biên dịch bằng Gulp, nên tôi không thể sử dụng webpack trong node_modules để yêu cầu module code> dir vì tôi sẽ làm rối mã
Javascript - Nhận "mon" từ "Thứ Hai" hoặc "thứ ba" từ "Thứ Ba", v.v.
đóng cửa. Câu hỏi này cần tập trung hơn. Hiện tại nó không chấp nhận câu trả lời. Bạn muốn cải thiện câu hỏi này? Đã cập nhật câu hỏi để tập trung vào một vấn đề chỉnh sửa bài đăng này Đã đóng 5 năm trước. Cải thiện câu hỏi này
Java: Không thể áp dụng Gridlayout cho Jscrollpane. Nhận java.lang.ClassCastException
Tôi đang sử dụng Gridlayout để đặt 4 phần tử liên tiếp. Đầu tiên, tôi có JPanel và mọi thứ đều hoạt động tốt. Đối với những trường hợp số lượng hàng ngày càng lớn và tôi phải cuộn xuống, tôi đã thực hiện một số thay đổi đối với nó. Bây giờ tôi đã thêm J vào JPanel của mình
python — Cách lấy VolumeId từ khóa BlockDeviceMappings (boto3 lấy thông tin về âm lượng ec2)
Tôi muốn lưu giá trị của VolumeId vào một biến vì những lý do sau: #!/usr/bin/env python import boto3 import json import argparse import
Angularjs - Không sử dụng AcacquiTokensilent để nhận mã thông báo mà sử dụng trình duyệt Msal AcacquiTokenpopup để nhận mã thông báo
Tôi đang cập nhật MSAL phiên bản 1.x lên trình duyệt MSAL cho Angular. Vì vậy, tôi đang cố gắng di chuyển từ phiên bản 1.x sang 2.XI và đã có thể thay thế mã thành công và nó hoạt động tốt. Nhưng tôi đã gặp có đượcT
python - Lấy mức trung bình của Pandas bằng GroupBy - Lấy DataError: Không có loại số nào để tổng hợp -
Tôi biết có rất nhiều câu hỏi về vấn đề này như Lấy số trung bình hàng ngày với gấu trúc và Làm thế nào để lấy giá trị trung bình hàng tháng của gấu trúc bằng cách sử dụng nhóm nhưng tôi đã gặp phải
Không thể lấy DATETIME từ QueryString trong phương thức mvc getController (từ Uri())
Đây là chuỗi truy vấn mà tôi nhận được trong URL đầu ra: /demo/analysis/test?startDate=Sat+
ubuntu - Tải Geoserver từ OpenLayer 3 nhận '500 (Lỗi máy chủ nội bộ)'
Tôi đang cố gắng truy cập lớp Geoserver var gkvrtWmsSource =new ol.source.ImageWMS({ u
javascript - Nhận thông tin API Ecobee bằng XMLHttpRequest. Nhận 500 (Lỗi 1: "Xác thực không thành công. Cần có mã thông báo.")
API yêu cầu tiêu đề chứa mã ủy quyền. Đây là những gì tôi có cho đến nay: var fullUrl = 'https://api.ecobee.com/1/thermostat?json=\{"s
c# - Nhận/xóa ký tự cuối cùng của tệp mà không tải vào bộ nhớ
Làm cách nào tôi có thể lấy ký tự cuối cùng trong một tệp và nếu đó là một ký tự nhất định, hãy xóa nó mà không tải toàn bộ tệp vào bộ nhớ? Đây là những gì tôi có hiện tại. sử dụng (var fileStream = new FileStream("file.t
JSP lấy/đặt tham số của toàn bộ đối tượng
Tôi mới tham gia cộng đồng này và nghĩ ra câu hỏi đầu tiên của mình. Tôi đang làm việc với JSP và tôi đã tạo thành công các Trang web JSP đang sử dụng jsp:setParameter và jsp:getParameter bằng một chuỗi duy nhất.
đa luồng - thu thập/giải phóng ngữ nghĩa
Để trả lời cho việc sắp xếp lại StoreStore xảy ra khi biên dịch C++ cho x86 @Peter Cordes đã viết For Acquire/Release se
javascript - Nhận kết quả của các hàm được sử dụng trong .on
Tôi có một hàm, hãy gọi nó là X1, hàm này trả về biến Y. Hàm này được sử dụng trong hành động .on("focusout", X1). Làm thế nào để có được biến Y? Kết quả của X1 sau khi thực thi .on là gì? Câu trả lời hay nhất Bạn có thể thay đổi phạm vi của Y để nó nằm trong hàm

trang đầu

đã học

6Ren·AI

Trung tâm mua sắm

python - 使用 RegEx 从字符串中获取 YouTube 视频 url 或 YouTube 视频 ID