我有一个包含单词的语料库。我想对他们做一个分析。我接受它们是土耳其字符,但其中一些不是。所以我想检查一个词是否不包含土耳其字符或数字。我的意思是:
hey4 valid
33 valid
kırp valid
vxz invalid
ğşiüçö valid
xwq invalid
如何快速检查(是否使用正则表达式)。我有数百万个标记,我想删除其中一些我知道它们不是土耳其语的标记,因为它们包含非土耳其语字符。
看来你可以寻找类似的东西
String[] data = {
"hey4", // valid
"33", // valid
"kırp", // valid
"vxz", // invalid
"ğşiüçö",// valid
"xwq", // invalid
};
Pattern p = Pattern.compile("[abcçdefgğhıijklmnoöprsştuüvyz\\d]+",
Pattern.CASE_INSENSITIVE);
// just in case shorter version of regex "[0-9a-pr-yzçğıöşü]+"
for (String s : data)
System.out.println(s + "\t > " + p.matcher(s).matches());
Đầu ra:
hey4 > true
33 > true
kırp > true
vxz > false
ğşiüçö > true
xwq > false
Tôi là một lập trình viên xuất sắc, rất giỏi!