chenY520 最近的时间轴更新
chenY520

chenY520

V2EX 第 615574 号会员,加入于 2023-02-22 22:37:04 +08:00
今日活跃度排名 24024
根据 chenY520 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
chenY520 最近回复了
求码
135 天前
回复了 jqtmviyu 创建的主题 macOS 请问有用 macos todesk 的吗
todesk 经常 tm 卡死,真垃圾
@chiu 这不是 bob 嘛
生日快乐老铁!
支持一下!!!!
求个 lifetime ,op 。 emVzcWFxQGdtYWlsLmNvbQ
感觉 ios 计算器一点也不好用
218 天前
回复了 ShikiSuen 创建的主题 iDev 中文分词时该怎样定义被误拆的专有词?
@ShikiSuen #4 chatgpt 可以试试
218 天前
回复了 ShikiSuen 创建的主题 iDev 中文分词时该怎样定义被误拆的专有词?
@ShikiSuen #4

import Foundation

// 创建自定义词典,将需要保留的词汇映射到一个数组,以便后续检查
let customDictionary: [String: [String]] = [
"白术": ["白术"],
"大夫": ["大夫"],
"七七": ["七七"]
]

func tokenize(sentence: String) -> [String] {
var tokens: [String] = []
let tagger = NSLinguisticTagger(tagSchemes: [.tokenType], options: 0)
tagger.string = sentence
let range = NSMakeRange(0, sentence.utf16.count)
let options: NSLinguisticTagger.Options = [.omitWhitespace, .omitPunctuation]

tagger.enumerateTags(in: range, unit: .word, scheme: .tokenType, options: options) { (tag, tokenRange, stop) in
let word = (sentence as NSString).substring(with: tokenRange)
if let specialCases = customDictionary[word] {
tokens.append(contentsOf: specialCases)
} else {
tokens.append(word)
}
}
return tokens
}

let texts: [String] = ["有個大夫叫白朮,他有個徒弟叫七七。"]
for text in texts {
let tokens = tokenize(sentence: text)
print("\(text) --> \(tokens)")
}
218 天前
回复了 ShikiSuen 创建的主题 iDev 中文分词时该怎样定义被误拆的专有词?
自定义词典吧
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3391 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 10ms · UTC 10:40 · PVG 18:40 · LAX 03:40 · JFK 06:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.