macOS 识别图片文字的效果是不是很好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1080 天前的主题，其中的信息可能已经有所发展或是发生改变。

试了一下预览 app ，好像很多文字都能自动识别，只有一些复杂背景并且颜色反差比较小的才难以识别出来。
是不是 Windows 就不行呢？
鸿蒙呢？（狗头）

第 1 条附言 · 2021-12-09 19:29:53 +08:00

问题联动：/t/820234 [Python 识别图片文字的效果是不是很差？]

识别

鸿蒙

macOS

文字

14 条回复 • 2021-12-11 21:23:21 +08:00

zhouwb

2021-12-09 19:17:17 +08:00 via iPhone

识别还行吧，不算特别好的，但也不差，关键是方便啊，预览能直接拷贝文字链接不要太爽，工作快捷了很多

ynyounuo

2021-12-09 19:33:42 +08:00

比较出众的是多语言混排识别，我试过中英德语混排的照片是可以比较好的分别做出识别的

目前中文识别还不支持 language correction 所以实际上效果是不如其他支持的印欧语系的语言的

AndyZhuAZ

2021-12-09 20:42:17 +08:00

https://s2.loli.net/2021/12/09/SYQ9WocFzhe62XO.png

mikewang

2021-12-09 21:16:55 +08:00

#2 @ynyounuo 可能和中文的分词有难度，或者特殊用法比较多有关吧。有种感觉腾讯的 OCR 有纠错功能，因为它有时识别错误还能变成另一个词组，不是无意义的单字...

#3 @AndyZhuAZ 笑死，不过官方还不支持日文吧。Google 了一下 https://s2.loli.net/2021/12/09/6lormCKL5hXZ3Af.png

AndyZhuAZ

2021-12-09 22:42:52 +08:00

@mikewang 但是它能识别出日文字形的汉字和の，我不理解

YuiTH

2021-12-10 01:41:58 +08:00

@AndyZhuAZ 一般来说，这种模型的语料都不会是“纯 X 文”的，就像英文语料里肯定会出现“Café”，中文语料里混入一些の也可以理解。
具体来说，我们做自然语言生成都用到一个词表，词表是用这个语言的语料生成的，语料可能来源于 wiki 页面啊搜索引擎爬取什么的。看这个语言里面所有的字哪些出现在一起的可能性比较高，就会变成一个词。出现频率过低的字符可能会被扔掉，所以用中文词表可能就很难识别出奇奇怪怪的阿拉伯什么的。更别提语料里完全没见过的语言。
虽然有多语言的模型，词表会相应的覆盖所有语言。但如果规定了语言，我们可能就会指定使用对应语言的词表模型来做 OCR ，效果更好一些。
所以为什么能识别の，就是因为中文语料里の最常见，比其他假名都常见，词表里有这个字符，模型也学会了这个字符的造型。

AyaFrost

2021-12-10 03:08:41 +08:00

原来不支持日文，上次提取了半天还以为姿势不对。
最需要的就是群友发日文 meme 图的时候提取出来看看到底说的什么

whusnoopy

2021-12-10 08:01:26 +08:00

跟联动帖一样，标题和立场设偏了

不是 macOS 的文字识别有多强，是苹果的 OCR 技术有多强，并且在 iOS 15 和 macOS Monterey 上用系统原生应用自带了

Windows 不确定现在系统自带原生应用识别如何，很久以前 OneNote 和 PowerPoint 就有相当可用的识别能力了

歪楼联动下，https://techcommunity.microsoft.com/t5/azure-ai-blog/azure-text-to-speech-updates-at-build-2021/ba-p/2382981 这个 TTS 语音输出能力，该算微软的，还是 Azure 的，还是 Windows 或者谁的?

xing7673

2021-12-10 10:47:05 +08:00 via iPhone

@whusnoopy 等 edge 出一个我就认同你这段话。现在微软算法强但是系统集成太慢了。

agagega

2021-12-10 11:44:37 +08:00

为啥我预览里没法 OCR ，要浏览器里打开图片才行

liw2756

2021-12-10 21:56:29 +08:00 via iPhone

一般般，看人品，有的时候网页截图都有部分识别不出来

westtide

2021-12-11 10:56:36 +08:00

楼主考哪里啊

mikewang

2021-12-11 19:33:41 +08:00

#6 @YuiTH 解释得很专业！
#10 @agagega 预览的菜单栏中要选择[工具] - [文本选择]，要 OCR 的话
#12 @westtide 南京某高校，这不是重点...

YuiTH

2021-12-11 21:23:21 +08:00

@whusnoopy 微软 Windows 和 Azure 不是一个 BG ，这篇文章是 Azure AI 的 Blog 的，应该和 Windows 关系不大。至于背后模型，有可能是 Azure AI 自己的团队做的，也可能是和 MSR 的联合作品。总之肯定是微软的。

@mikewang 这毕竟是我过去一年的本职工作: ) NLP 的入门门槛确实比 CV 要高一些，在送入模型以前有各种奇奇怪怪的预处理。