如何获取一个句子的拼音 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 4145 天前的主题，其中的信息可能已经有所发展或是发生改变。

情况是这样的：

这里有一个大小约0.5个G的一个纯文本文件。
该纯文本文件每一行保存的都是一句话，并且该文件中无重复的话。一句话内部只有简体汉字，无标点符号、无空格、无英文、无繁体字等等

现在我需要为这个文件里面每一句话弄一行拼音，并且将拼音存入另外一个文件中，行号一一对应，请问我该怎么做？

拼音是全拼，且无声调，无空格，需要考虑多音字。

比如：zheyihangdiquebuxing（这一行的确不行）

10 条回复 • 1970-01-01 08:00:00 +08:00

1

levon

2013-08-23 12:10:59 +08:00

http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
这有一个，是.net的类库

汉字有很多多音字，要完全准确感觉挺难

2

qdvictory

2013-08-23 12:19:58 +08:00

通常都是扒一码表，然后跑一下

https://gist.github.com/qdvictory/6315510

3

qdvictory

2013-08-23 12:21:23 +08:00

汗，我理解错了，sorry－－

4

qdcanyun

2013-08-23 12:37:06 +08:00

https://github.com/flyerhzm/chinese_pinyin/blob/master/data/Mandarin.dat

5

leiz

2013-08-23 12:45:29 +08:00

python有中文文字转拼音的库，不过效率不清楚

6

200

2013-08-23 12:56:06 +08:00

要做准确的话就要分词不然多音字会有问题

7

felix021

2013-08-23 13:32:53 +08:00

顶@200 。汉字转拼音的数据和代码很多，但是搞不定多音字，前面的那些回答都没啥用。要解决多音字，必须从语义层面入手。分词是一个比较好的方法，但是最终的实现还是需要一个"词语->拼音"的数据库，这个貌似不太好找。

8

wuxqing

2013-08-23 13:53:50 +08:00

@felix021 对，关键是“词语->拼音”的数据库

9

kittenll

2013-08-23 14:56:30 +08:00

1

利用自然语言统计模型处理，可以很好的处理多音字的问题。比如HMM（隐马尔土科夫模型）。如果计算资源足够的话，可以使用n>2，不然使用n=2就可以了。

10

YUCOAT

OP

2013-08-23 15:25:13 +08:00

@kittenll 你提出的想法是最有用的。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 944 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 23ms · UTC 20:31 · PVG 04:31 · LAX 12:31 · JFK 15:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.