Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
找人
Search
uictechparty
August 04, 2012
Programming
3
470
找人
By Entity Search Engine team, 3n TechParty@UIC
uictechparty
August 04, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
220
香港研究生申请经验分享
uictechparty
0
410
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
120
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
210
Introduction to Hadoop
uictechparty
3
230
Other Decks in Programming
See All in Programming
Rubyで鍛える仕組み化プロヂュース力
muryoimpl
0
250
公共交通オープンデータ × モバイルUX 複雑な運行情報を 『直感』に変換する技術
tinykitten
PRO
0
180
Cap'n Webについて
yusukebe
0
160
Grafana:建立系統全知視角的捷徑
blueswen
0
260
認証・認可の基本を学ぼう後編
kouyuume
0
260
2年のAppleウォレットパス開発の振り返り
muno92
PRO
0
130
JETLS.jl ─ A New Language Server for Julia
abap34
2
470
Java 25, Nuevas características
czelabueno
0
120
リリース時」テストから「デイリー実行」へ!開発マネージャが取り組んだ、レガシー自動テストのモダン化戦略
goataka
0
150
20251212 AI 時代的 Legacy Code 營救術 2025 WebConf
mouson
0
230
ZJIT: The Ruby 4 JIT Compiler / Ruby Release 30th Anniversary Party
k0kubun
1
300
大規模Cloud Native環境におけるFalcoの運用
owlinux1000
0
230
Featured
See All Featured
Claude Code のすすめ
schroneko
67
210k
What does AI have to do with Human Rights?
axbom
PRO
0
1.9k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Rebuilding a faster, lazier Slack
samanthasiow
85
9.3k
Navigating Team Friction
lara
191
16k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Testing 201, or: Great Expectations
jmmastey
46
7.8k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Are puppies a ranking factor?
jonoalderson
0
2.5k
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
400
Java REST API Framework Comparison - PWX 2021
mraible
34
9.1k
Rails Girls Zürich Keynote
gr2m
95
14k
Transcript
找人 中文数据抓取、存储、处理及展示解决方案 TechParty@UIC Entity Search Engine team
项目的目标、目前进度及未来方向 目标:通过中文信息抽取的方法从人物的描述性文本中抽取 出该人物的社交图谱、人-机构关系及简历数据,以供检 索。 进度:1. 完成百度百科、互动百科、新浪微博、腾讯微 博、和讯网、CEO网等部分数据的抓取(约1个月) 2. web搜索框架基本完成 3.
命名实体识别(NER,准确率未统计) 4. 实体关系识别(ERR,准确率未统计)
项目的目标、目前进度及未来方向 方向:人肉搜索?人才搜索?
整体架构 Web HtmlUnit 火车头 cnpameng XML Mongodb ICTCLAS NER(PLY) ERR(Regx)
Cosin Simi Mongodb Mongodb Redis CodeIgniter JQuery + D3.js
数据抓取 面临问题:数据结构繁杂、帐号ip可能被封、页面Ajax调 用 使用工具: 1. 火车头:通过编写规则抓取数据 2. HtmlUnit:灵活度高 3. cnpameng:众包形式的数据采集共享
HtmlUnit
数据存储 1. 文件系统? —— FileIO操作,线程锁麻烦不安全 2. 关系型数据库? —— 对非结构化的原始数据不合适 ——
对分布式存储支持不友好 3. Not Only SQL? —— Mongodb, Redis
MongoDB MongoDB (from "humongous") is a scalable, high- performance, open
source NoSQL database. Written in C++ 1. 文档型数据库:类JSON格式的键值对集合 2. 索引:支持对有重复值的key建立索引 3. 全文检索 3. MapReduce
MongoDB
Redis Redis is an open source, advanced key-value store. It
is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis> set k hello OK redis> append k ,world (integer) 11 redis> get k "hello,world"
数据处理 面临问题:无训练用标注语料、中文NLP开源工具缺乏、文 本数据来源繁多
中文自然语言处理 分词:ICTCLAS(中科院),基于HMM 收集词典(HTMLUnit + 火车头) 编译Python接口(工具自带C/C++, Java, C#)
中文自然语言处理 个人/n/O 简介/n/O :/wp/O 马欣川/nr/PER ,/wd/O 男 /nse/SEX 。/wj/O 资深职业顾问/np/POS
、/wn/O 心理学/nm/MAJ 博士 /nde/DEG 、/wn/O 人才测评/nm/MAJ 博士后/nde/DEG 、 /wn/O 原/b/O 华南师范大学/nte/EDU 人力资源研究所 /ntr/LAB 副所长/np/POS 、/wn/O 国内/s/O 最/d/O 具 /vg/O 实战/n/O 经验/n/O 的/ude1/O 人才测评/nm/MAJ 专 家/n/O 之一/rz/O 。/wj/O
信息抽取 命名实体识别: 基于统计:CRF?—— 缺乏训练语料,近似黑盒 基于规则:CFG -> Bison/Flex -> PLY(LALR)
信息抽取 实体关系识别: 基于规则:使用正则文法对分词后的句子进行反复匹 配。 马欣川 Education: major 人才测评/nm/MAJ degree 博士后/nde/DEG
-------------------------------------------------------------- Work: organization 华南师范大学/nte/EDU 人力资源研究所/ntr/LAB position 副所长/np/POS
单个文档内的合并数据 为何要合并? 余弦相似性:通过测量两个向量之间的角的余弦值来度量 它们之间的相似性。0度角的余弦值是1,而其他任何角度的 余弦值都不大于1;并且其最小值是-1。从而两个向量之间的 角度的余弦值确定两个向量是否大致指向相同的方向。
多个文档间的数据合并 ?
数据展示 CodeIgniter:PHP框架,中文文档齐全,轻量级 SCWS:PHP中文分词框架 D3.js:数据可视化jS框架
D3.js 1 使用的json格式 2 效果 3 API https://github.com/mbostock/d3/wiki/API- Reference