Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
找人
Search
uictechparty
August 04, 2012
Programming
3
460
找人
By Entity Search Engine team, 3n TechParty@UIC
uictechparty
August 04, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
210
香港研究生申请经验分享
uictechparty
0
410
css.pdf
uictechparty
1
210
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
180
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
120
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
210
Introduction to Hadoop
uictechparty
3
230
Other Decks in Programming
See All in Programming
ruby.wasmで多人数リアルタイム通信ゲームを作ろう
lnit
2
270
明示と暗黙 ー PHPとGoの インターフェイスの違いを知る
shimabox
2
320
GraphRAGの仕組みまるわかり
tosuri13
8
480
技術同人誌をMCP Serverにしてみた
74th
1
370
Gleamという選択肢
comamoca
6
760
ASP.NETアプリケーションのモダナイズ インフラ編
tomokusaba
1
410
Rubyでやりたい駆動開発 / Ruby driven development
chobishiba
1
430
地方に住むエンジニアの残酷な現実とキャリア論
ichimichi
5
1.3k
git worktree × Claude Code × MCP ~生成AI時代の並列開発フロー~
hisuzuya
1
480
[初登壇@jAZUG]アプリ開発者が気になるGoogleCloud/Azure+wasm/wasi
asaringo
0
130
Enterprise Web App. Development (2): Version Control Tool Training Ver. 5.1
knakagawa
1
120
童醫院敏捷轉型的實踐經驗
cclai999
0
190
Featured
See All Featured
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Building Applications with DynamoDB
mza
95
6.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.4k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
29
9.5k
Writing Fast Ruby
sferik
628
61k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
670
GitHub's CSS Performance
jonrohan
1031
460k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
Done Done
chrislema
184
16k
Transcript
找人 中文数据抓取、存储、处理及展示解决方案 TechParty@UIC Entity Search Engine team
项目的目标、目前进度及未来方向 目标:通过中文信息抽取的方法从人物的描述性文本中抽取 出该人物的社交图谱、人-机构关系及简历数据,以供检 索。 进度:1. 完成百度百科、互动百科、新浪微博、腾讯微 博、和讯网、CEO网等部分数据的抓取(约1个月) 2. web搜索框架基本完成 3.
命名实体识别(NER,准确率未统计) 4. 实体关系识别(ERR,准确率未统计)
项目的目标、目前进度及未来方向 方向:人肉搜索?人才搜索?
整体架构 Web HtmlUnit 火车头 cnpameng XML Mongodb ICTCLAS NER(PLY) ERR(Regx)
Cosin Simi Mongodb Mongodb Redis CodeIgniter JQuery + D3.js
数据抓取 面临问题:数据结构繁杂、帐号ip可能被封、页面Ajax调 用 使用工具: 1. 火车头:通过编写规则抓取数据 2. HtmlUnit:灵活度高 3. cnpameng:众包形式的数据采集共享
HtmlUnit
数据存储 1. 文件系统? —— FileIO操作,线程锁麻烦不安全 2. 关系型数据库? —— 对非结构化的原始数据不合适 ——
对分布式存储支持不友好 3. Not Only SQL? —— Mongodb, Redis
MongoDB MongoDB (from "humongous") is a scalable, high- performance, open
source NoSQL database. Written in C++ 1. 文档型数据库:类JSON格式的键值对集合 2. 索引:支持对有重复值的key建立索引 3. 全文检索 3. MapReduce
MongoDB
Redis Redis is an open source, advanced key-value store. It
is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis> set k hello OK redis> append k ,world (integer) 11 redis> get k "hello,world"
数据处理 面临问题:无训练用标注语料、中文NLP开源工具缺乏、文 本数据来源繁多
中文自然语言处理 分词:ICTCLAS(中科院),基于HMM 收集词典(HTMLUnit + 火车头) 编译Python接口(工具自带C/C++, Java, C#)
中文自然语言处理 个人/n/O 简介/n/O :/wp/O 马欣川/nr/PER ,/wd/O 男 /nse/SEX 。/wj/O 资深职业顾问/np/POS
、/wn/O 心理学/nm/MAJ 博士 /nde/DEG 、/wn/O 人才测评/nm/MAJ 博士后/nde/DEG 、 /wn/O 原/b/O 华南师范大学/nte/EDU 人力资源研究所 /ntr/LAB 副所长/np/POS 、/wn/O 国内/s/O 最/d/O 具 /vg/O 实战/n/O 经验/n/O 的/ude1/O 人才测评/nm/MAJ 专 家/n/O 之一/rz/O 。/wj/O
信息抽取 命名实体识别: 基于统计:CRF?—— 缺乏训练语料,近似黑盒 基于规则:CFG -> Bison/Flex -> PLY(LALR)
信息抽取 实体关系识别: 基于规则:使用正则文法对分词后的句子进行反复匹 配。 马欣川 Education: major 人才测评/nm/MAJ degree 博士后/nde/DEG
-------------------------------------------------------------- Work: organization 华南师范大学/nte/EDU 人力资源研究所/ntr/LAB position 副所长/np/POS
单个文档内的合并数据 为何要合并? 余弦相似性:通过测量两个向量之间的角的余弦值来度量 它们之间的相似性。0度角的余弦值是1,而其他任何角度的 余弦值都不大于1;并且其最小值是-1。从而两个向量之间的 角度的余弦值确定两个向量是否大致指向相同的方向。
多个文档间的数据合并 ?
数据展示 CodeIgniter:PHP框架,中文文档齐全,轻量级 SCWS:PHP中文分词框架 D3.js:数据可视化jS框架
D3.js 1 使用的json格式 2 效果 3 API https://github.com/mbostock/d3/wiki/API- Reference