Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
找人
Search
uictechparty
August 04, 2012
Programming
3
470
找人
By Entity Search Engine team, 3n TechParty@UIC
uictechparty
August 04, 2012
Tweet
Share
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
220
香港研究生申请经验分享
uictechparty
0
420
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
150
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
120
jQuery 快速入门
uictechparty
1
150
Introduction to NodeJS
uictechparty
1
220
Introduction to Hadoop
uictechparty
3
230
Other Decks in Programming
See All in Programming
AIに任せる範囲を安全に広げるためにやっていること
fukucheee
0
140
Docコメントで始める簡単ガードレール
keisukeikeda
1
120
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
590
DevinとClaude Code、SREの現場で使い倒してみた件
karia
1
1.1k
エラーログのマスキングの仕組みづくりに役立ったASTの話
kumoichi
0
230
Claude Code の Skill で複雑な既存仕様をすっきり整理しよう
yuichirokato
1
400
ロボットのための工場に灯りは要らない
watany
10
2.9k
What Spring Developers Should Know About Jakarta EE
ivargrimstad
0
560
技術検証結果の整理と解析をAIに任せよう!
keisukeikeda
0
120
grapheme_strrev関数が採択されました(あと雑感)
youkidearitai
PRO
1
230
Windows on Ryzen and I
seosoft
0
300
maplibre-gl-layers - 地図に移動体たくさん表示したい
kekyo
PRO
0
280
Featured
See All Featured
SERP Conf. Vienna - Web Accessibility: Optimizing for Inclusivity and SEO
sarafernandez
1
1.3k
4 Signs Your Business is Dying
shpigford
187
22k
Practical Orchestrator
shlominoach
191
11k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
86
SEO for Brand Visibility & Recognition
aleyda
0
4.4k
Technical Leadership for Architectural Decision Making
baasie
3
290
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Docker and Python
trallard
47
3.8k
How to Grow Your eCommerce with AI & Automation
katarinadahlin
PRO
1
140
GraphQLの誤解/rethinking-graphql
sonatard
75
11k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
150
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Transcript
找人 中文数据抓取、存储、处理及展示解决方案 TechParty@UIC Entity Search Engine team
项目的目标、目前进度及未来方向 目标:通过中文信息抽取的方法从人物的描述性文本中抽取 出该人物的社交图谱、人-机构关系及简历数据,以供检 索。 进度:1. 完成百度百科、互动百科、新浪微博、腾讯微 博、和讯网、CEO网等部分数据的抓取(约1个月) 2. web搜索框架基本完成 3.
命名实体识别(NER,准确率未统计) 4. 实体关系识别(ERR,准确率未统计)
项目的目标、目前进度及未来方向 方向:人肉搜索?人才搜索?
整体架构 Web HtmlUnit 火车头 cnpameng XML Mongodb ICTCLAS NER(PLY) ERR(Regx)
Cosin Simi Mongodb Mongodb Redis CodeIgniter JQuery + D3.js
数据抓取 面临问题:数据结构繁杂、帐号ip可能被封、页面Ajax调 用 使用工具: 1. 火车头:通过编写规则抓取数据 2. HtmlUnit:灵活度高 3. cnpameng:众包形式的数据采集共享
HtmlUnit
数据存储 1. 文件系统? —— FileIO操作,线程锁麻烦不安全 2. 关系型数据库? —— 对非结构化的原始数据不合适 ——
对分布式存储支持不友好 3. Not Only SQL? —— Mongodb, Redis
MongoDB MongoDB (from "humongous") is a scalable, high- performance, open
source NoSQL database. Written in C++ 1. 文档型数据库:类JSON格式的键值对集合 2. 索引:支持对有重复值的key建立索引 3. 全文检索 3. MapReduce
MongoDB
Redis Redis is an open source, advanced key-value store. It
is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis> set k hello OK redis> append k ,world (integer) 11 redis> get k "hello,world"
数据处理 面临问题:无训练用标注语料、中文NLP开源工具缺乏、文 本数据来源繁多
中文自然语言处理 分词:ICTCLAS(中科院),基于HMM 收集词典(HTMLUnit + 火车头) 编译Python接口(工具自带C/C++, Java, C#)
中文自然语言处理 个人/n/O 简介/n/O :/wp/O 马欣川/nr/PER ,/wd/O 男 /nse/SEX 。/wj/O 资深职业顾问/np/POS
、/wn/O 心理学/nm/MAJ 博士 /nde/DEG 、/wn/O 人才测评/nm/MAJ 博士后/nde/DEG 、 /wn/O 原/b/O 华南师范大学/nte/EDU 人力资源研究所 /ntr/LAB 副所长/np/POS 、/wn/O 国内/s/O 最/d/O 具 /vg/O 实战/n/O 经验/n/O 的/ude1/O 人才测评/nm/MAJ 专 家/n/O 之一/rz/O 。/wj/O
信息抽取 命名实体识别: 基于统计:CRF?—— 缺乏训练语料,近似黑盒 基于规则:CFG -> Bison/Flex -> PLY(LALR)
信息抽取 实体关系识别: 基于规则:使用正则文法对分词后的句子进行反复匹 配。 马欣川 Education: major 人才测评/nm/MAJ degree 博士后/nde/DEG
-------------------------------------------------------------- Work: organization 华南师范大学/nte/EDU 人力资源研究所/ntr/LAB position 副所长/np/POS
单个文档内的合并数据 为何要合并? 余弦相似性:通过测量两个向量之间的角的余弦值来度量 它们之间的相似性。0度角的余弦值是1,而其他任何角度的 余弦值都不大于1;并且其最小值是-1。从而两个向量之间的 角度的余弦值确定两个向量是否大致指向相同的方向。
多个文档间的数据合并 ?
数据展示 CodeIgniter:PHP框架,中文文档齐全,轻量级 SCWS:PHP中文分词框架 D3.js:数据可视化jS框架
D3.js 1 使用的json格式 2 效果 3 API https://github.com/mbostock/d3/wiki/API- Reference