Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
找人
Search
uictechparty
August 04, 2012
Programming
480
3
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
找人
By Entity Search Engine team, 3n TechParty@UIC
uictechparty
August 04, 2012
More Decks by uictechparty
See All by uictechparty
产品经理是做什么的呢?
uictechparty
1
240
香港研究生申请经验分享
uictechparty
0
420
css.pdf
uictechparty
1
220
Introduction to Design Patterns
uictechparty
2
170
编写高质量Java代码的7个建议
uictechparty
2
190
视觉障碍出行辅助仪 -The Third Eye
uictechparty
1
150
jQuery 快速入门
uictechparty
1
160
Introduction to NodeJS
uictechparty
1
230
Introduction to Hadoop
uictechparty
3
240
Other Decks in Programming
See All in Programming
Lessons from Spec-Driven Development
simas
PRO
0
220
技術記事、 専門家としてのプログラマ、 言語化
mizchi
13
6.6k
Mujeres en SEO Summit 2026 - Greatest Disaster Hits en Web Performance
guaca
0
210
Hatena Engineer Seminar #37「言語モデルの活用に関する研究」
slashnephy
0
260
そのテスト、説明できますか?~LWテスト戦略FW~のご紹介
nakahara
0
170
Oxcを導入して開発体験が向上した話
yug1224
4
340
任せる範囲はこう広がった / How the Scope of AI Delegation Has Expanded
nrslib
0
160
Language Server 使ってる? 〜VSCode と Zed の場合〜 / Are you using a Language Server? ~For VS Code and Zed~
handlename
0
810
IBM Bobを活用したレガシーアプリの最新化
oniak3ibm
PRO
1
220
才能?センス?知らん、 続けたもん勝ちだ。-- 結婚・出産・癌を越えてなお、私がプロダクトを創り続ける理由
16bitidol
1
530
AIで効率化できた業務・日常
ochtum
0
150
LLMによるContent Moderationの本番運用の裏側と品質担保への挑戦
suikabar
3
790
Featured
See All Featured
Chasing Engaging Ingredients in Design
codingconduct
0
230
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
The Curious Case for Waylosing
cassininazir
1
410
The Cult of Friendly URLs
andyhume
79
6.9k
Navigating Weather and Climate Data
rabernat
0
250
Ecommerce SEO: The Keys for Success Now & Beyond - #SERPConf2024
aleyda
1
2k
Testing 201, or: Great Expectations
jmmastey
46
8.2k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
450
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
260
Faster Mobile Websites
deanohume
310
32k
Building Adaptive Systems
keathley
44
3.1k
Transcript
找人 中文数据抓取、存储、处理及展示解决方案 TechParty@UIC Entity Search Engine team
项目的目标、目前进度及未来方向 目标:通过中文信息抽取的方法从人物的描述性文本中抽取 出该人物的社交图谱、人-机构关系及简历数据,以供检 索。 进度:1. 完成百度百科、互动百科、新浪微博、腾讯微 博、和讯网、CEO网等部分数据的抓取(约1个月) 2. web搜索框架基本完成 3.
命名实体识别(NER,准确率未统计) 4. 实体关系识别(ERR,准确率未统计)
项目的目标、目前进度及未来方向 方向:人肉搜索?人才搜索?
整体架构 Web HtmlUnit 火车头 cnpameng XML Mongodb ICTCLAS NER(PLY) ERR(Regx)
Cosin Simi Mongodb Mongodb Redis CodeIgniter JQuery + D3.js
数据抓取 面临问题:数据结构繁杂、帐号ip可能被封、页面Ajax调 用 使用工具: 1. 火车头:通过编写规则抓取数据 2. HtmlUnit:灵活度高 3. cnpameng:众包形式的数据采集共享
HtmlUnit
数据存储 1. 文件系统? —— FileIO操作,线程锁麻烦不安全 2. 关系型数据库? —— 对非结构化的原始数据不合适 ——
对分布式存储支持不友好 3. Not Only SQL? —— Mongodb, Redis
MongoDB MongoDB (from "humongous") is a scalable, high- performance, open
source NoSQL database. Written in C++ 1. 文档型数据库:类JSON格式的键值对集合 2. 索引:支持对有重复值的key建立索引 3. 全文检索 3. MapReduce
MongoDB
Redis Redis is an open source, advanced key-value store. It
is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis> set k hello OK redis> append k ,world (integer) 11 redis> get k "hello,world"
数据处理 面临问题:无训练用标注语料、中文NLP开源工具缺乏、文 本数据来源繁多
中文自然语言处理 分词:ICTCLAS(中科院),基于HMM 收集词典(HTMLUnit + 火车头) 编译Python接口(工具自带C/C++, Java, C#)
中文自然语言处理 个人/n/O 简介/n/O :/wp/O 马欣川/nr/PER ,/wd/O 男 /nse/SEX 。/wj/O 资深职业顾问/np/POS
、/wn/O 心理学/nm/MAJ 博士 /nde/DEG 、/wn/O 人才测评/nm/MAJ 博士后/nde/DEG 、 /wn/O 原/b/O 华南师范大学/nte/EDU 人力资源研究所 /ntr/LAB 副所长/np/POS 、/wn/O 国内/s/O 最/d/O 具 /vg/O 实战/n/O 经验/n/O 的/ude1/O 人才测评/nm/MAJ 专 家/n/O 之一/rz/O 。/wj/O
信息抽取 命名实体识别: 基于统计:CRF?—— 缺乏训练语料,近似黑盒 基于规则:CFG -> Bison/Flex -> PLY(LALR)
信息抽取 实体关系识别: 基于规则:使用正则文法对分词后的句子进行反复匹 配。 马欣川 Education: major 人才测评/nm/MAJ degree 博士后/nde/DEG
-------------------------------------------------------------- Work: organization 华南师范大学/nte/EDU 人力资源研究所/ntr/LAB position 副所长/np/POS
单个文档内的合并数据 为何要合并? 余弦相似性:通过测量两个向量之间的角的余弦值来度量 它们之间的相似性。0度角的余弦值是1,而其他任何角度的 余弦值都不大于1;并且其最小值是-1。从而两个向量之间的 角度的余弦值确定两个向量是否大致指向相同的方向。
多个文档间的数据合并 ?
数据展示 CodeIgniter:PHP框架,中文文档齐全,轻量级 SCWS:PHP中文分词框架 D3.js:数据可视化jS框架
D3.js 1 使用的json格式 2 效果 3 API https://github.com/mbostock/d3/wiki/API- Reference